Leírás-alapú visszakeresés a World Wide Weben

Az eredeti dokumentum:
Finding things on the Web - Description-based Retrieval on the World Wide Web
www.w3.org/Conferences/WWW4/Panels/krp/macgregor.html
A lefordított dokumentum:
www.w3c.hu/forditasok/sikos/leiras/macgregor.html
Magyar fordítás (Hungarian translation):
Dr. Sikos László (leslie [kukac] lesliesikos [pont] com)
A fordítás státusa:
A W3C szerverén tárolt dokumentum fordítása a Szerző, Robert MacGregor tudomásával, a fordításokra előírt formai szabályok szerint, lelkiismeretes szakfordítói munkával készült. Ennek ellenére nem lehet kizárni, hogy hibák maradtak a fordításban.
Megjegyzések a fordításhoz:
1.) A fordítással kapcsolatos olvasói észrevételeket a fordító e-mail címére továbbíthatja.
2.) A fordítás során az eredeti dokumentum forráskódja nem lett megváltoztatva.

Leírás-alapú visszakeresés a World Wide Weben

Robert MacGregor
USC/Information Sciences Institute
macgregor@isi.edu

Bevezetés

Ahogy növekszik a Weben elérhető információmennyiség, a hasznos információmennyiség is nő, de azt - és tényleg csak azt - megtalálni, amit szeretnénk, fokozatosan nehezebbé válik. Egy információ-visszakereső eszköz teljesítménye a teljesség (mindent megtaláljunk, ami a lekéréshez kapcsolódik) és pontosság (csak azt találjuk meg, ami releváns) alapján értékelhető. A Webes lekérdezők mostani generációján még van mit javítani. Nem hivatalos becslések szerint teljesítményük az alábbi:

Technológia
Hiperhivatkozások (Webszörfözés)
Kategória-böngészők (pl. YAHOO)
Webes keresőgépek
Teljesség
Nagyon alacsony
Alacsony
Közepes
Pontosság
Közepes
Alacsony/közepes
Alacsony

Feltételezhető, hogy a kategória-hierarchiákon (taxonómiákon) alapuló indexelési sémákat használó Webes lekérdezők terjednek el, nagyon nagy taxonómiákat és nagyszámú, függetlenül felépített és kezelt taxonómiákat eredményezve.

The WWW as a tree

WWW

Jelenleg a nagy rendszerezések, mint amilyen a Library of Congress (=Kongresszusi Könyvtár) fejléc indexe, kézzel készülnek. Ahogy a webes rendszerezések átlagmérete a pár száz csomópontról több millióra nő, a manuális felépítés lehetetlenné válik. Ehelyett automatizált és félautomata technikák használata válik szükségessé. Új objektumok osztályozása egy taxonómiába automatikusan kell, hogy történjen, a kiegyensúlyozatlan hierarchiáknak pedig újra kell tudni építeni magukat. A rendszerezések méretbeli növekedésével szükségessé válik a megkülönböztető jegyek pontosságának növelése is az információs objektumok között, hogy a keresőmotorok számára megkülönböztethetők maradjanak. A következőkben bemutatjuk egy elképzelést ("tartalom-leírások"), és részletezésre kerül, miként könnyítik meg a nagyon nagy méretű taxonómiák felépítését.

Tartalom-leírások

A leírás egy olyan jelölés, ami egy információs objektum tartalmát teszi közzé. A visszakeresések a felhasználói lekérdezéseknek megfelelő objektumok és azok leírásai közötti egyeztetéssel történik. Egy szöveges dokumentumhoz mellékelt kulcsszólista a leírások informális típusa. A kulcsszólisták információs objektumok tartalmának leírására való képessége korlátos. Kétséges például, hogy egy kulcsszólista a listában szereplő témák konjunkcióját vagy diszjunkcióját tartalmazza-e. A kulcsszólisták nem jelzik a szemantikus kapcsolatokat a kulcsszavak között. Ezen informalitás és a kifejezőerő hiánya miatt a kulcsszó-alapú keresések relatíve kis pontosságúak. A kifejezőerő és a leírások megfelelő szemantikájának növelése lehetővé teszi a növekvő pontosságú visszakeresési sémákat. A megfelelő szemantika használata lehetőséget ad továbbá az automatizált osztályozási sémák létrehozására is.

Tegyük fel, hogy egy szervezetet a "cukorbeteg gyermekek szüleit támogató csoportok" leírással szeretnénk hirdetni. Adott a következő taxonómina-részlet:

Támogató csoport
Drogosok rehabilitálását támogató csoport
Szülők támogató csoportja
Fejlődési rendellenességben szenvedő gyerekek szüleit támogató csoport
Egyedülálló anyák támogató csoportja

leírásunk a "fejlődési rendellenességben szenvedő gyerekek szüleit támogató csoport" altémájakétn osztályozható. Ha ezen leírások mindegyike formális definícióval rendelkezik, akkor az osztályozás automatizálható. A "cukorbeteg gyermekek szüleit támogató csoport" leírás formális verziója OSQL-szintaxissal:

     select g in Tamogato-Csoport
     where forall m in cs.tagok
           always (exists v in t.gyerekek where v.cukorbeteg)

Millió csomópontos osztályozás

A formális leírások lehetővé teszik a tetszőleges pontosságú megkülönböztetést az információ-elempárok között, valamint engedélyezik az automatikus kategorizálást is. Mindkettő szükséges a nagyon nagy méretű taxonómiák kezeléséhez. Ezek biztosítanak a kiterjedés megakadályozásához szükséges "virtuális csomópontok" előállításához szükséges reprezentációs keretrendszert is. Az attribútum-érték párosokat definiáló információ-visszakeresési technikák célja részben hasonlít a leírásainkra.

A formális leírások sajátossága, hogy összegzésüknek teljesen vagy részben automatizáltnak kell lennie. Néhány lehetőség:

  1. Webes hirdetők között azon "szokás" elterjesztése, hogy az információhoz formális leírást mellékeljenek (hasonlóan egy dokumentum kulcsszavának megadásához)
  2. Leírások készítése részben struktúrált objektumok szerkezeti részeiből
  3. Olyan tartalom-értelmezők fejlesztése, melyek megvizsgálják a dokumentumot (pl. szöveget vagy egy képet) és előállítják az azt összefoglaló formális leírást.

Keresés néhány száz osztályozásban

A "cukorbeteg gyerekek szüleit támogató csoportok dokumentumait" kereső vagy ehhez hasonló lekérdezések végrehajtásához először is meg kell találni az összes olyan osztályozást, ami releváns információt tartalmazhat. Ezután a lekérdezés motorjának végig kell nézni az összes ilyen taxonómiát, a lekérdezésnek megfelelő csomópontokat keresve. Új generációs eszközök szükségesek az ilyen keresések végrehajtásához (a tradicionális adatbázis-lekérdező eszközök ugyanis a keresési problémának csak egy részét oldják meg). A tudásreprezentáció osztályozó technológiája pontosan ilyen, csak még "ipari felhasználása" várat magára (sokkal hatékonyabb indexelési technikák, integráció relációs adatbázis-kezelő rendszerekkel (RDBMS), párhuzamos keresési algoritmusok).

A bábeli probléma

If each taxonomy is uses its own unique vocabulary , and if there is no means for aligning that vocabulary with that used in other taxonomies, then we have the Babel situation where everyone is speaking a different language, and no one can understand a vocabulary other than their own. Ha minden taxonómia a saját egyéni szótárát használja és nem hangoljuk össze más taxonómiák szótáraival, akkor bábeli helyzet alakul ki, ahol mindenki más nyelvet beszél, és senki sem érti meg más szavait. A probléma legközvetlenebb megoldása egy olyan áthidaló keretrendszer adaptálása, ami definiálja a különféle taxonómiákban használt összes szót (pl. a Library of Congress sémát, a SENSUS taxonómiát vagy a Cyc taxonómiát saját egyéni taxonómiánk alapjául vesszük). Még valószínűbb eset, amikor számos részben szabványosított taxonómia létezik a különféle domainekhez (vö. a MeSH taxonómiát az orvostudományban). Azoknak a kereséseknek, melyek több taxonómiát vonnak össze, a különböző szótárak összehangolásához bizonyos információkra van szükségük. Kisebb taxonómiák egyesítésével létrehozott nagyobb taxonómiák közös helyen lesznek, és az integrációhoz egy új típusú eszközkészletre lesz szükség. Az egyesítés egyszerűbb, az eredmény pedig megbízhatóbb lesz, ha egy formális szemantika képezi az egyesített taxonómiák alapját.

Konklúzió

A leírás-alapú technológia saját szervezésű webindexek fejlesztésére kínál stratégiát. Ezen indexek nélkülözhetetlenek az óriási méretű taxonómiák felépítéséhez. A visszakeresés elérhető pontosságának mértéke a leírások használatával a leírónyelvtől és a leírási szemantika formalitásának fokától függ. Ez a terület számos technológiát kínál, melyek segítenek a webes lekérdezőeszközök új generációjának fejlesztésében.