Leírás-alapú visszakeresés a World Wide Weben
- Az eredeti dokumentum:
- Finding things on the Web - Description-based Retrieval on the World Wide Web
- www.w3.org/Conferences/WWW4/Panels/krp/macgregor.html
- A lefordított dokumentum:
- www.w3c.hu/forditasok/sikos/leiras/macgregor.html
- Magyar fordítás (Hungarian translation):
- Dr. Sikos László (leslie [kukac] lesliesikos [pont] com)
- A fordítás státusa:
- A W3C szerverén tárolt dokumentum fordítása a Szerző, Robert MacGregor tudomásával, a fordításokra előírt formai szabályok szerint, lelkiismeretes
szakfordítói munkával készült. Ennek ellenére nem lehet kizárni, hogy
hibák maradtak a fordításban.
- Megjegyzések a fordításhoz:
- 1.) A fordítással kapcsolatos olvasói észrevételeket a fordító e-mail
címére továbbíthatja.
2.) A fordítás során az eredeti dokumentum forráskódja nem lett megváltoztatva.
- Robert MacGregor
- USC/Information Sciences Institute
- macgregor@isi.edu
Ahogy növekszik a Weben elérhető információmennyiség, a hasznos információmennyiség is nő, de azt - és tényleg csak azt - megtalálni, amit szeretnénk, fokozatosan nehezebbé válik. Egy információ-visszakereső eszköz teljesítménye a
teljesség (mindent megtaláljunk, ami a lekéréshez kapcsolódik) és
pontosság (csak azt találjuk meg, ami releváns) alapján értékelhető. A Webes lekérdezők mostani generációján még van mit javítani. Nem hivatalos becslések szerint teljesítményük az alábbi:
Technológia
Hiperhivatkozások (Webszörfözés)
Kategória-böngészők (pl. YAHOO)
Webes keresőgépek
|
Teljesség Nagyon alacsony Alacsony Közepes
|
Pontosság Közepes Alacsony/közepes Alacsony
|
Feltételezhető, hogy a kategória-hierarchiákon (taxonómiákon) alapuló indexelési sémákat használó Webes lekérdezők terjednek el, nagyon nagy taxonómiákat és nagyszámú, függetlenül felépített és kezelt taxonómiákat eredményezve.
WWW
Jelenleg a nagy rendszerezések, mint amilyen a Library of Congress (=Kongresszusi Könyvtár) fejléc indexe, kézzel készülnek. Ahogy a webes rendszerezések átlagmérete a pár száz csomópontról több millióra nő, a manuális felépítés lehetetlenné válik. Ehelyett automatizált és félautomata technikák használata válik szükségessé. Új objektumok osztályozása egy taxonómiába automatikusan kell, hogy történjen, a kiegyensúlyozatlan hierarchiáknak pedig újra kell tudni építeni magukat. A rendszerezések méretbeli növekedésével szükségessé válik a megkülönböztető jegyek pontosságának növelése is az információs objektumok között, hogy a keresőmotorok számára megkülönböztethetők maradjanak. A következőkben bemutatjuk egy elképzelést ("tartalom-leírások"), és részletezésre kerül, miként könnyítik meg a nagyon nagy méretű taxonómiák felépítését.
A leírás egy olyan jelölés, ami egy információs objektum tartalmát teszi közzé. A visszakeresések a felhasználói lekérdezéseknek megfelelő objektumok és azok leírásai közötti egyeztetéssel történik. Egy szöveges dokumentumhoz mellékelt kulcsszólista a leírások informális típusa. A kulcsszólisták információs objektumok tartalmának leírására való képessége korlátos. Kétséges például, hogy egy kulcsszólista a listában szereplő témák konjunkcióját vagy diszjunkcióját tartalmazza-e. A kulcsszólisták nem jelzik a szemantikus kapcsolatokat a kulcsszavak között. Ezen informalitás és a kifejezőerő hiánya miatt a kulcsszó-alapú keresések relatíve kis pontosságúak. A kifejezőerő és a leírások megfelelő szemantikájának növelése lehetővé teszi a növekvő pontosságú visszakeresési sémákat. A megfelelő szemantika használata lehetőséget ad továbbá az automatizált osztályozási sémák létrehozására is.
Tegyük fel, hogy egy szervezetet a "cukorbeteg gyermekek szüleit támogató csoportok" leírással szeretnénk hirdetni. Adott a következő taxonómina-részlet:
- Támogató csoport
- Drogosok rehabilitálását támogató csoport
- Szülők támogató csoportja
- Fejlődési rendellenességben szenvedő gyerekek szüleit támogató csoport
- Egyedülálló anyák támogató csoportja
leírásunk a "fejlődési rendellenességben szenvedő gyerekek szüleit támogató csoport" altémájakétn osztályozható. Ha ezen leírások mindegyike formális definícióval rendelkezik, akkor az osztályozás automatizálható. A "cukorbeteg gyermekek szüleit támogató csoport" leírás formális verziója OSQL-szintaxissal:
select g in Tamogato-Csoport
where forall m in cs.tagok
always (exists v in t.gyerekek where v.cukorbeteg)
A formális leírások lehetővé teszik a tetszőleges pontosságú megkülönböztetést az információ-elempárok között, valamint engedélyezik az automatikus kategorizálást is. Mindkettő szükséges a nagyon nagy méretű taxonómiák kezeléséhez. Ezek biztosítanak a kiterjedés megakadályozásához szükséges "virtuális csomópontok" előállításához szükséges reprezentációs keretrendszert is. Az attribútum-érték párosokat definiáló információ-visszakeresési technikák célja részben hasonlít a leírásainkra.
A formális leírások sajátossága, hogy összegzésüknek teljesen vagy részben automatizáltnak kell lennie. Néhány lehetőség:
- Webes hirdetők között azon "szokás" elterjesztése, hogy az információhoz formális leírást mellékeljenek (hasonlóan egy dokumentum kulcsszavának megadásához)
- Leírások készítése részben struktúrált objektumok szerkezeti részeiből
- Olyan tartalom-értelmezők fejlesztése, melyek megvizsgálják a dokumentumot (pl. szöveget vagy egy képet) és előállítják az azt összefoglaló formális leírást.
A "cukorbeteg gyerekek szüleit támogató csoportok dokumentumait" kereső vagy ehhez hasonló lekérdezések végrehajtásához először is meg kell találni az összes olyan osztályozást, ami releváns információt tartalmazhat. Ezután a lekérdezés motorjának végig kell nézni az összes ilyen taxonómiát, a lekérdezésnek megfelelő csomópontokat keresve. Új generációs eszközök szükségesek az ilyen keresések végrehajtásához (a tradicionális adatbázis-lekérdező eszközök ugyanis a keresési problémának csak egy részét oldják meg). A tudásreprezentáció osztályozó technológiája pontosan ilyen, csak még "ipari felhasználása" várat magára (sokkal hatékonyabb indexelési technikák, integráció relációs adatbázis-kezelő rendszerekkel (RDBMS), párhuzamos keresési algoritmusok).
If each taxonomy is uses its own unique vocabulary , and if there is no means for aligning that vocabulary with that used in other taxonomies, then we have the Babel situation where everyone is speaking a different language, and no one can understand a vocabulary other than their own.
Ha minden taxonómia a saját egyéni szótárát használja és nem hangoljuk össze más taxonómiák szótáraival, akkor bábeli helyzet alakul ki, ahol mindenki más nyelvet beszél, és senki sem érti meg más szavait. A probléma legközvetlenebb megoldása egy olyan áthidaló keretrendszer adaptálása, ami definiálja a különféle taxonómiákban használt összes szót (pl. a Library of Congress sémát, a SENSUS
taxonómiát vagy a Cyc
taxonómiát saját egyéni taxonómiánk alapjául vesszük). Még valószínűbb eset, amikor számos részben szabványosított taxonómia létezik a különféle domainekhez (vö. a MeSH
taxonómiát az orvostudományban). Azoknak a kereséseknek, melyek több taxonómiát vonnak össze, a különböző szótárak összehangolásához bizonyos információkra van szükségük. Kisebb taxonómiák egyesítésével létrehozott nagyobb taxonómiák közös helyen lesznek, és az integrációhoz egy új típusú eszközkészletre lesz szükség. Az egyesítés egyszerűbb, az eredmény pedig megbízhatóbb lesz, ha egy formális szemantika képezi az egyesített taxonómiák alapját.
A leírás-alapú technológia saját szervezésű webindexek fejlesztésére kínál stratégiát. Ezen indexek nélkülözhetetlenek az óriási méretű taxonómiák felépítéséhez. A visszakeresés elérhető pontosságának mértéke a leírások használatával a leírónyelvtől és a leírási szemantika formalitásának fokától függ. Ez a terület számos technológiát kínál, melyek segítenek a webes lekérdezőeszközök új generációjának fejlesztésében.