A World Wide Web Consortium Magyar Irodájának logója

A W3C Szemantikus Web Műhelykonferencia kivonatai

2006. április 13. csütörtök, Budapest
MTA SZTAKI, Tanácsterem (1111 Budapest, Kende u. 13-17.)

A rendezvényről bővebben a műhelykonferencia honlapján olvashat.

Tartalom

Stratégiák

Konzorciumi projektek

Egészségügy

Ipar

Tudástár


Ekormányzat és a Szemantikus Web

Vámos Tibor akadémikus
MTA SZTAKI

General requirements of semantic web do not differ in e-government applications from any other field of usage. The only relevant other aspect is the social environment of the man-machine dialog. Semantic web users are supposed to be subject-oriented people, professionals of a certain discipline or inquirers of certain interests. The citizen of a democratic society should use the e-government service as an open source of information, independently of his/her cultural-social-legal knowledge background. That means a wide understanding of natural languages, dialects, idioms of social vernaculars and an ability to respond in a quasi-similar attitude.

Our efforts are concentrated on that task, analyzing a broad spectrum of several thousand citizen claims arriving into the Minister of Justice's Office. The first matrix to be constructed is the social-thematic distribution. The next step is the creation of scripts related to that matrix. The final stage is the response scheme converted into a natural language specific. The research investigates the current limits of those disciplinary tools, i.e. the flexible design optimum of a machine support for human administrative work. The project is a joint effort of our institute with the Department of Social Psychology, Pécs, led by Prof. J. László and S. Bigazzi, D. Kabai, and P. Schönhoffen (SzTAKI).


A Szemantikus Web oktatása

Dr. Szeredi Péter, Lukácsy Gergely
BME SZIT

A Budapesti Műszaki és Gazdaságtudományi Egyetem Számítástudományi és Információelméleti tanszékén már harmadik éve oktatjuk a ,,Szemantikus világháló és az ontológiakezelés alapjai'' c. választható tárgyat. Az előadások keretében bemutatjuk a ,,hagyományos'' világháló használata során felmerülő problémákat, majd az ezek megoldására kifejlesztett szemantikus módszereket. Az idevágó W3C nyelvek (XML, RDF, OWL) ismertetése mellett, bemutatjuk ezek elméleti hátterét is: a leíró logikákat és ezek következtetési módszereit. Röviden ismertetjük a szemantikus integrációt támogató Sintagma rendszert is. A tárgy anyagát tartalmazó tankönyv a Typotex kiadónál jelent meg, ,,A szemantikus világháló elmélete és gyakorlata'' címmel.

A Műhelykonferencián röviden áttekintjük a tárgy felépítését és beszámolunk oktatási tapasztalatainkról.


Beszámoló a MEO projekt eddigi eredményeiről

Dr. Szakadát István
BME GTK Társadalomismeret Intézet, MOKK

Az NKFP-2 által támogatott MEO projekt fő célja egy ontológiainfrastruktúra kidolgozása, egy csúcsontológia és egy szakontológiára támaszkodó alkalmazás felépítése. Bár az ontológiahasználat céljairól, módszereiről, tényleges alkalmazásairól még keveset tudunk, úgy tűnik, hogy az ontológiapítés és - továbbfejlesztés elvei, módszertana, gyakorlata általánosítható. Ezért van kiemelt jelentősége az ontológiainfrsatruktúra fogalmának az egész projekten belül. A MEO-projekt annyiban egyedülállónak tűnik az ontológiaépítő projektek között, hogy az ontológia kulcselemét jelentő, nyelvfüggetlen módon reprezentált fogalmak mellett egységesen, a rendszerbe integráltan fogja kezelni a nyelvi erőforrásokat. Az előadásban röviden bemutatjuk a rendszer modelljét, a legfontosabb fogalmak és metafogalmak értelmezését, a konzisztenciaellenőrzések módszertanát, a tudásreprezantáció terén alkalmazott megoldásainkat, az ontológiaszerkesztővel szemben támasztott követelményeket.


A SINTAGMA szemantikus integrációs rendszer

Lukácsy Gergely
BME SZIT
Szekeres András Márk
MTA SZTAKI, Informatika Osztály

A SINTAGMA (Szemantikus INtegrációs Technológia Alkalmazása Grid-alapú Modell-vezérelt Architektúrákban) c. NKFP projekt egyik fő célja a szemantikusweb-technológiák alkalmazása az információ-integráció területén. A projekt résztvevői a KFKI Számítástechnikai Rt., SZTAKI, BME, és Hunoris, mint fejlesztők, valamint MTI, OSZK és Areco, mint alkalmazó partnerek.

A projekt alapgondolata az, hogy az információs rendszerekre vonatkozó ismereteket (metaadatokat) egy modell-tárházban tároljuk. Ezeket az ismereteket többféle formalizmussal adhatjuk meg, pl. leíró-logikában (Description Logics) vagy objektum-orientált módon (UML). A tudásbázisban tároljuk a modell jellemzőit: a fogalmak, osztályok szerkezetét, kapcsolataik leírását. Emellett fontos szerepet kapnak az objektumokat, kapcsolatokat jellemző megszorítások, korlátok, amelyek megfogalmazására részben az OCL (az UML részét képező Object Constraint Language) nyelvet, részben a leíró-logika nyelvét használjuk.

A műhelykonferencián áttekintjük a SINTAGMA rendszer architektúráját, majd bemutatjuk a szemantikus technológiákat támogató komponenseket, például az RDF csatolót, a leíró logikai következtetőt, ill. a szövegfeldolgozást végző modult.


Szemantikus webszolgáltatások használatát támogató middleware

Dr. Micsik András
MTA SZTAKI, DSD

Az INFRAWEBS európai kutatás-fejlesztési projekt egy olyan szolgáltatásfejlesztést támogató szoftver környezet kialakításán dolgozik, amely a Szemantikus Webszolgáltatások (SWS) mindennapi használatát teszi lehetővé, és támogatja a Szemantikus Webszolgáltatások teljes életciklusát. Ide tartozik a hagyományos Webszolgáltatások "szemantikus szintre emelése", azok meghirdetése és keresése a hálózaton, egy vagy több SWS végrehajtása, a végrehajtás monitorozása, hibajavítás, stb. Az előadás a két legalapvetőbb feladat, a keresés és végrehajtás problémáira fókuszál.


FUSION: Szolgáltatás-orientált üzleti rendszerek szemantikus integrációja

Dr. Szikora Béla
BME ETT

A FUSION Szolgáltatás-orientált üzleti rendszerek szemantikus integrációja c. EU FP6-os projekt eredeti angol címe Business process FUSION based on Semantically-enabled Service-Oriented Business Applications. A konzorciumnak 14 tagja van öt országból, közöttük az SAP AG úgyis, mint konzorciumvezető.

A kutatás célja módszertan és integrációs mechanizmus kifejlesztése a kis- és közepes vállalkozások számára üzleti alkalmazások, elsősorban vállalatirányítási rendszerek és ügyfélkapcsolat-kezelő rendszerek szemantikai alapú integrációjához. Az eredményekkel szemben elvárás, hogy más rendszerekre is kiterjeszthetők legyenek. A megvalósításban nyílt szabványokra és technológiákra kívánunk támaszkodni, elsősorban a szemantikus web eszközeire (pl. XML, SOAP, WSDL, UDDI, OWL, WSMO meglévő üzleti ontológiák, BPEL4WS).


Információkeresés Jelentésreprezentáció Alapján

Szőts Miklós
Alkalmazott Logikai Laboratórium

A "szemantikus web" jelszó sok különböző értelmezést elvisel. Előadásom ennek a kifejezésnek egy maximális értelmezését vállalja: a szemantikus (jelentésen alapuló) információkeresés a szövegrészletek jelentésreprezentációinak egyeztetetésén alapul. Azaz a vízionált rendszer a kereső kifejezés egy jelentésreprezentációjához keres hasonló jelentésreprezentációval rendelkező szövegrészleteket. Ehhez mind a nyelvi tudást, mind a világról szóló ismereteket (a világmodellt) reprezentálni kell. A világmodellt egy relációkkal gazdagon felfegyverzett ontológiában szándékozzuk tárolni, ahol a fogalmakat a szemantikus asszociációk szervezik struktúrába. A nyelvi tudást egy lexikalista nyelvtan szerint formalizáljuk, ahol a szintaktikus viszonyokat (pl. vonzatkeretet) is reprezentáljuk. A nyelvi tudás reprezentációja és a világmodell (ontológia) közti reláció reprezentálja a nyelv szemantikáját. Ez a nyelvtani viszonyoknak is megfelelteti az általuk kifejezett szemantikus asszociációt.

A feladat komplexitása miatt nem is gondolunk általános célú rendszerre, hanem egy szakterületre, problématerületre koncentráló keresésre. Az előadásban példákon keresztül mutatom be elképzelésünket.

Az előadás egy víziót ismertet. Tudatában vagyunk annak, hogy több terület jelentős kutatói, fejlesztői erőfeszítése szükséges már annak elérésére is, hogy a megközelítés realitását bizonyítsuk. Épp ezért kitérek a problémák részletes ismertetésére is.


A BNO10 formális reprezentálása a GALEN alapján

Dr. Surján György, Héja Gergely
ESKI

Az előadás a BNO10 kódrendszer GALEN referencia-ontológiára épülő formális ábrázolását mutatja be. A cél egy tudás-intenzív kódolás-támogató eszköz kifejlesztése. A BNO első két fejezetének formális ábrázolása gyakorlatilag megtörtént. Az előadás bemutatja a modellezés fő szempontjait és a tapasztalt nehézségeket. Az elkészült ontológiát OWL nyelvre transzformáltuk és egy tesztrendszer is ki lett alakítva, hogy ellenőrizzük a rendszer használhatóságát. A rendszer sikeresen azonosított betegségeket emésztő-szervrendszeri onkológiai kórlapokban (84% felidézés, azonban csak 45% pontosság). Az osztályozó modul még mindig fejlesztés alatt áll.


Nagytömegű, struktúrált szövegek online szolgáltatása

Király Péter
Tesuji Magyarország Kft.

Az Arcanum Adatbázis Kft. 1991 óta folytat szövegdigitalizációs tevékenységet, aminek eddigi eredménye körülbelül 10 gigabájtnyi 'tiszta' szöveg (formázási és szemantikai jelölőelemek nélkül számolva). Az offline kiadványokon alkalmazott Folio adatbáziskezelő egy olyan rendszer, ami valamiképpen megvalósítja a szemantikus rendszerek bizonyos célkütűzéseit, amennyiben lehetőséget teremt arra, hogy tetszőleges szövegben hierarchikus (szintek) és 'inline' (mezők) szemantikus egységeket hozzunk létre. A feladat - egy ideje - az, hogy hogyan tudjuk ezt a rendszert a weben reprodukálni, ennek legújabb állomása az Anacleto, ami képes az Arcanum speciális dokumentumtípusait kezelni, de elég általános ahhoz is, hogy szabványos dokumentumtípusokat (pl. XMP-RDF, TEI-XML stb.) is kezelni tudjon, sőt alkalmazható egyáltalán nem szemantikus dokumentumkezelőként is (pl. Project Gutenberg CC). Eltérően az "igazi" szemantikus web alkalmazásoktól, itt hatalmas szövegek vannak (kb. 3 millió nyomtatott oldalnyi szöveg), amelyek nem automatikusan és nem rendszeren belül keletkeztek, hanem konvertálásra van szükség.

Az egész folyamat haszna egyelőre elsősorban az, hogy ezeket a döntően bölcsészeti jellegű szövegeket (szótárak, történeti, irodalmi szövegek, folyóiratok) egyben lehet látni, egységes szempontok szerint lehet keresni (pl. a Kossuthot ábrázoló képeket, vagy a Kossuth írta dokumentumokat). A szövegmennyiségből számos tanulság is adódik pl. az összességében több millió szóalak jelentős részét a mai magyar nyelvi értelmezőprogramok nem ismerik fel, nem beszélve arról, hogy az elérhető magyar ontológiák (pl. OSzK tezaurusz) néhány ezres fogalomkészletei ennek az adathalmaznak csak töredékét fedik le.


Karbantartható adatkezelés a Szemantikus Web segítségével

Tamási Árpád
Progos

A szoftverek életciklusának minden szakaszában sok problémát okoz, hogy egy-egy adat a program különböző részein más-más módon jelenik meg. Ugyanazt az adatot értelmeznünk kell HTTP kérés paramétereként, kezelnünk Java objektum mezőjeként, tárolnunk adatbázis-oszlopban, és hogy a kör teljes legyen, HTML űrlapmezőben meg kell jelenítenünk. Az adat mozgatása, sokszoros konverziója gyakori hibaforrás fejlesztéskor, a változások minden térben megtörténő követése pedig az életciklus későbbi szakaszaiban jár sok munkával. A Progos-nál ezeket a tereket összekötöttük a Szemantikus Web segítségével.


Tezauruszok mint "kisvilágok"

Kapcsoltság a fogalmak között

Ungváry Rudolf
OSZK

Ha a strukturált információkereső-nyelvi szótárakat hálózatként vizsgáljuk, nyilvánvalóvá válik, hogy a kapcsoltságuk alapján - a természetes nyelvéhez és az internethez hasonlóan - a Barabási által vizsgált skálafüggetlen hálózatok csoportjába tartoznak. Kapcsoltságuk mértéke a tapasztalatok szerint 6-8 közé esik. A tezauruszok megjelenésével egyben első alkalommal áll rendelkezésre olyan hálózati térkép, melynek alapján magának a természetes nyelvnek s a mögötte álló fogalmi rendszernek a skálafüggetlen viselkedése elemezhető. Az előadásban empírikus formában mutatjuk be a "kisvilágszerű" működést.


Egy magyar WordNet felé

Miháltz Márton, Dr. Prószéky Gábor
MorphoLogic Kft.

Az MTA Nyelvtudományi Intézet, a Szegedi Tudományegyetem és a MorphoLogic Kft. részvételével 2005-ben indult, hároméves GVOP-AKF projekt célja egy magyar nyelvű, de a többnyelvű EuroWordnet rendszerbe illeszkedő WordNet nyelvi ontológia létrehozása, és egy ezen alapuló információkinyerő rendszer kifejlesztése. A EuroWordnet architektúrában az angol WordNet fogalmi csmópontjai biztosítják a nyelvek közötti átjárhatóságot. A projektben ennek egy további kiterjesztését, a BalkaNet projekt kiinduló halmazát (BalkaNet Concept Set) választottuk a magyar WordNet kiindulópontjául. Az angol synseteket gépi heurisztikákkal fordítottuk le és az eredményeket kézi munkával javítottuk és ellenőriztük, szükség esetén a magyar nyelv fogalmi rendszerének megfelelően átstrukturáltuk. Az ilyen módon előállított mag-ontológiát korpusz-gyakorisági vizsgálatok alapján megállapított, további alapvető magyar nyelvi fogalmakkal egészítettük ki. Az előadásban bemutatjuk munkamódszereinket, eddigi eredményeinket, valamint a projekt további további lépéseit.


Kulturális örökség a Szemantikus Weben

A Museum24 projekt

Szász Barnabás
Museum24 projekt

Multimédia dokumentumok tartalmának leírása és tárolása olyan módszerekkel, melyek lehetővé teszik azok egyszerű visszakeresést és szerkesztést, régóta kutatott probléma. Az Interneten információt kereső felhasználók többsége nem rendelkezik kiforrott információ keresési stratégiákkal. A Full-Text keresőrendszerek teljesítménye nem ideális, különböző megoldásokkal szükséges a hétköznapi felhasználók számára azok hatékonyságát javítani.

Az Előadás bemutatja a Museum24 szemantikus virtuális múzeumot, mely Közép-Finnország kultúrális örökséget teszi az interneten hozzáférhetővé. A projekt célul tűzte ki, hogy az egyébként nagy számmal de elszórtan működő kis helyi múzeumokat egyetlen nagyobb szabású portálon integrálja. A múzeumok nemcsak földrajzilag, de a bemutatott tartalom jellegét tekintve is igen nagy szórást mutatnak. A múzeumok közötti kereszthivatkozások a "kőből készült" intézmények között igen nehézkesen oldhatók meg. Így a projekt egyfajta hidat képez köztük, egy kontextusba foglalja őket.

Bemutatjuk, hogyan és milyen eszközökkel lehetséges egy szemantikusan gazdagon összefüggő tartalomból multimédiás portált építeni. Továbbá bemutatunk egy általános koncepciót, hogyan lehetséges félautomata módszerekkel multimédia dokumentumokat annotálni és a metainformációkat CIDOC-MPEG7 alapú ontológiában tárolni. Tárgyaljuk a nyilvános és az adminisztratív felhasználói felületeket azt vizsgálva, hogyan lehet a látogatóknak hasznos navigációs és keresőfelületet nyújtani és miként lehet a portál karbantartását gyors és hatékony eszközökkel elősegíteni.


Ismeretábrázolások tudástermékekben és integrált tudásrendszerben

Többszintű ontográfok

Dr. Árkossy Csaba
Triopus Bt.
Dr. Tichy-Rács Ádám
BME OMIKK
Turcsányi Péter
BME OMIKK

A BME OMIKK és a TRIOPUS BT informatikai fejlesztései a 2000-2005-ös évek során több olyan IT alkalmazás teljes vagy részleges megvalósítását eredményezték, amelyek az ismeretek kezelését adatbáziskezelő rendszerekre alapozták. Ilyenek a Nemzeti Kutatás-nyilvántartási Rendszer, a Bibliográfiai Adattárház és Témaháló, a Gazdasági és Műszaki Kiadvány Archívum, az Egyetemi Tudásközpont, valamint az EU eContent pályázati projekthez szánt "Tudástárház és Multikulturális EuroFórum" megaportál.

A most következő szakaszban a külön-külön létrehozott alkalmazásoknak a közös továbbfejlesztését vagy kiegészítését tervezzük a szemantikus web eszközeire támaszkodva. Célunk az, hogy a különböző adatbázisokban, tudástermékekben, integrált tudásrendszerekben tárolt ismeretekről szóló metainformációkat minél szélesebb körben tegyük elérhetővé és feldolgozhatóvá az internetes kereső motorok számára.

Tekintettel arra, hogy folyamatosan gazdagodó, frissülő, nagyméretű digitális állományok, illetve a sok párhuzamosan készülő tudásterméket integráló többszintes integrált tudásrendszerek anyagáról kell ontológiai gráfokat előállítani, elsődleges feladatunk azoknak az eljárásoknak a felhasználása illetve adaptálása, amelyek lehetővé teszik a számítógépes támogatást az RDF/OWL anyagok, a többszintű ontográfok "nagyüzemi" előállításában.