A World Wide Web Consortium kibocsátotta a VoiceXML 2.0 és a "Beszédfelismerés nyelvtani meghatározása" W3C-ajánlásokat

A W3C "Beszédillesztő keretrendszerének" kritikus elemei elkészültek

Amerikai, ausztáliai kapcsolat --: Janet Daly, <janet@w3.org>, +1 617 253 5884 vagy +1 617 253 2613
Európai kapcsolat --: Marie-Claire Forgue, <mcf@w3.org>, +33 492 38 75 94
Ázsiai kapcsolat --: Yasuyuki Hirakawa <yasuyuki@w3.org>, +81 466 49 1170

http://www.w3.org/ -- 2004. március 16. -- A World Wide Web Consortium (W3C) hangott adott a Webnek azzal, hogy megjelentette a VoiceXML 2.0 és a Beszédfelismerés nyelvtani meghatározása (Speech Recognition Grammar Specification, SRGS) W3C-ajánlásokat (W3C Recommendations). A VoiceXML 2.0 célja, hogy a Web-alapú fejlesztések és a tartalomszolgáltatás előnyeit interaktív alkalmazásokba is bevigye. Az SRGS-nek kulcsszerepe van a beszédfelismerés támogatásában, továbbá a fejlesztők ennek segítségével tudják feldolgozni a felhasználók válaszait.

A mai bejelentéssel a W3C Beszédillesztő keretrendszerének két specifikációja W3C-ajánlássá vált. A W3C Beszédillesztő keretrendszere - megcélozva ezzel a világ kétmilliárd vezetékes- és mobil telefonját - példátlanul sok ember számára fogja lehetővé tenni, hogy bármilyen telefont használhasson helyesen megtervezett webalapú szolgáltatásokkal való kommunikációra, mindezt nyomógombokon, szóbeli parancsokon keresztül és előre rögzített- vagy gépi beszédet/zenét hallgatva.

"A VoiceXML 2.0 és az SRGS befejezése mérföldkövet jelenthet a webes telekommunikációs technológiák fejlődésében. Történelmi szempontból mind technikailag mind kulturálisan egy rés volt eddig aközött, ahogy a hangalapú rendszerek és ahogy az Internet és a Web elterjedtek. Eddig csak a weben, vagy csak hangalapú rendszereken keresztül volt elérhető az információ" - magyarázta Tim Berners-Lee, a W3C igazgatója. "A W3C Beszédillesztő keretrendszerének -, ami a VoiceXML 2.0-t és az SRGS-t is tartalmazza - kifejlesztésével, mostmár képesek vagyunk integrálni és hasznot húzni mindkét csoport erősségeiből. Ezek közé tartozik az ipari kutatás és a nagymennyiségű terméktesztelés és -fejlesztés ereje és hatása, továbbá a technikai megoldások kiterjeszthetősége és nyitottsága, amelyek konzisztensek a Web technikai elveivel és így továbbfejleszthetőek."

A World Wide Web Consortium (W3C) ajánlásaira (Recommendation) a webes társadalom és az ipar szabványként tekint. Minden egyes ajánlás egy stabil specifikáció, melyet valamelyik W3C Munkacsoport (W3C Working Group) fejlesztett ki, és a W3C tagjai is áttekintettek. Az ajánlások előmozdítják a webtechnológiák interoperabilitását azáltal, hogy magukban hordozzák a munkacsoportok által megtestesített ipari egyetértést.

A VoiceXML 2.0 és az SRGS lefektette a W3C Beszédillesztő keretrendszerének alapjait

A W3C Beszédillesztő keretrendszerében (W3C Speech Interface Framework) a VoiceXML specifikációban azt írják le, hogy az alkalmazások hogyan teremtsék meg a párbeszédet a felhasználókkal. A Beszédszintézis jelölőnyelv (Speech Synthesis Markup Language, SSML) a szóbeli válaszadás használatát mutatja be, a "Beszédfelismerés nyelvtani meghatározása (Speech Recognition Grammar Specification, SRGS) útmutatást ad a beszédfelismeréshez a nyelvtanon keresztül és leírja az elvárható felhasználói válaszokat. A keretrendszer további specifikációi: "A hangos böngésző híváskontrollálás" (Voice Browser Call Control CCXML), amely a telefonhívások kontrollálási támogatását biztosítja a VoiceXML és más párbeszédrendszerek számára és végül a "Beszédfelismerés szemantikus interpretációja" (Semantic Interpretation for Speech Recognition) dokumentum, amely azt írja le, hogy a beszélt nyelvtanok hogyan köthetők össze az alkalamzások szemantikájával.

A VoiceXML 2.0 hangot és interaktivitást biztosít a W3C Beszédillesztő keretrendszere számára

A VoiceXML 2.0 lehetővé teszi, hogy a fejlesztők hangos párbeszédeket készítsenek, amelyek magukba foglalnak olyan tulajdonságokat, mint a szintetikus beszéd, digitalizált hang, a beszéd és a multifrekvenciás dupla hangú (DTMF vagy érintésre megszólaló) nyomógombok felismerése, a beszélt bemenet eltárolása, a telefonálás és a kevert párbeszédek. A VoiceXML HTTP szervereken keresztül töltődik le, akárcsk a HTML. Ez azt jelenti, hogy az alkalmazásfejlesztők a webes technológiák összes előnyét élvezhetik továbbra is.

"A VoiceXML 2.0-nak megvan az ereje, hogy megváltoztassa a telefonalapú információ- és ügyfélszolágálatok fejlődési irányát. Ezentúl nem lesz szükség arra, hogy nyomd meg az egyes gombot, ha ezt akarod, vagy a kettest, ha azt. Viszont képesek leszünk szavakkal kiválogatni és biztosítani az információkat" - mondta Dave Raggett, a W3C Hangos Böngésző Fejelsztési Terület vezetője. "Ráadásul, a VoiceXML 2.0 megnyitja a lehetőségeket a gyengült látással rendelkezőek számára, vagy olyan esetekben, amikor a kezünk vagy a szemünk más dologhoz kell, mint például vezetés közben."

Az SRGS a felhasználók válaszainak nagyarányú felimeréséhez vezet

A Beszédfelismerés nyelvtani meghatározása (Speech Recognition Grammar Specification, --SRGS--) lehetővé teszi, hogy az alkalmazások meghatározzák azokat a szavakat és kifejezéseket, amelyeket a felhasználók használni fognak. Ez teszi lehetővé a nagyarányú, a beszélőtől is független beszédfelismerést.

Az SRGS mind a beszélt és a DTMF bemenet területét is lefedi. A DTMF bemenet igazán értékesnek számít, amikor zajos a környezet, vagy a körülmények nehézkessé teszik a beszédet. A beszédfelismerők általában képesek a bizonyosság fokát megállapítani, azaz annak a valószínűségét, hogy helyesen ismertek fel egy szót vagy mondatot, és a legvalószínűbb változatokat adják meg, amikor a beszédfelismerő nem biztos benne, hogy mit is mondott éppen a felhasználó.

Az SRGS nemcsak beszédfelimerésre használható. Sikeresen alkalmazták már kézírásfelismeréshez, ahol a bemenet szavak halmazaira van korlátozva.

A VoiceXML 2.0 és az SRGS alkalmazások iparilag elterjedtek

Hogy előny is származzon a W3C ajánlási státuszból, független készítők kézzelfogható alkalmazásaira is szükség van. A VoiceXML 2.0 esetén szokatlan módon nyolc ismert implementáció készült el, amelyek között prototípusok és befejezett alkalmazások is vannak. Az eddigi implementációkat elkészítők teljes listája elérhető. Az SRGS-ről szóló implementációs jelentés legalább hat teljesen független, kész implementációt tartalmaz.

Van egy terjedelmes, nyilvános lista a követelmények vizsgálati eredményeiről. A kezdeti lista 300 tesztet tartalmozott, míg a végső verzió több mint 600-at. További tesztek tartoznak még az SRGS-hez (Speech Recognition Grammar Specification) és a Beszédfelismerés szemantikus interpretációjához (Speech Synthesis Markup Language) is, amely 2003 decemberében lett előzetes W3C-javaslatterv (W3C Candidate Recommendation) A W3C Beszédillesztő keretrendszer többi specifikációjának, azaz a "Beszédfelismerés szemantikus interpretációja" (Semantic Interpretation for Speech Recognition) és a CCXML dokumentumok vizsgálati követelményei még a W3C Hangos Böngésző Munkacsoport (Voice Browser Working Group) által kidolgozás alatt vannak és az elkövetkezendő hónapok során fognak megjelenni.

A Beszédfelismerő keretrendszer (Speech Interface Framework) még hátralevő specifikációin túl a Hangos Böngésző Munkacsoport (Voice Browser Working Group) keményen dolgozik a párbeszéd jelölőnyelv követelményeinek kidolgozásán, amely a VoiceXML 2.0 sikererére fog építeni és a SALT, XHTML+Voice és más W3C területekről is merít ötleteket.

A W3C Hangos Böngésző Munkacsoportja (Voice Browser Working Group) az egyik legaktívabb és legnagyobb csoport a W3C-ben. Tagjai között van az Aspect Communications, BeVocal, Canon, Comverse Technology, Convedia, ERCIM, France Telecom, HeyAnita, Hitachi, HP, IBM, Intel, IWA-HWG, Loquendo, Microsoft, MITRE, Mitsubishi Electric, Motorola, Nuance Communications, Openstream, SAP, Scansoft, Siemens, Snowshore Networks, Sun Microsystems, Telera, Tellme Networks, Verscape, VoiceGenie Technologies, Voxeo, és a Voxpilot.

A World Wide Web Consortiumról (W3C-ről)

A W3C-t azzal a céllal hozták létre, hogy elősegítse a Webben rejlő lehetőségek minél teljesebb kihasználását olyan közös számítógépes protokollok kidolgozásával, amelyek előremozdítják a Web fejlődését és garantálják széleskörű felhasználhatóságát. A W3C az amerikai MIT Computer Science and Artificial Intelligence Laboratory, a franciaországi European Research Consortium for Informatics and Mathematics (ERCIM) és a japán Keio University által közösen fenntartott, nemzetközi ipari konzorcium. A konzorcium szolgáltatásai között található egy információs tárház a World Wide Webről fejlesztőknek és felhasználóknak, illetve különböző prototípus- és példaalkalmazások, amelyekkel demonstrálni tudják az új technológiai fejlesztéseket. Jelenleg közel 400 szervezetet számlál a W3C tagjai körében. További információk a http://www.w3.org/-on.