Alapvető nemzetköziesítési ajánlásokat jelentetett meg a World Wide Web Consortium

"A World Wide Web karaktermodellje - Alapok" a Web-en használt karakterek egységes megközelítését eredményezi

Amerikai és ausztráliai kapcsolattartó --: Janet Daly, <janet@w3.org>, +1.617.253.5884
Európai, afrikai és közel-keleti kapcsolattartó --: Marie-Claire Forgue, <mcf@w3.org>, +33.492.38.75.94
Ázsiai kapcsolattartó --: Yasuyuki Hirakawa <chibao@w3.org>, +81.466.49.1170
(a sajtóközlemény angol eredetije itt érhető el, illetve a W3C honlapján megtalálható még francia és japán nyelven)

http://www.w3.org/ -- 2005. február 15. -- A World Wide Web Consortium (W3C) W3C ajánlásként publikálta a "A World Wide Web karaktermodellje: alapok" című dokumentumot, mely alaposan definiált és széles körben elfogadott módszert ad a különféle nyelvekben előforduló karakterek átvitelére és feldolgozására Web alkalmazások számára.

Ez az alapvető fontosságú ajánlás specifikációk szerzőinek, szoftverfejlesztőknek és tartalomfejlesztőknek ad általános segédletet, lehetővé téve a szabványos, valamennyi eszköz által egyformán értelmezett szövegfeldolgozást a World Wide Web-en. Az ajánlás az Egységes Karakterkészletre (Universal Character Set) épít, melyet az Unicode Standard és az ISO/IEC 10646 közösen definiál. Olyan témákat ölel fel, mint a "karakter", "kódolás" és "szöveg" fogalmak használata, egy referencia feldolgozási modell, karakterkódolási lehetőségek, illetve az alkalmazott kódolás meghatározása, karakterek védelme (character escaping) és szövegek indexelése.

A World Wide Web karaktermodelljének végcélja, hogy támogassa a Web használatát mindenki számára függetlenül a felhasználó nyelvétől, írásmódjától, írási rendszerétől, kulturális hátterétől. Ez összecseng a W3C által megfogalmazott általános Web-elérést megfogalmazó céljával.

Az Unicode adja az Egységes karakterkészletet a Web-hez

A karaktermodell magját az Egységes karakterkészlet (Universal Character Set - UCS) adja. A modell lehetővé teszi a Web-es technológiák számára, hogy támogassák a világ különféle írásaiban (akár különféle platformokon) megjelenő szövegeket, ezeknek a világ bármely pontjáról származó Web-használók közötti cseréjét, olvasását, keresését. Azért az esett az Unicode-ra a választás, mert az a szöveg kódolásától független módszert ad a karakterekre történő hivatkozásra, folyamatosan és nagy körültekintéssel tartják karban és széles körben elfogadott, megvalósított az iparban.

A W3C a HTML 4.0-ban HTML dokumentumok karakterkészletének átvette az Unicode-ot. Ugyan így járt el a később megjelent ajánlásainál is, mint például az XML 1.0 és a CSS 2. szint (CSS Level 2.). Mostanra az Unicode a W3C specifikációk és alkalmazások általános, referencia karakterkészlete.

Az új specifikáció letisztázza a karakterhasználatot a Web-en

Ahogy a Web alkalmazások száma nőtt, úgy nőtt az igény egy közös karaktermodell iránt. Természetesen adódó választás, hogy ennek a közös modellnek az alapját az Unicode képezze, különösen, hogy az alkalmazások fejlesztői közös megállapodásra kezdenek térni a kódolással kapcsolatos nézeteikben. Ahhoz, hogy az Unicode-ot alkalmazzuk a Web-en további specifikációkra van szükség. Ezen dokumentumok létrehozását a célozza meg a W3C a Karaktermodell sorozat keretein belül.

Néhány további Web-specifikus aspektus, amiknek jelentősebb figyelmet szentel a specifikációsorozat:

Az Unicode kódolás kiválasztásának módja (UTF-8, UTF-16, UTF-32)
Karakterek számának, szövegek hosszának meghatározása abban az esetben, ha a szöveg változó hosszúságú karakterkódolást és összekapcsoló karaktereket tartalmaz
Kétszeres, kétféleképpen történő kódolás (pl.: előre összeállított (precomposed) vs. különváló (decomposed))
Különféle karaktervédési mechanizmusok használata a karakterek megjelenítésekor

A dokumentumsorozat 2005-ben elkészülő részei

A ma megjelent ajánlás az első ebből a három részes sorozatból. Jelenleg is fejlesztés alatt áll a "A World Wide Web karaktermodellje 1.0: Normalizáció", mely specifikálja a korai egységes-alakra hozást (early uniform normalization) és szövegek identitásegyezésének vizsgálatát szöveg-átalakításoknál, illetve szintén fejlesztés alatt áll "A World Wide Web karaktermodellje 1.0: Erőforrás-azonosítók" ajánlás, mely az IRI-re vonatkozó szabályokat határozza meg.

Nagy ipari cégek kulcsszereplők a Karaktermodell sorozat fejlesztésében

A Karaktermodellt a W3C Nemzetköziesítési Fejlesztési Terület munkacsoportja (a jelenlegi W3C Nemzetköziesítési-mag Munkacsoport) a W3C Nemzetköziesítési Érdekcsoporttal együtt fejlesztette ki. Olyan W3C tagok vettek részt munkacsoportban, mint például a BBC, Boeing, Ecole Mohammadia d'Ingénieurs, IBM, Microsoft, Siemens, Sun Microsystems és a webMethods.

A World Wide Web Consortium-ról [W3C]

A W3C-t azzal a céllal hozták létre, hogy elősegítse a Webben rejlő lehetőségek minél teljesebb kihasználását olyan közös számítógépes protokollok kidolgozásával, amelyek előremozdítják a Web fejlődését, és biztosítják a webes technológiák interoperabilitását (együttműködésre való képességét). A W3C az amerikai MIT Computer Science and Artificial Intelligence Laboratory, a franciaországi European Research Consortium for Informatics and Mathematics (ERCIM) és a japán Keio University által közösen működtetett, nemzetközi ipari konzorcium. A Konzorcium szolgáltatásai többek között: egy információs tárház a World Wide Web-ről fejlesztőknek és felhasználóknak, különböző prototípus- és példaalkalmazások fejlesztése az új technológiai fejlesztéseket demonstrálására. A W3C jelenleg több mint 350 szervezetet számlál tagjai körében. További információkért keresse fel a http://www.w3.org/ honlapot!