A Weben található információk a világ számos országában hozzáférhetőek. A különböző helyeken különböző operációs rendszereket, nyelveket, karakterkészleteket és karkaterkódolást használnak.
A karakterek megjelenítését tekintve a magyar nyelvben leggyakrabban az ő, Ő, ű, Ű betűk, de tipográfiai/helyesírási szabályaink is okozhatnak problémát.
Ezen az oldalon néhány tippet szeretnénk adni ahhoz, hogy hogyan készítsünk el helyesen megjelenő oldalakat.
A karakter egy absztrakt fogalom (és nem egy numerikus gépi kód, nem egy jel a papíron, vagy egy bit a kepernyőn megjelenítve). Bizonyos karaktereket összefogva egy karakterkészletet (character set) kapunk. Az angol nyelvterületeken az egyik legelterjedtebb az ASCII karakterkészlet. Később az eredeti ASCII karakterkészletből kezdetben egy-egy karakter lecserélésével, majd az eredeti ASCII karakterkészlet kibővítésével nyelvspecifikus karakterkészleteket alakítottak ki. Mivel sok nyelvnek nagyon hasonló karakterkészlete volt, érdemesnek tűnt néhány nyelv karakterkészletét összevonva egy kibővített karakterkészletet létrehozni. Így jöttek létre például a szabványos Latin karakterkészletek.
Minden karakterhez hozzárendelhető egy szám, amely a számítógépek memóriájában tárolható. A szöveges adatok byte-sorozatként továbbítódnak a neten, és a lemezeken is byte-sorozatként vannak tárolva. A kialakult karakterkódolással kapcsolatos szabványok meghatározzák mely karakterekkel foglalkoznak, ezeket pontos névvel látják el, egy-egy számot rendelnek azokhoz, és megadják a karakterek byte-sorozattá való leképezését is.
Egy egyszerű szövegfájlban semmilyen plusz adat nem áll rendelkezésünkre az adott fájl karakterkódolására vonatkozóan. Az XML, (X)HTML dokumentumoknál nagyon fontos, hogy adjuk meg ezek kódolását.
Ezt háromféleképpen is megtehetjük.
Content-Type: text/html; charset=iso-8859-2
<?xml version="1.0" encoding="utf-8" ?>
<meta>
tag használatával, például:<meta http-equiv="Content-Type" content="text/html; charset=windows-1250">
Jó gyakorlat mind az xml deklrációban, mind a meta
elemben beállítani a karakterkészletet.
Sajnos a szerver beállításától függően, a szerver "felülírhatja" a
fájlban lévő kódolási utasítasokat. Azaz mégha a fájl utf-8-ban is van, a
http header-je az iso-8859-1 utasitást tovabbítja a böngészőnek, és a böngészők
egy része (például a Mozilla) ezt bizony komolyan veszi, mint legmagasabb
prioritást. Ebben az esetben pedig a megjelenítes rossz lesz.
Alapvetően fontos, hogy a szerver beállítása megegyezzen a karakterkódolással.
A Unicode és az ISO 10646 szabványban definiáltak egy Univerzális karakterkészletet (UCS), amely az összes többi karakterkészletnek az uniója. Nemcsak az európai, hanem kínai, japán, afrikai stb. nyelvek karaktereit is tartalmazza. Ennek egyik lehetséges kódolása az UTF-8. Emellett még az ISO-8859-2:1999 (Latin 2) és a windows-1250 (közép-európai) karkaterkészletek azok, amelyek tartalmazzák az ő, Ő, ű, Ű karaktereket. Ez utóbbiak karakterei 1 byte-on kerülnek ábrázolásra. A W3C HTML szabványa nem írja elő, hogy melyik karakterkészletet és milyen kódolást kell használni, de annyi megszorítást tesz, hogy annak leképezhetőnek kell lennie a Unicode karakterkészletére. A W3C ajánlja a Unicode használatát, mint a legáltalánosabb karakterkészletet. Azon belül a magyar nyelv számára az UTF-8 kódolás a legelőnyösebb, míg például az ázsiai nyelveknek az UTF-16 az előnyösebb. A HTML dokumentumokban a karakter referenciák segítségével további módon is megadhatunk karaktereket.
Nem igazán az oldalak megjelenése, mint inkább a további feldolgozás számára megadhatjuk, hogy milyen nyelven
készítjük a dokumentumot. Ezt a lang
(nyelv) és a dir
(direction - irány)
attribútumok segítségével tehetjük meg.
Az általános XML attribútum xml:lang
és nem lang
. Az "átmeneti" időszakban
XHTML-ben jó gyakorlat mindkettőt beállítani.
lang
attribútumának beállításával, amely az adott elemre vonatkoziklang
attribútumávalEbben a sorrendben fognak érvényesülni a nyelvi beállítások. Azaz ha egy elem
lang
attribútuma be van állítva, akkor az fog érvényesülni, függetlenül a
böngésző alapértelmezett beállításaitól.
A dir
attribútummal a szöveg irányát módosíthatjuk, amely például az arab nyelveknél fontos.
Webmaster
Utolsó módosítás: 2004.04.13.
Copyright
© 1994-2003 W3C
® (MIT, ERCIM, Keio), All
Rights Reserved. W3C liability, trademark, document use
and software
licensing rules apply. Your interactions with this site are in accordance with our public and Member privacy
statements.