Koncepce WWWdia
Obecné problémy při práci s diakritikou
Obecné problémy práce s informacemi v národním jazyce lze rozdělit na několik skupin:
- Zpracování informace (třídění, vyhledávání, .). Vzhledem k tomu, že WWW nezajišťuje, lépe řečeno nedefinuje žádné zpracování, nevzniká zde problém.
- Vlastní přenos informace - TCP spojení, které protokol HTTP používá, je vždy plně transparentní pro přenášené informace.
- Prezentace informací uživateli a vstup od uživatele. Tady nastává komplikace v tom, že jak známo používáme z různých praktických a politických důvodů několik druhů kódování diakritiky, přitom navíc ne všude se tato podpora nachází.
- Výběr konkrétního kódování - úzce souvisí s předchozím bodem. Zde jsou možné opět dvě varianty:
- Jednotné uložení dat na serverech, rozlišení znakové sady a případné překódování prování klient a
- Výběr znakové sady na serveru podle typu klienta, buď ručně uživatelem nebo automaticky (konfigurace klienta)
Je samozřejmě myslitelná i kombinace obou těchto metod.
Aktuální stav
Zřejmě nejčistší a nejvýhodnější je koncepce jednotného uložení dat, pokud by ho ovšem použitý protokol umožňoval. Tímto směrem lze zřejmě očekávat vývoj, ale dosud zde není nic použitelného. Výhodou tohoto stavu by bylo řešení serveru nezávislé na všech možných druzích klientů.
Druhá možnost je překódování znakové sady na serveru podle požadavku klienta. V současné době protokol HTTP sice principiálně podporuje výběr znakové sady dokumentu pomocí MIME, ovšem současný software tuto možnost pokud je mi známo nevyužívá. Úprava všech u nás používaných serverů a klientů samozřejmě nepřichází v úvahu. Řešení
Použité řešení vychází tedy z následujících požadavků:
- Nemožnost jakéhokoli zásahu do konfigurace klientů s výjimkou volby fontu s diakritikou, pokud to klient nějakým způsobem umožňuje.
- Možnost zobrazení bez diakritiky (tedy v ``cestine'') pro ty klienty, kde diakritika podporována není.
- Nevhodnost zásahu do kódu serveru, což ani není vždy možné.
- Maximální konfigurovatelnost, minimání zvýšení požadavků na obsluhu ze strany uživatele a administrátora serveru, atd..
A připouští následující omezení:
- Nutnost ovládání ze strany uživatele ve formě výběru vhodného kódování.
- Nutnost úpravy vlastních .html souborů, přesněji odkazů na ty soubory, které jsou psány v diakritice - a to i na serverech, které na daný soubor odkazují vzdáleně.
Jako jediné vhodné řešení, vyhovující všem těmto požadavkům se jeví překlad pomocí externích programů, spouštěných z HTTP serveru pomocí CGI (Common Gateway Interface). Je tedy nutné zajistit následující:
- Úpravu odkazů v HTML souborech tak, aby namísto vlastního souboru odkazovaly na příslušný konverzní program, a zároveň bylo jméno tohoto souboru vhodným způsobem předáno scriptu.
- Zachování informace o vybrané kódové stránce při přechodu na další dokumenty, tak, aby uživatel nebyl neustále nucen tuto informaci specifikovat.
Konkrétní podobu těchto úvah představuje ``program'' s pracovním názvem WWW dia.
Jan Košťál
Soubor INTRO z balíku WWWdia do HTML převedl Ondřej Bojar.