Diakritické varianty doménových jmen

V komtenářích k tématice IDN se často objevují názory, že správným řešením je buďto automatická nebo naopak zpoplatněná registrace všech nebo jen některých diakritických variant původního doménového jména jeho vlastníkovi. Vedle toho se také přílišný počet těchto variant často zmiňuje jako zásadní problém v případech, kdyby registrace byla otevřená a původní majitel by si chtěl jejich registrací ochránit svojí značku.

Zajímalo nás, jak to vlastně s tím počtem různých variant je, a proto jsme na stránku http://háčkyčárky.cz přidali jednoduchou kalkulačku, která po zadání doménového jměna spočítá počet jeho diakritických variant. Její algoritmus je jednoduchý. Bere v úvahu všechny možnosti vzniklé nahrazením písmen, u kterých to dává smysl, jejich variantou s háčkem, čárkou nebo kroužkem. Vedle toho tento nástroj, k jehož ovládání není třeba používat českou klávesnici, umožňuje zjistit si IDN tvar takovéto libovolné varianty.

Přestože je samozřejmě třeba vzít v úvahu, že některé varianty nedávají smysl, jsou výsledky zajímavé. Například i tak zdánlivě jednoduché slovo jako je „brontosaurus“ má 4608 variant. Doména ze zóny cz, která má nejvíce variant, je jvs-zahradni-traktory-sekacky-bazeny-elektrocentraly-honda.cz. Těch variant je 16 698 832 846 848. Pokud bychom vzali všech 441 307 domén, které byly v okamžiku měření v zóně, dojdeme v součtu k úctyhodnému číslu 46 294 515 822 056, tedy 46 biliónů variant.

Jaromír Talíř

Autor:

Komentáře (10)

  1. Kraken říká:

    LOL, ale to snad aby jste se predem radeji transformovali na investicni fond, ne? ;)

  2. ObiSkyWalker říká:

    Těžko říci jestli by se diakritické varianty nějak extra používali, mě např. přijde lehčí na klávesnici napsat cokoliv bez diakritiky než s ní, jelikož nemusím používat horní (hůře) dostupnou část klávesnice.

  3. Martin Kopta říká:

    Myslim, ze podobne vypocty jsou zbytecne. I nyni celi drzitele domen spekulaci na preklepove varianty (treba seynam). Nevznika nova situace, kterou by bylo nutne specialne osetrit.

    Me, coby drzitele nemala domen, uplne uspokoji ochranna lhuta k prednostni registraci diakritickych variant pro soucasne drzitele domen. Sam se pak rozhodnu, ktere varianty k domene okurkova[-]sezona.cz potrebuju. Pres kombinatoriku na to ale jiste nepujdu.

    Jinak myslim, ze IDN je jen mezikrok k zavedeni CNRP, a to bude teprve povyku. :-)

  4. Lukáš Nevosád říká:

    Zajímavé výpočty. Fakticky tím padá varianta automatické registrace oháčkovaných variant – o tom, jaké varianty mají smysl asi nepřísluší rozhodovat CZ-NIC a zaneřádit 46E12 variantami je technicky nereálné.

    Jako majiteli několika desítek domén mi plně vyhovuje samostatně se rozhodnout, které IDN varianty si chci doregistrovat. A klidně i za nezměněnou cenu. Každopádně ale musí existovat nějaký sunrise.

    Obecně si ale myslím, že IDN je cesta do pekel. Když pominu ještě pochopitelné zmatení http://www.csas.cz a http://www.csás.cz – připdádá vám něco divné na adrese http://www.csаs.cz nebo http://www.ϲsas.cz?

  5. Šimon Grimmich říká:

    Nějak nerozumím tomu poslednímu příkladu s csas.cz? Ale jinak souhlasím, také se mi to zdá jako cesta do pekel.

  6. Lukáš Nevosád říká:

    [Šimon]: To je přesně ono. V těch adresách totiž není písmeno „a“ a v té druhé písmeno „c“ – místo toho je použit jen shodně vypadající unicode znak. Jestliže se něco takového objeví v adresním řádku (phishing), ani profesionál to nemá šanci běžným pohledem poznat.

    A už vidím ty doporučení ve zprávách na Nově: „Klikání na odkazy na internetu vás může připravit o všechny peníze! Odborníci radí: Chete-li přejít na jinou stránku, vždy adresu ručně přepište!“

    Bohužel jediná obrana proti tomuto je jakési pseudo IDN, tedy omezit výběr znaků – ale to jsme zase v bodě nula – kdo bude rozhodovat o tom, které znaky povolit? Omezit se přitom jen na českou abecedu mi připadá dost sebecentrické a proti smyslu IDN.

    Docela by mne zajímal názor CZ-NIC, zatím jsem nikde nenašel žádný návrh, jak tento problém řešit.

  7. Ondrej Filip říká:

    Odpoved je jednoducha. Drtiva vetsina registru neumoznuje michani znakovych sad. Nemuzete tedy v latince pouzit jeden znak z azbuky.

    Kazdopadne _pokud_ IDN zavedeme, melo by slouzit ceskym uzivatelum, proto mi sebestrednost komunity prijde na miste. Nemyslim, ze je pro Cechy nejak prinosne zavedeni cinskych znaku v domene .cz. Takze _pokud_ IDN, pak bych byl pro ceskou abecedu a pripadne abecedy sousednich narodu.

  8. Pavel Šedek říká:

    Nebylo by v českém prostředí spíše vhodné použít transliteraci na znaky bez diakritiky? Pokud vím, tak čeština neobsahuje jediný znak, u kterého by byl nejednoznačný ekvivalent bez diakritiky a proto by nedocházelo ke kolizím. Tato varianta navíc umožňuje odstranit administrativní zátěž, stačí pouze na vstupu doménové jméno přeložit a dále s ním nakládat stejně, jako by diakritiku neobsahovalo.

    Nejsem odborníkem na IDN, ale pokud by si mohl někdo zaregistrovat jakoukoliv variantu mojí domény doplněnou pouze o diakritické znaménko, nelíbilo by se mi to.

Napsat komentář: Lukáš Nevosád Zrušit odpověď na komentář

Všechny údaje jsou povinné. E-mail nebude zobrazen.

Tato stránka používá Akismet k omezení spamu. Podívejte se, jak vaše data z komentářů zpracováváme..