Úskalí současného webu

Problém se však netýká pouze oblasti vyhledávání informací (respektive souborů), jak jsme si uvedli na příkladě v předchozí kapitole, ale narazíme na něj také v elektronickém obchodování, kde je automatizace provozu bržděná nekonzistencí uložených dat, rozdílností formátů a struktury. Aby pak zbožoví agenti mohli získávat relevantní a aktuální informace, které následně porovnávají, musí používat různé heuristické metody. Udržování aktuálnosti takovýchto systémů je však velice nákladné a dlouhodobě nerentabilní.

S problémem při vyhledávání souvisí také problém prezentace informací. Informace a zdroje na webových stránkách jsou často zastaralé a tím pádem i nepravdivé. Setkáváme se také s vysokou redundancí dat a jejich nekonzistencí. Pro autory webových stránek je velmi náročné udržovat je aktuální bez jakýchkoliv automatických prostředků. Informace jsou prezentovány v nepřeberném množství forem dat: audio, video, myšlenkové mapy, atd. To jsou formáty, s kterými si klasický vyhledávač neporadí (věnují se jim decentralizované vyhledávače, které fungují na principu Peer-to-Peer) [novaGenerace].

Jak už jsme naznačili, Web je hromada syntakticky strukturovaných dat. Značkovací jazyk (X)HTML definuje strukturu dokumentů, ale nedokáže definovat význam jednotlivých informací (jejich sémantiku). V tom lepším případě jsou alespoň použity sémantické značky v rámci (X)HTML jazyka (strong, em, h1, atd.). Můžeme se ale setkat i s takovýmto zápisem nadpisu <span class=“nadpis cerveny“>Útulek pro psy</span>, což se dá považovat skoro za zločin, protože zde v podstatě neposkytujeme ani takovou základní informaci, že se jedná o nadpis. Jedním dechem také musíme dodat, že takovýmto zápisem způsobujeme problém i pro hlasové čtečky, které slouží k prohlížení webu nevidomým. To už ale hodně odbočujeme. Vraťme se zpět ke správně napsanému dokumentu v (X)HTML. Počítač z takového kódu jen těžko získá nějaké informace o datech (metadata), takže s nimi nemůže nijak automaticky nakládat či je zpracovávat. Na obrázku '2.2 - PC vs Člověk' uvidíme rozdíl mezi tím, jak chápe a vidí webovou stránku počítač a jak uživatel.

Obrázek 2.2. Rozdíl mezi pohledem počítače (vlevo) a člověka (vpravo) na dokument. (Zdroj: [RDFaPrimer])

Rozdíl mezi pohledem počítače (vlevo) a člověka (vpravo) na dokument. (Zdroj: )

Příklad 2.1. Příklad nepoužitelného kódu

<span class="nadpis cerveny">Útulek pro psy – U mikeše</span>
<div class="odstavec">Příjďte se svým psem..</div>
<b style="font-style: italic;"><font color="red"><center>Otevírací hodiny</center></font></b>
<table>
...
</table>


Příklad 2.2. Příklad HTML se správně použitými tagy

<h1>Útulek pro psy – U mikeše</h1>
<p>Příjďte se svým <strong>psem</strong>..</p>
<h2>Otevírací hodiny</h2>
<table>
...
</table>


Příklad 2.3. Příklad zápisu dokumentu pomocí XML

<firma> 
    <zařízení>Útulek pro psy</zařízení>
    <názevFirmy>U mikeše</názevFirmy>
    <otevíracíHodiny>
    … 
    </otevíracíHodiny>
</firma>


Pokud se ale bavíme o omezeních v práci s kódem, nesmíme také zapomenout na práci s prostým textem. Podívejme se na následující 2 věty a položme si otázku, jestli počítač pozná rozdíl v jejich významu.

Příklad 2.4. Pozná počítač rozdíl v následujících větách?

"I am a professor of computer science."

vs.

"I am a professor of computer science, you may think. Well.."


Bylo by to samozřejmě velmi složité. Stejně tak v situaci, kdy zbožový vyhledávač navštíví eshop s elektronikou a pomocí heuristických metod a vyhledávání na stránce začne získávat informace o produktech. Když si necháme tyto výsledky hledání seřadit podle ceny, jakou informaci vlastně dostaneme? Je v ceně započítáno DPH? Poštovné a balné? Je to již cena se slevou nebo před ní? S jistotou se proto na takovéto výsledky spolehnout nelze.

Můžete namítnout, že v dnešní době to již funguje jinak a většina zbožových vyhledávačů již eshopy aktivně neprohledává, ale je jim zasílán tzv. XML Feed, který obsahuje všechny potřebné informace o prodávaných produktech. Ale je tohle správná cesta? Aby se tyto informace redundantně posílaly vyhledávačům? Co to potom je za vyhledávač? Proč by měl majitel eshopu mít další práci, když by tento proces mohl probíhat automaticky?