Užití sémantických technologií ve značkovacích jazycích

Bakalářská práce

Jiří Štencek

Vysoká škola ekonomická v Praze
Fakulta informatiky a statistiky
Katedra informačního a znalostního inženýrství

prosinec 2009

Anotace

Tato bakalářská práce analyzuje využití sémantických technologií na poli dnešních webových služeb a portálů. Cílem je zmapovat známé internetové servery a služby. Práce se naopak nesnaží obsáhnout všechny stránky (blogy, firemní weby, apod.), které sémantické technologie používají, protože by to nemělo skoro žádnou vypovídající hodnotu.

Přínosem této práce je analýza implementace sémantických technologií na současném webu. Ta ukáže, jak moc se vize sémantického webu naplňují a kolik internetových serverů tuto technologii používá. Serverů, které denně navštěvujeme a které nabízejí možnosti a funkce, o nichž možná ani nemáme tušení. Dalšími přínosy jsou např.: rozšíření využívání nástrojů sémantického webu (plug-in Operator, Semantic Radar), informační osvěta mezi uživateli Internetu, kteří se s tímto pojmem ještě nesetkali a stejně tak by tato práce mohla být odrazovým můstkem k dalšímu a podrobnějšímu mapování sémantických webů. Například statisticky zaměřená práce na poměr využití jednotlivých ontologických slovníků.

Práce začíná úvodem do počátků webu jako takového až k jeho současnosti, kde nastíní původní ideologii WWW. V souvislosti s tím definuje úskalí současného webu a jeho další možné vývojové linie. Kapitola s názvem Principy sémantického webu popíše základní stavební kameny a architekturu této vize. Podrobněji zde popisuje framework RDF, ontologie a nezapomene ani na část o bezpečnosti sémantického webu. S těmito znalostmi už nás kapitola Integrace sémantiky na současném webu seznámí s možnostmi, kde sehnat potřebná metadata a s tím souvisejícími principy Linked Data. Hned poté nám představí jednotlivé formáty pro zápis metadat do (X)HTML. Konkrétněji nám popíše mikroformáty, RDFa a eRDF. Na závěr kapitoly dojde také k porovnání těchto technologií a praktickým ukázkám jejich implementace.

Poslední 5. kapitola, která nese název Analýza využití znalostních technologií v současnosti, už přináší přehled jednotlivých serverů, které používají jednu z výše uvedených technologií. Přiblíží nám otevřené databáze, sémantické vyhledávače, ontologické slovníky a nakonec komunitní a informační portály. Vyústěním kapitoly je shrnutí současné implementace a zamyšlení nad reálnými přínosy a možnými incentivami sémantického webu.

Annotation

This bachelor thesis analyzes the use of semantic technologies in the field of today's web portals. The aim is to map the major web servers and services. Work on the contrary seek cover all sites (blogs, corporate sites, etc.) that use semantic technologies, as it had almost no meaningful value.

Contribution of this work should be an analysis of the implementation of semantic technologies on the Internet. This should show how much vision of the Semantic Web expands. How many web sites use this technology. Web sites that we use every day and which offer capabilities and features that we might not even know. Other benefits could be for example: extending the use of Semantic Web tools (Operator plug-in, Semantic Radar), information awareness among Internet users who have never heard about this term. In other hand, it could be a basis to further and more detailed mapping of semantic sites. For example, statistically-oriented work on the utilization rates of ontological dictionaries.

The work begins with an introduction to the world wide web as a beginning to the present, outlining the basic ideology WWW. Show us the pitfalls of the current WWW and its possible further development line. Chapter entitled Understanding the Semantic Web describes the basic building stones and architecture of this vision. Describes the framework RDF, ontology, and not forget the section on the safety of the Semantic Web. With this knowledge we have chapter Integration semantics on the current WWW to learn about options, where to find the necessary metadata and related principles of Linked Data. metadata to (X) HTML. More specifically, we describe microformats, RDFa and the eRDF. Conclusion chapter makes the comparison of these technologies and and show us practical examples of their implementation.

The last chapter, which is called Analysis of the use of knowledge technologies now brings you an overview of the servers that use one of the above technologies. Describes the open source database, semantic search engines, ontological dictionaries and finally community and information portals. The results of the present chapter is a summary of the implementation and reflection on the real benefits and possible incentives Semantic Web.

Poděkování

Rád bych tímto poděkoval vedoucímu mé bakalářské práce Ing. Marku Nekvasilovi, který mi byl vždy nápomocen a ochoten poradit ve věcech týkajících se tématu práce. Dále bych na tomto místě ocenil přístup mých spolupracovníků ve společnosti H1.cz, kteří byli konstruktivními kritiky a přispěli velmi cennými radami a zkušenostmi.

Prohlášení

Prohlašuji, že jsem bakalářskou práci vypracoval samostatně a použil pouze literaturu uvedenou v přiloženém seznamu. Nemám námitek proti půjčení práce se souhlasem katedry ani proti zveřejnění práce nebo její části.

V Praze dne 9. prosince 2009..................................................

Podpis


Obsah

1. Úvod
Téma práce
Cíl práce
2. Od historie k současnosti webu
Historie
Současnost
Úskalí současného webu
Možnosti vývoje
3. Principy sémantického webu
Architektura sémantického webu
URI
XML
DTD a XML schémata
Jmenné prostory (Namespaces)
XPath
RDF
SPARQL
Ontologie
RDF Schema
OWL
Logika
Důvěra
Bezpečnost
4. Integrace sémantiky na současném webu
Kde vzít definice druhů, atributů a věcí?
Přebrat
Vytvořit
Jak vytvořit metadata?
Mikroformáty
RDFa
eRDF
Porovnání: Mikroformáty vs. RDFa vs. eRDF
Implementace mikroformátů
Implementace RDFa
5. Analýza využití znalostních technologií v součastnosti
Používané technologie
RSS
Dublin Core
Creative Commons
CC/PP
FOAF
DOAC
Průzkum portálů využívajících technologie sémantického webu
Otevřené databáze
Sémantické vyhledávače
Sémantické technologie implementované na známých portálech
Shrnutí současné implementace a perspektivy
Reálné přínosy sémantických technologií
6. Závěr
Terminologický slovník
A. Sémantické nástroje pro prohlížeč
Operator
Semantic Radar
Fuzz
RDFa 0.1
B. Klesá zájem o sémantický web?
Literatura

Seznam obrázků

2.1. Vývoj webu. (Zdroj: [SemanticAndSocialWeb])
2.2. Rozdíl mezi pohledem počítače (vlevo) a člověka (vpravo) na dokument. (Zdroj: [RDFaPrimer])
3.1. Architektura vrstev sémantického webu. (Zdroj: [w3.presentation])
3.2. Syntaxe URI. (Zdroj: [GlobalSemantic])
3.3. Logo RDF. (Zdroj: [RDF])
3.4. Vybrazení trojice RDF. (Zdroj: [RDF])
3.5. Ukázka postupného definování červa (Zdroj: [ApartRDFA])
3.6. Ukázka ontologie na oboru umění (Zdroj: [ChipSemWeb])
4.1. Systém Linked Data. (Zdroj: [LinkedData])
4.2. Logo Mikroformátů
4.3. Logo RDFa dokumentu (Zdroj: http://buzzword.org.uk/2009/rdfa-logo/)
4.4. Google insights (Zdroj: http://www.google.com/insights/)
5.1. Logo RSS (Zdroj: http://www.rssboard.org)
5.2. Poměr zastoupení jednotlivých verzí RSS (Zdroj: [semMuni2])
5.3. Grafické znázornění FOAF. (Zdroj: [HolyExpo])
5.4. DOAC + FOAF. (Zdroj: http://ramonantonio.net/doac/)
5.5. Logo DBPedia. (Zdroj: [top10])
5.6. Logo Freebase. (Zdroj: [top10])
5.7. Logo MusicBrainz. (Zdroj: http://musicbrainz.org/)
5.8. Upravené výsledky vyhledávání pomocí True Knowledge. (Zdroj: http://www.trueknowledge.com)
5.9. Logo Swoogle. (Zdroj: http://swoogle.umbc.edu/)
5.10. Ukázka funkce Semanti. (Zdroj: http://www.semanti.com/)
5.11. Logo Wolfram Alpha. (Zdroj: http://www.wolframalpha.com/)
5.12. Srovnání výsledků vyhledávání Před a Po. (Zdroj: [yahoo])
5.13. SearchMonkey logo. (Zdroj: [searchmonkey])
5.14. Rich Snippets. (Zdroj: [google3])
5.15. BBC Music. (Zdroj: [top10])
5.16. Flickr logo. (Zdroj: http://www.flickr.com/)
5.17. Blogger logo. (Zdroj: http://www.blogger.com/)
A.1. Firefox Operator. (Zdroj: autor)
A.2. Semantic Radar. (Zdroj: autor)
A.3. Fuzz. (Zdroj: autor)
B.1. Google insights - "semantic web". (Zdroj: http://www.google.com/insights/)

Seznam tabulek

5.1. Zastoupení mikroformátů na internetových serverech (Zdroj: autor)
5.2. Zastoupení RDFa na internetových serverech (Zdroj: autor)

Seznam příkladů

2.1. Příklad nepoužitelného kódu
2.2. Příklad HTML se správně použitými tagy
2.3. Příklad zápisu dokumentu pomocí XML
2.4. Pozná počítač rozdíl v následujících větách?
3.1. Ukázka zápisu XML
3.2. Ukázka DTD dokumentu katalogProduktu.dtd
3.3. Ukázka XML schématu. (Zdroj: [XMLschemaKosek])
3.4. Ukázka definice jmenného prostoru a zápisu prefixu
3.5. Ukázka kódu RDF. (Zdroj: [semMuni])
3.6. Příklad zápisu vztahu mezi objekty
3.7. Ukázka kódu RDFS. (Zdroj: [novaGenerace])
3.8. Ukázka OWL kódu . (Zdroj: [SeWebSvatek])
4.1. Zápis mikroformátu hCard. (Zdroj: [hCardAtaxo])
4.2. Ukázka zápisu RDFa. (Zdroj: [EurOpenKosek])
4.3. Kód kontaktu bez mikroformátů. (Zdroj: autor)
4.4. Kód kontaktu s implementovanými mikroformáty. (Zdroj: autor)
4.5. Doctype XHTML+RDFa. (Zdroj: autor)
4.6. Kód tagu HTML. (Zdroj: autor)
4.7. Kód popisu osoby. (Zdroj: autor)