Sémantické vyhledávání v katalogu „Chceme porazit Google“

Reading room of the Saxon Regional Library-State and University Library in Dresden (SLUB)
Reading room of the Saxon Regional Library-State and University Library in Dresden (SLUB) | Fotografie (detail): © SLUB

V Saské zemské knihovně – Státní a univerzitní knihovně v Drážďanech (SLUB) vyvinuli za pomoci sémantické technologie nový způsob, jak snadno vyhledávat v katalogu. Dr. Achim Bonte, zástupce generálního ředitele knihovny, popisuje přednosti SLUBsemantics.

Pane Bonte, co je to sémantická síť?

Dr Achim Bonte Dr Achim Bonte | © SLUB Elektronické zpracování dat (EDP), tak jak je známe, vychází z binárního systému. Např. sled znaků G, o, e, t, h, e lze přeložit v posloupnost nul a jedniček. Sémantický web teď EDP v podstatě učí mluvit – data tedy již nebudou zpracovávána pouze strojově. Vytvoří se sémantická síť k určitému pojmu a k tomu se přiřazují další pojmy. To vše se děje ve zvláštním popisném jazyce, tzv. resource description framework (RDF). Díky tomu počítač ví, jaký význam si se sledem znaků Goethe pojíme – tedy spisovatele z 18. století, který je mimo jiné autorem Fausta .

Multilingvální a desambiguované vyhledávání

Vaše knihovna vyvinula spolu s mladou firmou Avantgarde Labs sémantické vyhledávání v katalogu. Čím se liší SLUBsemantics od tradičního katalogu?

Náš vyhledávač je vícejazyčný. Zadáte-li například slovo „automatická převodovka“, zobrazí se vám výsledky i v angličtině či polštině. Mimoto překládá SLUBsemantics z běžného do odborného jazyka a obráceně. Při hledání spojení „zkažené maso“ získáte vše k tématu „bezpečnost potravin“. Anebo zadáte „adipositas“ a zobrazí se odkazy týkající se nadváhy a obezity. Při jednodimenzionálním řetězcovém vyhledávání tomu tak není.

SLUBsemantics rovněž eliminuje jazykovou mnohoznačnost. Zadáte-li „Python“, můžete mít na mysli hada, programovací jazyk či komediální skupinu Monty Python. Standardní katalogy zobrazí veškeré odkazy chaoticky, zatímco u nás jsou seřazeny podle příslušnosti k oborům – biologii, informatice a filmu.
 
Video: Vyhledávání v katalogu SLUBsemantics

SLUBsemantics vychází z existujících koncepcí…

Ano, využíváme existujících zkušeností. Díky Wikipedii získáváme např. překlad. Vyvinuli jsme postup, který porovnává námi hledané výrazy se záznamy v lexikonu Wikipedie. Tam je popsán význam, a to v řadě jazyků. Vše nakonec porovnáme s našimi fondy.

Ideální slovníkové heslo

Jaký další rozvoj plánujete?

Zatím čerpáme z jediného zdroje dat, kterým je Wikipedia. Jde sice o obrovský pramen, ale i on má své meze. Proto se momentálně v rámci projektu nazvaného d:swarm pokoušíme o integraci různých zdrojů dat. Shromažďujeme a propojujeme informace, abychom nakonec získali integrovanou sadu dat zbavenou redundantních informací: ideální slovníkové heslo. To by byl následující krok – jít ještě dál, aniž bychom se ztratili v záplavě nadbytečných informací.

Chcete tedy být ještě lepší než Google…

Ano, byť to v tuto chvíli může vyznít jako poměrně přehnané. Naší výhodou je, že ve vývoji nejdeme do šířky, ale do hloubky. Google musí nalézt univerzálně použitelná řešení vhodná pro všechny. Naši nabídku připravujeme v tuto chvíli pro naše lokální uživatele. Naší primární skupinou uživatelů nejsou miliardy, ale skupina cca 80.000 lidí. A složení naší klientely známe. Proto můžeme pracovat s citlivějšími nástroji než Google, můžeme se soustředit na určitý typ dat a konkrétní odborné jazyky. Ale ano, chceme našim uživatelům poskytovat lepší služby než Google.

Nabídka, po níž existuje poptávka

Projevily o vaši technologii zájem již jiné knihovny?

Ano, British Library v současnosti testuje prototyp vycházející z naší technologie. A my komunikujeme s dalšími velkými knihovnami v Německu a v Evropě. Mimo jiné jsme v kontaktu s Německou národní knihovnou v Lipsku a ve Frankfurtu nad Mohanem, která pracuje na koncepci technického rozvoje Německé elektronické knihovny – a odtud již není tak daleko k Europeaně.

Jaký vývoj lze v budoucnu očekávat v oblasti sémantické sítě a knihoven?

Jsem přesvědčen, že knihovny musí jít nadále touto cestou. Google, Flickr a jiné produkty internetového průmyslu bychom měli vnímat jako benchmark a měli bychom dobře identifikovat, co můžeme udělat lépe. Těmto firmám sice ekonomicky nekonkurujeme, pohybujeme se však také na trhu nabídky a poptávky. Každá knihovna musí znát odpověď na otázku, jaká je její úloha v tuto chvíli a jaká bude za deset či dvacet let. Odpověď bude samozřejmě odlišná v případě malé městské knihovny a v případě tak obrovského tankeru, jakým je SLUB.