Semantische Katalogsuche „Wir wollen Google schlagen“

Lesesaal der Sächsischen Landesbibliothek – Staats- und Universitätsbibliothek Dresden (SLUB)
Lesesaal der Sächsischen Landesbibliothek – Staats- und Universitätsbibliothek Dresden (SLUB) | Foto (Ausschnitt): © SLUB

An der Sächsischen Landesbibliothek – Staats- und Universitätsbibliothek Dresden (SLUB) wurde mit semantischer Technologie eine neuartig komfortable Katalogsuche entwickelt. Dr. Achim Bonte, stellvertretender Generaldirektor der Bibliothek, erläutert die Vorteile von SLUBsemantics.

Herr Bonte, was versteht man unter dem semantischen Netz?

Dr. Achim Bonte Dr. Achim Bonte | © SLUB Unsere ganze EDV beruht ja auf dem binären System. So kann man die Zeichenfolge G, o, e, t, h, e etwa in eine Folge von Nullen und Einsen übersetzen. Das semantische Web bringt der EDV nun quasi das Sprechen bei. Das heißt: Daten werden jetzt nicht mehr nur maschinell verarbeitet, sondern mit Inhalten verknüpft. Man stellt ein semantisches Netz zu einem bestimmten Begriff her, man ordnet ihm weitere Begriffe zu. Das alles geschieht in einer bestimmten Beschreibungssprache, dem Resource Description Framework (RDF). Das führt dann dazu, dass der Computer weiß, welche Bedeutung wir mit der Zeichenfolge Goethe verbinden – also: ein Schriftsteller aus dem 18. Jahrhundert, der unter anderem den Faust geschrieben hat.

Multilinguale und disambiguierende Suche

Ihre Bibliothek hat zusammen mit der jungen Firma Avantgarde Labs eine semantische Katalogsuche entwickelt. Was unterschiedet SLUBsemantics von einem herkömmlichen Katalog?

Unsere Suche ist mehrsprachig. Wenn Sie zum Beispiel „Automatikgetriebe“ eingeben, erhalten Sie auch Treffer auf Englisch oder Polnisch. Außerdem übersetzt SLUBsemantics von der Alltagssprache in die Fachsprache und umgekehrt. Sie suchen „Gammelfleisch“ und erhalten alles zum Thema Lebensmittelsicherheit. Oder Sie geben „Adipositas“ ein und bekommen Treffer zu Übergewicht und Fettsucht. Das funktioniert bei der eindimensionalen String-Suche im normalen Katalog nicht.

Und: SLUBsemantics löst sprachliche Mehrdeutigkeiten auf. Wenn Sie „Python“ eingeben, können Sie ja die Schlange, die Programmiersprache oder die Komikergruppe Monty Python meinen. Normale Kataloge liefern alle Treffer durcheinander, bei uns werden die Treffer sortiert – in die Bereiche Biologie, Informatik und Film.
 
Video: Die Katalogsuche SLUBsemantics

SLUBsemantics baut auf bereits vorhandenen Konzepten auf …

Ja, wir nutzen Erfahrungen, die es schon gibt. Wikipedia ermöglicht uns zum Beispiel die Übersetzungsleistungen. Wir haben ein Verfahren entwickelt, das unsere Suchanfragen mit Lexikoneinträgen von Wikipedia abgleicht. Dort werden die Bedeutungen beschrieben und dort ernten wir auch die Mehrsprachigkeit. Und das Ganze wird dann mit unserem Bestand abgeglichen.

Der ideale Lexikoneintrag

Welche Weiterentwicklung planen Sie?

Wir stützen uns bislang mit Wikipedia nur auf ein Datenreservoir. Das ist zwar riesig, aber hat auch Grenzen. Deshalb versuchen wir momentan in einem Projekt namens d:swarm, Datenquellen aus verschiedensten Provenienzen zu integrieren. Wir ernten Informationen, führen sie zusammen und erhalten schließlich einen integrierten und von redundanten Informationen entschlackten Datensatz – den idealen Lexikoneintrag. Das wäre der nächste Schritt: noch tiefer erschließen, ohne von redundanten Informationen überwältigt zu werden.

Sie wollen also besser sein als Google …

Ja, auch wenn das vielleicht erstmal ziemlich überzogen klingt. Unser Vorteil ist, dass wir nicht in die Breite, sondern in die Tiefe entwickeln. Google muss Lösungen finden, die für alle passen und überall einsetzbar sind. Wir machen unsere Angebote zunächst für die Klientel hier vor Ort. Unsere primäre Nutzergruppe sind nicht Milliarden, sondern rund 80.000 Menschen. Und wir wissen, wie sich unsere Klientel zusammensetzt. Darum können wir mit feinerem Besteck arbeiten als Google, können uns auf bestimmte Sorten von Daten und bestimmte Fachsprachen fokussieren. Aber: Ja, wir wollen unsere Nutzer besser bedienen als Google das tut.

Angebote, die nachgefragt werden

Haben andere Bibliotheken schon Interesse an Ihren Entwicklungen angemeldet?

Ja, die British Library testet gerade einen Prototypen, der auf unserer Technologie basiert. Und wir führen Gespräche mit weiteren großen Bibliotheken in Deutschland und im europäischen Raum. Unter anderem sind wir mit der Deutschen Nationalbibliothek in Leipzig und Frankfurt am Main im Gespräch, die ja die Technikentwicklung für die Deutsche Digitale Bibliothek konzipiert – und von da ist es nicht mehr ganz so weit zur Europeana.

Wohin geht es in Zukunft beim Thema semantisches Netz und Bibliotheken?

Ich glaube, Bibliotheken müssen weiter auf diesem Weg gehen. Wir sollten Google, Flickr und andere Produkte der Internetindustrie als Benchmark begreifen und genau hinschauen, was wir besser machen können. Wir stehen zwar nicht in wirtschaftlicher Konkurrenz zu diesen Unternehmen, bewegen uns aber gleichwohl auf dem Markt von Angebot und Nachfrage. Jede Bibliothek muss Antworten darauf haben, wofür sie da ist – jetzt, in zehn und in 20 Jahren. Und diese Antworten fallen für eine kleine Stadtbibliothek natürlich anders aus als für einen so großen Tanker wie die SLUB.