Wenn Computer verstehen lernen – semantische Suchmaschinen

Mit der rasanten Entwicklung des Internets wächst auch das Bedürfnis nach Suchmaschinen, die helfen, tatsächlich das Gesuchte zu finden. Genau das sollen semantische Suchmaschinen leisten.
Eine Frage, ein Stichwort, eine unüberschaubare Anzahl von Links: So sieht in der Regel das Ergebnis aus, wenn man über die klassischen Suchmaschinen im Internet die Antwort auf eine konkrete Frage sucht. Zum Beispiel im Fall Gutenberg. Wer mit der Frage, wo Johannes von Gutenberg geboren wurde, ins Netz geht und bei Google.de das Stichwort „Gutenberg“ eingibt, wird auf über 10,7 Millionen Links verwiesen. Ergänzt man „Geburtsort“, sind es immer noch stolze 14.000. Hinter ihnen verbergen sich Texte, in denen man die Antwort auf seine Frage selbst nachlesen muss – falls sie sich denn überhaupt findet.
Eine Frage, eine Antwort (hier: „Mainz“): Das ist der Traum eines jeden Internetnutzers. Mit semantischen Suchmaschinen könnte dieser Traum Wirklichkeit werden.
Ein Schlagwort mit vielen Ausprägungen
Der Begriff „Semantische Suchmaschinen“ wird unterschiedlich weit gefasst. „Zum Teil werden Suchmaschinen bereits als semantisch bezeichnet, wenn sie zum Suchbegriff verwandte Begriffe anbieten oder wenn sie die Ergebnisse thematisch bündeln“, sagt Andreas Heß von der Deutschen Nationalbibliothek (DNB). Für den Informatiker aber sind dies keine „richtigen“ semantischen Suchmaschinen. Im Projekt Contentus arbeitet Heß an der digitalen Bibliothek der nächsten Generation. „Suchmaschinen, die diesen Namen verdienen, liefern als Suchergebnisse keine Links auf andere Texte, sondern bereits aufbereitete Informationen.“
Als Beispiel nennt Heß evri.com. „Hier geben Sie den Namen ‚Gutenberg‘ ein und dann wird ein Netzwerk angezeigt, das die mit Gutenberg verbundenen Personen und Orte darstellt. Es werden Geburts- und Sterbedaten angezeigt und auch Bilder. Solche Suchmaschinen integrieren Informationen aus verschiedensten Quellen – von der Homepage eines Museums bis zum Blog.“
Leseförderung für Computer
Doch: Was für jeden geübten Leser selbstverständlich ist, kann kein Computer leisten. Im Gegensatz zu Menschen können Computer keine Texte verstehen. Semantische Suchmaschinen finden Informationen daher nur in sogenannten formalen Wissensrepräsentationen. Dort werden die Informationen so dargestellt, dass sie auch von einem Rechner verstanden werden.
Dafür müssen bestimmte Fakten explizit gespeichert und auf ganz einfache Beziehungen, wie etwa Subjekt – Prädikat – Objekt, heruntergebrochen werden. Zusätzlich braucht der Rechner Informationen darüber, wie Prädikate zu interpretieren sind.
Bei der Entwicklung semantischer Suchmaschinen ist es ein wichtiges Ziel, dass sie auch schlussfolgern können: etwa die Informationen „Gutenberg geboren in Mainz“ und „Mainz liegt in Deutschland“ zu der Schlussfolgerung zusammenführen, dass Gutenberg in Deutschland geboren wurde. „Dafür muss ich dem Rechner aber vorher explizit gesagt haben, welche Beziehung zwischen Mainz und Deutschland besteht“, erläutert Andreas Heß.
Weiter Weg ins World Wide Web
Semantische Suchmaschinen werden zurzeit in ganz unterschiedlichen Bereichen entwickelt. „Die Szene ist kaum zu überblicken. Ständig kommen neue Seiten von Universitäten, aber auch von kleinen Startups oder Einzelpersonen hinzu“, wie Heß betont.
Da aber eine besondere formale Darstellung der Inhalte erforderlich ist, ist die semantische Suche bislang nur in geschlossenen Datenbeständen praktikabel – und nicht über das gesamte Internet. „Das wird sicher auch noch eine ganze Zeit lang dauern“, sagt Heß.“ Schließlich müssten dafür alle Webmaster ihren Seiten eine semantische Aufbereitung hinzufügen.“ Zurzeit werden möglichst einfache, automatisierte Verfahren dafür entwickelt.
Entwicklungen der Grundlagen im Bibliotheksbereich
Gerade in den Bereichen Bibliothek, Archiv und Museum werden diese Suchmaschinen in Zukunft eine immer größere Rolle spielen, weil sie einen deutlichen Mehrwert für den Nutzer bieten. Die Deutsche Nationalbibliothek arbeitet zurzeit im Contentus-Projekt, einem Teil des umfangreichen Theseus-Forschungsprogramms des Bundesministeriums für Wirtschaft und Technologie (BMWi), an den Grundlagen für eine semantische Suche.
„Der in der DNB vorhandene Normdatenbestand bietet dafür eine sehr gute Ausgangslage“, berichtet Heß. „In der Personen- und der Schlagwortnormdatei stehen ja genau solche Informationen, die von Rechnern verstanden werden können.“ Man sei gerade dabei, alle in der DNB vorhandenen Datenbestände in eine sogenannte Ontologie, „eine Art erweiterter Thesaurus“, zu überführen: „Während ein Thesaurus zum Beispiel nur sagt, welche Ober-, und Unterbegriffe oder Synonyme es zu dem Wort ‚Buch‘ gibt, kann man in einer Ontologie noch genauer modellieren und beschreiben, dass ein Buch einen Autor, ein Erscheinungsdatum und so weiter hat.“
Das Projekt steht jedoch noch in den Anfängen. Der Weg zum verständigen Computer ist noch weit.
Hakia: www.hakia.com
WeFind: www.wefind.com
Evri: www.evri.com
Semager: www.semager.de
Dandelon: www.dandelon.com
arbeitet als freie Publizistin in Bonn.
Copyright: Goethe-Institut e. V., Online-Redaktion
Februar 2010
Haben Sie noch Fragen zu diesem Artikel? Schreiben Sie uns!
online-redaktion@goethe.de











