Theseus – Technologien für das semantische Netz

Angesichts der Innovationskraft und wirtschaftlichen Bedeutung der Informationstechnologien hat das Bundeswirtschaftsministerium 21 Unternehmen und Forschungseinrichtungen zusammengerufen. Unter dem Projektnamen Theseus und ausgestattet mit insgesamt 180 Millionen Euro entwickeln sie Technologien für das semantische Netz.
Die problematische Ausgangssituation kennt jeder, der schon einmal im Internet nach einem bestimmten Begriff gesucht hat: Im Nullkommanichts liefern Suchmaschinen wie Google, Lycos oder Yahoo sechsstellige Trefferlisten. Aus diesen unübersichtlichen Suchergebnissen muss sich der Nutzer dann in mühevoller und zeitaufwändiger Arbeit jene Seiten herauspicken, die seinen Bedürfnissen entsprechen. Das heißt, die Suche nach brauchbaren Daten geht jetzt erst richtig los. Und spätestens bei Klicktiefe 20 steigen auch hartgesottene Surfer aus. Ergebnisse, die auf Seite 21 der Trefferliste stehen, bleiben unberücksichtigt.
Entwickler träumen daher schon seit Jahren davon, semantische Suchmaschinen zu entwickeln, die es erlauben, die riesige Menge an Daten, die es im Internet gibt, nach inhaltlichen Kriterien zu durchsuchen. Dieser Qualitätssprung würde eine neue Ära einläuten würde, die des Web 3.0, des semantischen Netzes. Doch davon ist die Community noch weit entfernt. Bislang ist das Netz – zumindest für die Computer und die Programme, die es durchkämmen und für den Nutzer überhaupt erst sichtbar machen, – nur eine Ansammlung von Zeichen, Buchstaben und Pixeln. Entsprechend durchforsten Suchmaschinen das Netz nur nach formalen Gesichtspunkten – mit dem bekannten Resultat: Ellenlange Trefferlisten, von denen ein Großteil der gefundenen Seiten auch noch unbrauchbar ist. Denn auf die Suchanfrage "Golf" zum Beispiel, die die Sportart meint, listet die Suchmaschine auch Internetseiten, die sich auf das Auto "Golf" beziehen oder auf den Meeresbusen.
Semantische Suchtechnologien hingegen, so die Vision, verstehen, was sie finden sollen und können daher – wie ein menschliches Wesen – sofort beurteilen, welche Daten tatsächlich den Bedürfnissen des Nutzers entsprechen. "Wir vollziehen gerade den Schritt von den Such- zu den Antwortmaschinen", sagt Wolfgang Wahlster, Chef des Deutschen Forschungszentrums für künstliche Intelligenz, das an Theseus beteiligt ist. Das sind visionäre Worte. Denn bevor nämlich eine Antwortmaschine überhaupt antworten kann, müssen die Daten, die sie auswertet, für sie erst einmal lesbar beziehungsweise verstehbar sein. Das heißt: Ein gewaltiger Teil der Forschungsarbeit richtet sich darauf, Standards für semantisch auswertbare Datenbanken zu entwickeln. Man braucht kein Suchmaschinenexperte zu sein, um zu begreifen, dass eine solches Vorhaben für das bestehende World Wide Web kaum zu realisieren sein dürfte, zumindest nicht in absehbarer Zeit.
Semantische Technologien für Spezialbereiche
Daher zielt Theseus auch nicht darauf ab, eine neue Suchmaschine fürs Internet, ähnlich wie Google, zu entwickeln, die anwendbar wäre auf alle Fälle, die die digitale Datenwelt liefert. Dazu sind die Daten im Internet viel zu heterogen und chaotisch. Auch werde es am Ende des Projekts keine Internetplattform geben, wahrscheinlich nicht einmal ein handfestes Produkt, sagt Thomas Huber, Pressesprecher von Theseus. Vielmehr geht es Theseus darum, Standards für eine semantische Suche innerhalb bestimmter Bereiche zu finden. Theseus, an dem auch Unternehmen wie Siemens oder SAP und Forschungseinrichtungen wie die Fraunhofer Gesellschaft und verschiedene Universitäten beteiligt sind, besteht entsprechend aus Teilprojekten, die jeweils auf verschiedene Anwendungsszenarien fokussiert sind. Diese wiederum, erklärt eine Referentin des Bundeswirtschaftsministeriums, seien im Vorfeld gemeinsam von Unternehmen und dem Wirtschaftsministerium als besonders viel versprechend ausgesucht worden.
So soll etwa unter dem Projektnamen "Medico" ein computerunterstütztes Diagnoseverfahren entwickelt werden, das darauf beruht, medizinische Bilddatenbanken sinnentnehmend zu durchsuchen. Der Computer könnte zum Beispiel Röntgenbilder oder Aufnahmen aus dem Computertomografen auswerten. Die Software, so die Vision, erkennt in den Bildern medizinische Auffälligkeiten, katalogisiert die Daten, trägt Vergleichsbilder und Behandlungsberichte aus aller Welt zusammen und liefert auf dieser Grundlage dem behandelnden Arzt relevante Daten und Therapievorschläge.
Neben "Medico" gibt es weitere Szenarien, innerhalb derer an semantischen Technologien geforscht wird. "Contentus" versucht unter anderem, ein Ordnungsprinzip für Audiodateien zu finden, um es etwa Sendeanstalten, Museen oder anderen kulturellen Einrichtungen zu ermöglichen, ihre Bestände der Öffentlichkeit übers Internet findbar zu machen. Bei "Ordo" wiederum geht es darum, dass Unternehmen ihre Datenmengen systematisieren können, so dass sie schnell und präzise abrufbar sind. "Alexandria" hingegen entwickelt Web 3.0-taugliche Werkzeuge für den normalen Internetnutzer.
Innovations- und Wirtschaftsfaktor Web 3.0
Bei jedem dieser Theseus-Teilprojekte arbeiten Unternehmen und Forschung eng zusammen, wobei die Federführung jeweils auf Seiten der Wirtschaft, die 50 Prozent der Gesamtkosten trägt, angesiedelt ist. Davon erhofft man sich bei Theseus nicht nur eine marktorientierte Produktentwicklung, sondern auch, dass verheißungsvolle Technologien schnellstmöglich in Produkte umgesetzt werden. Tief nämlich sitzt noch der Frust darüber, dass in der Vergangenheit deutsche Erfindungen auf dem Gebiet der Informationstechnologie von ausländischen Firmen umgesetzt wurden. Ungern erinnert man sich beispielsweise daran, dass wesentliche Teile des MP3-Technologie, jenes Komprimierungsverfahrens, mit dem heute fast jede Audiodatei ins Netz gestellt wird, ursprünglich in Deutschland entwickelt wurde. Nur fand sich damals niemand, der bereit gewesen wäre, diese Technologie in ein verkäufliches Produkt zu überführen. Das Geschäft mit MP3 machten also andere. Das soll sich nicht wiederholen. Denn das wissenschaftliche Potenzial auf dem Gebiet der Informationstechnologie sei in Deutschland enorm, sagt Thomas Huber. Man müsse diese Leute nur zusammenbringen, eine kritische Masse schaffen, aus der dann Innovationen entspringen können. Theseus soll dazu den Anstoß geben, so Huber.
Tatsächlich sind alle Projektpartner untereinander vernetzt, so dass die eine Forschungsgruppe von den Ergebnissen der anderen profitieren kann. Ein Konsortialvertrag regelt dann die Rechteverwertung – sofern nach Ende des Projekts, das auf fünf Jahre beschränkt ist, etwas Brauchbares herausgekommen ist. Denn bekanntlich lassen sich Innovationen nicht dekretieren. Außerdem drängt die Zeit. Auch in anderen Ländern wird mit Hochdruck an Technologien für das Web 3.0 geforscht.
V8 Verlag GmbH, Köln
Copyright: Goethe-Institut, Online-Redaktion
Haben Sie noch Fragen zu diesem Artikel? Schreiben Sie uns!
online-redaktion@goethe.de
November 2007









