Lerner

 •  Wörterbücher

 •  Grammatik
 •  Lesestrategien
 Texte

 •  
Texte mit Aufgaben
 •  Texte zum Lesen
 •  Thematisch geordnet
 Extras

 •  Chat-Seite
 •  Schreibwerkstatt
 
  Menü      

 

Suchmaschinen im Internet

Teil I
Die Allround-Maschine
Teil II
Die Spezialisten
Teil III
Die Meta-Sucher
Teil IV
Katalog contra Spider

 

Teil IV: Katalog contra Spider

Die Bedeutung
Die Links
Die Unterstützung
Die Zukunft

Interview mit Karsten Weide, dem Senior Producer bei Yahoo.de
Er ist für Produktmanagement und Entwicklung bei Yahoo.de zuständig.
 

Interview mit Louis Monier. Er ist der Vater von Altavista. Seit ihm beim Mittagstisch die Idee kam, einen automatischen Index für das gesamte WWW zu entwickeln, war er nicht mehr zu bremsen. Mit Hilfe seiner Kollegen von Digital programmierte er die Suchmaschine Altavista.

Die Bedeutung

Was ist der Unterschied zwischen Web-Katalog und dem guten alten Telefonbuch?
Der Kern von Yahoo! ist ein Verzeichnis thematisch geordneter Web-Sites. Es ist nicht weniger und nicht mehr als ein systematischer Katalog, wie man ihn aus Büchereien kennt. Die zwei Unterschiede zum Telefonbuch: Nicht alle Web-Sites sind in Yahoo! verzeichnet, und alle Einträge sind mit einer kurzen Beschreibung versehen, die den Nutzern sagen, was sie erwartet.
Mittlerweile ist Yahoo! aber noch mehr: Wir haben zum Beispiel Nachrichten von dpa, Reuters und AP, Sport-News von sid, Wirtschaftsmeldungen von vwd, Wettervorhersagen, alle Aktienkurse aus Frankfurt, London, Paris, Mailand, Stockholm und Oslo, ein bundesweites Firmenverzeichnis, ein E-Mail-Adressenverzeichnis, und wir wachsen weiter.

 
Was ist der Unterschied zwischen einem Web-Crawler und dem guten alten Telefonbuch?
Ein Webcrawler sammelt alle Seiten im Netz und erstellt daraus einen Index. Dieser Index ist zu groß, um ihn wie ein Telefonbuch durchzublättern. Aber man kann den Index durchsuchen, indem man Fragen formuliert, die der Webcrawler dann mit den Worten auf den Webseiten vergleicht. Und genau so funktioniert AltaVista.

Was hat der Katalog dem Crawler voraus?
Yahoo! ist im Gegensatz zu Suchmaschinen ein von Menschen aufgebautes und gepflegtes Verzeichnis, nicht ein von Automaten generierter Index. Unsere Surfer stecken eine Menge Hirnschmalz und Arbeit in unseren Katalog. Die Vorteile des Verzeichnisses: Will ein Nutzer Web-Sites zu einem bestimmten Thema finden, dann wird er schneller fündig, weil er sich nicht erst durch tausende irrelevanter Suchtreffer wühlen muss. Außerdem kann man sicher sein, dass die Web-Sites, die man dort findet, die wesentlichen, also die besten sind.
Suchmaschinen bieten statt Wesentlichkeit Vollständigkeit; das bieten wir auch auf Yahoo!. Findet zum Beispiel eine Nutzer-Suche im Yahoo!-Verzeichnis nichts, leiten wir sie automatisch an unseren Suchmaschinen-Partner Inktomi weiter.

 
Was hat der Crawler dem Katalog voraus?
Ein Katalog beschreibt für gewöhnlich nur einen Bruchteil aller Webseiten. Er versucht die Seiten mit menschlicher Hilfe zu kategorisieren. Somit wird eine Web- Site normalerweise auf die Information "Dies ist eine Web-Site zu diesem oder jenem Thema" reduziert. Ein Crawler deckt dagegen alle Webseiten im Netz ab und kann auch Fragen beantworten, die den Inhalt dieser Seiten betreffen.

Was bedeutet 'Yahoo!' eigentlich?
Das weiß keiner so genau. Die einen sagen, Yahoo! steht für Yet Another Hierarchical Officious Oracle, die anderen meinen, es bezieht sich auf die Yahoos aus Gullivers Reisen, jene gemeinen, fiesen und schmutzigen Wesen. Meine Meinung: David Filo und Jerry Yang, die Yahoo!-Gründer, haben diesen Namen einfach als "Schnapsidee" über mehreren guten Glas Bier erfunden. ;-)

 
Was bedeutet 'AltaVista' eigentlich?
"Alta Vista" ist Spanisch und bedeutet wörtlich "Hoher Blick" Von diesem Aussichtspunkt kann man das gesamte Web überblicken.
Die Links

Wie steht es bei Yahoo mit Anzahl, Aktualität und Qualität der Links?
Yahoo! verzeichnet zurzeit rund 60.000 deutschsprachige Web-Sites. Unser Team hauptberuflicher Surfer ist ständig damit beschäftigt, neue Einträge hinzuzufügen, tote Einträge zu löschen sowie Einträge auf den neuesten Stand zu bringen. Nur Web-Sites, die bestimmte strenge Qualitätskriterien erfüllen, werden aufgenommen: Sie müssen deutschsprachig sein, sie müssen kostenlos und frei zugänglich sein, sie müssen technisch ständig zugänglich sein (also nicht einfach halbe Tage "down" sein), sie müssen legal sein, und sie müssen redaktionell gut sein. Eine Web-Site á la "Das bin ich, das ist mein Hund, wir sind im Internet!" ist leider nicht gut genug. Um tote Links zu finden, lassen wir regelmäßig das "Morgue"-Script laufen, das tote Einträge erst mal ins virtuelle "Leichenschauhaus" bringt.

 
Wie steht es bei AltaVista mit Anzahl, Aktualität und Qualität der Links?
AltaVista hat schon immer den größten Index gehabt. Momentan umfasst er etwa 140 Millionen Seiten. Der Index wird jede Nacht erweitert, und jeden Monat rundum erneuert. Unser Ranking-Programm wird ständig verbessert, damit die Seiten die am besten auf eine Anfrage passen, an erster Stelle präsentiert werden.
Wie viele Hauptamtliche Surfer sind bei Yahoo! angestellt?
Kein Kommentar! Es ist unsere Firmenpolitik, dazu kein Auskunft zu geben. Unsere Konkurrenten lesen bestimmt auch "jetzt". 8-)
 

Wie viele menschliche Surfer müssten gleichzeitig arbeiten, um die Leistung von AltaVistas Crawler-Modul "Scooter" zu erbringen?
Scooter kann locker 200 Seiten pro Sekunde abrufen und verarbeiten. Wenn man also extrem optimistisch ist, und annimmt, dass ein geübter Surfer eine Seite pro Minute schafft, dann müssten 12000 Leute 24 Stunden am Tag unermüdlich arbeiten, um die Seiten mit der selben Geschwindigkeit wie Scooter zu finden. Natürlich wären sie überhaupt nicht in der Lage, aus diesen Daten den Index zu erstellen. Das ist nun mal keine Aufgabe für Menschen.

Yahoo will anspruchsvolle Seiten für jedes Spezialgebiet leicht auffindbar machen. Ist das allein mit menschlicher Arbeitskraft in Zukunft noch möglich?
Leider wächst das Web schneller als jedes Web-Verzeichnis! Was wir aber immer werden gewährleisten können: Wesentlichkeit, also, die besten und wichtigsten Web- Sites zu verzeichnen. Wozu brauche ich 200 Homepages über die Spice Girls, wenn die zehn besten alles zu diesem Thema abdecken?

 
Die Zahl der Webseiten nimmt explosionsartig zu. Kann AltaVista da noch seinem Anspruch gerecht werden, ein Index für das gesamte Internet zu sein?
Die Chancen stehen gut. Wir haben bei unserer Aufrüstung bisher mit der zunehmenden Anzahl von Surfern und Webseiten Schritt halten können. Die Leistungsfähigkeit der Hardware nimmt konstant zu, genau wie die unserer Software.
Die Unterstützung

Anfangs suchten David Filo und Jerry Jang die Webseiten für ihren Internet-Katalog selber. Jetzt müssen Yahoo!s Angestellte nur noch von Surfern empfohlene Seiten überprüfen und eintragen. Die Internetgemeinde als unbezahlte Hilfskräfte?
Stimmt, die meisten Web-Sites in Yahoo! stammen aus Anmeldungen, ein Teil wird jedoch auch im freien Surfen gefunden. Wer eine tolle Web-Site betreibt oder eine tolle Site kennt, der will auch, dass möglichst viele Menschen sie zu sehen bekommen. Die Anmelder wissen, dass Yahoo! der beste Platz ist, um eine Site bekannt zu machen, und melden sich von sich aus bei uns. Das ist wie eine Volksabstimmung: Die heißesten Sites werden garantiert mehrfach bei uns angemeldet, Langweiler eben nicht. Beschwerden, dass sich jemand als unbezahlte Hilfskraft ausgenutzt fühlt, hatten wir noch nie.

 
Früher musste AltaVista Webseiten aufspüren. Inzwischen melden immer mehr Leute ihre Seiten selber an. Ist das eine Arbeitserleichterung?
Leute, die eine Webseite bei uns anmelden, gehen sicher, dass wir ihre Seite über Nacht bearbeiten. Es ist also eine kleine Hilfe. Aber solange es irgendwo im Netz einen Link auf diese Seite gibt, werden wir sie finden. Eine Anmeldung ist also nicht nötig.

Früher gab es - wenn Yahoo nicht weiter wusste - einen Link zu Altavista. Jetzt nicht mehr. Kommt Yahoo nun ganz allein zurecht - ohne die Hilfe eines Crawlers?
Die Suchmaschine als Rettungsanker, wenn Yahoo! mal nicht weiter weiß, gibt's selbstverständlich noch: Wir haben nur von Altavista auf Inktomi gewechselt, eine andere Suchmaschine. Auch Hotbot hat übrigens unter der Motorhaube die Inktomi- Suchmaschine.

 
AltaVista hat inzwischen auch einen Katalog eingebaut. Das sieht so aus, als hätte da jemand bei Yahoo abgeschaut.
Jeder Crawler hat zusätzlich zum Index einen Katalog. Unser Schwerpunkt liegt jedoch auf der Volltext-Suche im Index.
Die Zukunft

Mittlerweile gibt es weltweit 14 verschiedene Yahoos. Entwickeln die Töchter von Yahoo ein Eigenleben, oder sind das nur Klons?
Stimmt, wir sind zu einer ziemlich internationalen Familie geworden. Fast alle Yahoos werden von lokalen Teams hergestellt, weil wir glauben, dass - zum Beispiel - nur Franzosen in Frankreich ein echtes französisches Yahoo! für Franzosen produzieren können. Gleichen tun sich alle Yahoos insofern, als das Design und die Steuerung immer die gleiche ist. Der Grund: Hat ein Nutzer gelernt, wie er ein Yahoo! nutzen kann, soll er auch sofort alle anderen nutzen können.

 
AltaVista hat inzwischen auch Ableger in Europa, Asien und Australien. Sind das Kopien der Datenbank in Kalifornien oder gibt es regionale Unterschiede?
Diese Ableger sind identische Kopien des Webindexes.
Wie stellen Sie sich die Suchmaschine der Zukunft vor?
Verzeichnisse werden hoffentlich immer von Menschen gemacht, die kann niemand ersetzen. Von den Suchmaschinen erhoffe ich mir für die Zukunft eine größere Trennschärfe bei den Suchergebnissen: Sie liefern zwar Vollständigkeit, aber auch diese Vollständigkeit ist eben immer noch unter einer Menge Müll verborgen.
 
Wie stellen Sie sich die Suchmaschine der Zukunft vor?
Sie wird eine ebensogute Indizierung und Beschreibung des WWW bieten, wie AltaVista. Außerdem wird sie Werkzeuge zur Verfügung stellen, die die Informationen im Web intelligent und sinnvoll verknüpfen: Schnittstellen für natürliche Sprache, automatische Kategorisierung der Such-Ergebnisse und eine Übersetzungsfunktion für die Suche fremdsprachiger Dokumente.

Martin Schneider

 

Teil I
Die Allround-Maschine
Teil II
Die Spezialisten
Teil III
Die Meta-Sucher
Teil IV
Katalog contra Spider

 

Text als RTF-Datei zum Herunterladen