|
|
|
Suchmaschinen
im Internet
Teil IV: Katalog
contra Spider
Die
Bedeutung
Die Links
Die Unterstützung
Die Zukunft
Interview
mit Karsten Weide, dem Senior Producer bei Yahoo.de
Er ist für Produktmanagement und Entwicklung bei Yahoo.de
zuständig. |
|
Interview mit
Louis Monier. Er ist der Vater von Altavista.
Seit ihm beim Mittagstisch die Idee kam, einen automatischen
Index für das gesamte WWW zu entwickeln, war er nicht
mehr zu bremsen. Mit Hilfe seiner Kollegen von Digital
programmierte er die Suchmaschine Altavista.
|
|
Was ist der
Unterschied zwischen Web-Katalog und dem guten alten Telefonbuch?
Der Kern von Yahoo! ist ein Verzeichnis thematisch geordneter
Web-Sites. Es ist nicht weniger und nicht mehr als ein
systematischer Katalog, wie man ihn aus Büchereien kennt.
Die zwei Unterschiede zum Telefonbuch: Nicht alle Web-Sites
sind in Yahoo! verzeichnet, und alle Einträge sind mit
einer kurzen Beschreibung versehen, die den Nutzern sagen,
was sie erwartet.
Mittlerweile ist Yahoo! aber noch mehr: Wir haben zum
Beispiel Nachrichten von dpa, Reuters und AP, Sport-News
von sid, Wirtschaftsmeldungen von vwd, Wettervorhersagen,
alle Aktienkurse aus Frankfurt, London, Paris, Mailand,
Stockholm und Oslo, ein bundesweites Firmenverzeichnis,
ein E-Mail-Adressenverzeichnis, und wir wachsen weiter.
|
|
Was
ist der Unterschied zwischen einem Web-Crawler und dem guten
alten Telefonbuch?
Ein Webcrawler sammelt alle Seiten im Netz und erstellt
daraus einen Index. Dieser Index ist zu groß, um ihn wie
ein Telefonbuch durchzublättern. Aber man kann den Index
durchsuchen, indem man Fragen formuliert, die der Webcrawler
dann mit den Worten auf den Webseiten vergleicht. Und genau
so funktioniert AltaVista. |
Was
hat der Katalog dem Crawler voraus?
Yahoo! ist im Gegensatz zu Suchmaschinen ein von Menschen
aufgebautes und gepflegtes Verzeichnis, nicht ein von
Automaten generierter Index. Unsere Surfer stecken eine
Menge Hirnschmalz
und Arbeit in unseren Katalog. Die Vorteile des Verzeichnisses:
Will ein Nutzer Web-Sites zu einem bestimmten Thema finden,
dann wird er schneller fündig, weil er sich nicht erst
durch tausende irrelevanter Suchtreffer wühlen muss. Außerdem
kann man sicher sein, dass die Web-Sites, die man dort
findet, die wesentlichen, also die besten sind.
Suchmaschinen bieten statt Wesentlichkeit Vollständigkeit;
das bieten wir auch auf Yahoo!. Findet zum Beispiel eine
Nutzer-Suche im Yahoo!-Verzeichnis nichts, leiten wir
sie automatisch an unseren Suchmaschinen-Partner Inktomi
weiter.
|
|
Was
hat der Crawler dem Katalog voraus?
Ein Katalog beschreibt für gewöhnlich nur einen Bruchteil
aller Webseiten. Er versucht die Seiten mit menschlicher
Hilfe zu kategorisieren. Somit wird eine Web- Site normalerweise
auf die Information "Dies ist eine Web-Site zu diesem
oder jenem Thema" reduziert. Ein Crawler deckt dagegen
alle Webseiten im Netz ab und kann auch Fragen beantworten,
die den Inhalt dieser Seiten betreffen. |
Was
bedeutet 'Yahoo!' eigentlich?
Das weiß keiner so genau. Die einen sagen, Yahoo! steht
für Yet Another Hierarchical Officious Oracle, die anderen
meinen, es bezieht sich auf die Yahoos aus Gullivers Reisen,
jene gemeinen, fiesen
und schmutzigen Wesen. Meine Meinung: David Filo und Jerry
Yang, die Yahoo!-Gründer, haben diesen Namen einfach als
"Schnapsidee"
über mehreren guten Glas Bier erfunden. ;-)
|
|
Was
bedeutet 'AltaVista' eigentlich?
"Alta Vista" ist Spanisch und bedeutet wörtlich
"Hoher Blick" Von diesem Aussichtspunkt kann man
das gesamte Web überblicken. |
|
Wie
steht es bei Yahoo mit Anzahl, Aktualität und Qualität
der Links?
Yahoo! verzeichnet zurzeit rund 60.000 deutschsprachige
Web-Sites. Unser Team hauptberuflicher Surfer ist ständig
damit beschäftigt, neue Einträge hinzuzufügen, tote Einträge
zu löschen sowie Einträge auf den neuesten Stand zu bringen.
Nur Web-Sites, die bestimmte strenge Qualitätskriterien
erfüllen, werden aufgenommen: Sie müssen deutschsprachig
sein, sie müssen kostenlos und frei zugänglich sein, sie
müssen technisch ständig zugänglich sein (also nicht einfach
halbe Tage "down" sein), sie müssen legal sein,
und sie müssen redaktionell gut sein. Eine Web-Site á
la "Das bin ich, das ist mein Hund, wir sind im Internet!"
ist leider nicht gut genug. Um tote Links zu finden, lassen
wir regelmäßig das "Morgue"-Script laufen, das
tote Einträge erst mal ins virtuelle "Leichenschauhaus"
bringt.
|
|
Wie
steht es bei AltaVista mit Anzahl, Aktualität und Qualität
der Links?
AltaVista hat schon immer den größten Index gehabt. Momentan
umfasst er etwa 140 Millionen Seiten. Der Index wird jede
Nacht erweitert, und jeden Monat rundum erneuert. Unser
Ranking-Programm wird ständig verbessert, damit die Seiten
die am besten auf eine Anfrage passen, an erster Stelle
präsentiert werden.
|
Wie
viele Hauptamtliche Surfer sind bei Yahoo! angestellt?
Kein Kommentar! Es ist unsere Firmenpolitik, dazu kein Auskunft
zu geben. Unsere Konkurrenten lesen bestimmt auch "jetzt".
8-) |
|
Wie
viele menschliche Surfer müssten gleichzeitig arbeiten,
um die Leistung von AltaVistas Crawler-Modul "Scooter"
zu erbringen?
Scooter kann locker
200 Seiten pro Sekunde abrufen und verarbeiten. Wenn man
also extrem optimistisch ist, und annimmt, dass ein geübter
Surfer eine Seite pro Minute schafft, dann müssten 12000
Leute 24 Stunden am Tag unermüdlich arbeiten, um die Seiten
mit der selben Geschwindigkeit wie Scooter zu finden.
Natürlich wären sie überhaupt nicht in der Lage, aus diesen
Daten den Index zu erstellen. Das ist nun mal keine Aufgabe
für Menschen.
|
Yahoo will anspruchsvolle
Seiten für jedes Spezialgebiet leicht auffindbar machen.
Ist das allein mit menschlicher Arbeitskraft in Zukunft
noch möglich?
Leider wächst das Web schneller als jedes Web-Verzeichnis!
Was wir aber immer werden gewährleisten können: Wesentlichkeit,
also, die besten und wichtigsten Web- Sites zu verzeichnen.
Wozu brauche ich 200 Homepages über die Spice Girls, wenn
die zehn besten alles zu diesem Thema abdecken?
|
|
Die
Zahl der Webseiten nimmt explosionsartig zu. Kann AltaVista
da noch seinem Anspruch gerecht werden, ein Index für das
gesamte Internet zu sein?
Die Chancen stehen gut. Wir haben bei unserer Aufrüstung
bisher mit der zunehmenden Anzahl von Surfern und Webseiten
Schritt halten können. Die Leistungsfähigkeit der Hardware
nimmt konstant zu, genau wie die unserer Software. |
|
Anfangs suchten
David Filo und Jerry Jang die Webseiten für ihren Internet-Katalog
selber. Jetzt müssen Yahoo!s Angestellte nur noch von
Surfern empfohlene Seiten überprüfen und eintragen. Die
Internetgemeinde als unbezahlte Hilfskräfte?
Stimmt, die meisten Web-Sites in Yahoo! stammen aus Anmeldungen,
ein Teil wird jedoch auch im freien Surfen gefunden. Wer
eine tolle Web-Site betreibt oder eine tolle Site kennt,
der will auch, dass möglichst viele Menschen sie zu sehen
bekommen. Die Anmelder wissen, dass Yahoo! der beste Platz
ist, um eine Site bekannt zu machen, und melden sich von
sich aus bei uns. Das ist wie eine Volksabstimmung: Die
heißesten Sites werden garantiert mehrfach bei uns angemeldet,
Langweiler eben nicht. Beschwerden, dass sich jemand als
unbezahlte Hilfskraft ausgenutzt fühlt, hatten wir noch
nie.
|
|
Früher
musste AltaVista Webseiten aufspüren. Inzwischen melden
immer mehr Leute ihre Seiten selber an. Ist das eine Arbeitserleichterung?
Leute, die eine Webseite bei uns anmelden, gehen sicher,
dass wir ihre Seite über Nacht bearbeiten. Es ist also eine
kleine Hilfe. Aber solange es irgendwo im Netz einen Link
auf diese Seite gibt, werden wir sie finden. Eine Anmeldung
ist also nicht nötig. |
Früher gab es
- wenn Yahoo nicht weiter wusste - einen Link zu Altavista.
Jetzt nicht mehr. Kommt Yahoo nun ganz allein zurecht
- ohne die Hilfe eines Crawlers?
Die Suchmaschine als Rettungsanker, wenn Yahoo! mal nicht
weiter weiß, gibt's selbstverständlich noch: Wir haben
nur von Altavista auf Inktomi gewechselt, eine andere
Suchmaschine. Auch Hotbot hat übrigens unter der Motorhaube
die Inktomi- Suchmaschine.
|
|
AltaVista
hat inzwischen auch einen Katalog eingebaut. Das sieht so
aus, als hätte da jemand bei Yahoo abgeschaut.
Jeder Crawler hat zusätzlich zum Index einen Katalog. Unser
Schwerpunkt liegt jedoch auf der Volltext-Suche im Index. |
|
Mittlerweile
gibt es weltweit 14 verschiedene Yahoos. Entwickeln die
Töchter von Yahoo ein Eigenleben, oder sind das nur Klons?
Stimmt, wir sind zu einer ziemlich internationalen Familie
geworden. Fast alle Yahoos werden von lokalen Teams hergestellt,
weil wir glauben, dass - zum Beispiel - nur Franzosen
in Frankreich ein echtes französisches Yahoo! für Franzosen
produzieren können. Gleichen tun sich alle Yahoos insofern,
als das Design und die Steuerung immer die gleiche ist.
Der Grund: Hat ein Nutzer gelernt, wie er ein Yahoo! nutzen
kann, soll er auch sofort alle anderen nutzen können.
|
|
AltaVista
hat inzwischen auch Ableger in Europa, Asien und Australien.
Sind das Kopien der Datenbank in Kalifornien oder gibt es
regionale Unterschiede?
Diese Ableger sind identische Kopien des Webindexes. |
Wie
stellen Sie sich die Suchmaschine der Zukunft vor?
Verzeichnisse werden hoffentlich immer von Menschen gemacht,
die kann niemand ersetzen. Von den Suchmaschinen erhoffe
ich mir für die Zukunft eine größere Trennschärfe bei den
Suchergebnissen: Sie liefern zwar Vollständigkeit, aber
auch diese Vollständigkeit ist eben immer noch unter einer
Menge Müll verborgen. |
|
Wie
stellen Sie sich die Suchmaschine der Zukunft vor?
Sie wird eine ebensogute Indizierung und Beschreibung des
WWW bieten, wie AltaVista. Außerdem wird sie Werkzeuge zur
Verfügung stellen, die die Informationen im Web intelligent
und sinnvoll verknüpfen: Schnittstellen für natürliche Sprache,
automatische Kategorisierung der Such-Ergebnisse und eine
Übersetzungsfunktion für die Suche fremdsprachiger Dokumente. |
Martin
Schneider
|
Text
als RTF-Datei zum Herunterladen
|