Informationsbeschaffung im Internet
Der Web-Roboter
Es gibt Millionen von Web-Servern, die Hunderte von Millionen von Webseiten anbieten. Irgendwann entsteht auf irgendeinem dieser Server eine neue Seite, oder es wird eine der bestehenden Seiten geändert. Wie bringt OmniSearch all dies in Erfahrung?
Hier kommt der Web-Roboter (auch Spider oder Crawler genannt) ins Spiel. Der Web-Roboter ist ein Programm mit der Aufgabe, Webseiten zu finden. Dazu nützt der Roboter die Eigenschaft des World Wide Web aus, dass die Dokumente über Hyperlinks miteinander verbunden oder eben verwoben sind.
Damit ist das Vorgehen eigentlich klar:
- In einer Tabelle legt eine für den Suchdienst verantwortliche Person die
Startpunkte für die Suche nach Webseiten fest.
- Der Web-Roboter geht durch diese Liste mit URLs und bezieht die
zugehörigen Seiten aus dem Internet. Dann wird jede Seite nach
weiterführenden Verweisen (Hyperlinks) untersucht.
- Die gefundenen Hyperlinks landen ebenfalls in der
Tabelle mit den URLs, damit der Web-Roboter über die schon besuchten Seiten
Bescheid weiss. Später werden auch die neu eingetragenen Seiten nach
weiteren Verweisen untersucht. Auf diese Weise arbeitet sich der
Web-Roboter immer weiter in die Tiefen des WWW vor.
- Der Web-Roboter muss die entstandene URL-Tabelle regelmässig neu
durcharbeiten und die entsprechenden Webseiten begutachten. Nur so kann er
herausfinden, ob sich der Inhalt einer Seite geändert hat.
Früher oder später findet der Web-Roboter somit alle Seiten, die auf irgendeinem Weg von den Startseiten aus erreicht werden können. Oder umgekehrt: Er findet keine isolierten Seiten.
Ein Beispiel
NewsSeeker bietet eine vertikale Dokumentenkollektion bestehend aus internationalen Nachrichtenmeldungen an. Wir gehen davon aus, dass die Meldungen von insgesamt drei fiktiven Anbietern im WWW stammen: NewsAtOnce, WorldWideNews, und NewsNow. Also muss der Web-Roboter von NewsSeeker die zugehörigen Web-Server besuchen und möglichst alle Dokumente finden:

In der URL-Tabelle stehen zunächst nur die Einstiegsseiten der drei Web-Server. Die Adressen der neu gefundenen Seiten trägt der Roboter ebenfalls in die Tabelle ein, zum Beispiel den URL http://www.newsatonce.com/world.html. Falls jemand vergisst, eine Webseite mit einer neuen Meldung durch eine bestehende zu referenzieren, so entsteht eine isolierte Seite, die nicht gefunden wird.
Das Kleingedruckte
Web-Roboter dürfen sich nicht völlig frei im Internet bewegen. Die Suchsystembetreiber können dem Roboter gewisse Regeln vorschreiben, an die er sich zu halten hat. Diese Vorschriften sehen je nach Verwendung des Suchsystems anders aus. Ein Beispiel, wie das bei NewsSeeker aussehen könnte:
INCLUDE_PATTERN http://www.newsatonce.com/* INCLUDE_PATTERN http://www.worldwidenews.com/* INCLUDE_PATTERN http://www.newsnow.com/* ... ... EXCLUDE_PATTERN *.gif EXCLUDE_PATTERN *.jpg ... ... EXCLUDE_PATTERN *.wav EXCLUDE_PATTERN *.mpg ... ... |
Wie erwähnt konzentriert sich NewsSeeker auf das Angebot von drei Web-Servern. Deshalb wird hier für jeden Hyperlink verlangt, dass eine der drei Server-Adressen im URL vorkommt. Es werden keine Verweise weiterverfolgt, die zu anderen Web-Servern führen. Bei horizontalen Dokumentenkollektionen wie derjenigen von OmniSearch fällt diese Restriktion weg, weil möglichst alle Seiten im Web angeboten werden sollen.
Weiter wird durch den Regelsatz bestimmt: Alle Verweise auf Bilddateien (GIF, JPEG usw.), Audiodateien (WAV usw.) oder Videosequenzen (MPEG usw.) werden ignoriert.