Informationsbeschaffung im Internet

Der Index

Der Web-Roboter ist dafür verantwortlich, Dokumente im WWW zu finden. Die gefundenen Dokumente reicht der Roboter weiter an die Indexierungskomponente des Suchsystems. Nach der Indexierung werden die Informationen aus jedem Dokument im Index festgehalten. Ein Ausschnitt aus dem Index von OmniSearch könnte wie folgt aussehen.

Begriffe Vorkommen
mars chocolate.com/mars.html geschichte.de/mars.html plantes.org/list.html ... URL
120 36 3 ... Häufigkeit
7, 12, 51, ... 21, 32, ... 12, 33, 40 ... Positionen
pluto disney.com/comics.html plantes.org/list.html ... ... URL
78 15 ... ... Häufigkeit
1, 18, ... 67, 73, ... ... ... Positionen
saturn sega.com/consoles cars.uk/dealers.html plantes.org/list.html ... URL
99 10 8 ... Häufigkeit
1, 4, 9, ... 51, 126, ... 80, 85, ... ... Positionen

Der Index funktioniert demnach ganz ähnlich wie ein Stichwortverzeichnis in einem Buch. Zu jedem Begriff gibt er Auskunft darüber, in welchen Dokumenten das Wort vorkommt, wie oft es jeweils auftaucht und an welchen Positionen. In einer zweiten Tabelle können zu jedem Dokument zusätzliche Angaben wie URL, Titel, Datum der letzten Änderung sowie allfällige weitere Informationen ausgelesen werden. Mit diesen Zusatzinformationen kann das Suchsystem eine Rangliste erstellen, ohne die vollständigen Dokumente zu haben.

URL Titel Datum ...
chocolate.com/mars.html Mars macht mobil 12. 03. 1998 ...
geschichte.de/mars.html Kriegsgott Mars 29. 05. 1997 ...
planets.org/list.html Planetenübersicht 07. 02. 1999 ...
disney.com/comics.html Mickey's Dog 25. 04. 1998 ...
sega.com/consoles.html MegaDrive, Saturn, ... 15. 12. 1998 ...
cars.uk/dealers.html UK Car Dealers 17. 01. 1999 ...
... ... ... ...

Wie arbeitet das Suchsystem mit dem Index?

Man kann sich den Index als eine Sammlung von simplen Ein-Wort-Suchanfragen vorstellen. Ein Hobby-Astronom auf der Suche nach Planeten in unserem Sonnensystem stellt vielleicht die Anfrage mars. OmniSearch muss daraufhin im Wesentlichen nur die entsprechende Liste aus dem Index zurückliefern: eine Seite über Schokoladeriegel, eine andere über den Planeten Mars und eine dritte mit Informationen zum Kriegsgott mit demselben Namen sowie viele andere Webseiten. Für jedes gefundene Dokument sucht sich OmniSearch die Zusatzinformationen aus der zweiten Tabelle heraus und stellt damit die Rangliste zusammen. Rangierungsprinzip 2 schreibt vor, dass diejenigen Dokumente als die relevantesten betrachtet werden, in denen der Suchbegriff mars am häufigsten vorkommt.

1.Mars macht mobil
http://www.chocolate.com/mars.html
2.Kriegsgott Mars
http://www.geschichte.de/mars.html
3.Planetenübersicht
http://www.planets.org/list.html
4....
http://...

Mit dieser Rangliste ist unser Astronom noch nicht zufrieden, und er überlegt sich dann, wie er die störenden Einträge ohne Bezug zu seinem Thema wegbringen kann. Er versucht es mit mehr als einem Planetennamen: mars saturn pluto. In diesem Fall kombiniert das Suchsystem die drei Listen, die zu diesen Begriffen gehören. Rangierungsprinzip 1 sorgt dann dafür, dass diejenigen Seiten in der Rangliste zuerst aufgeführt werden, die alle drei Begriffe enthalten. Im Beispiel ist das die Seite mit der Adresse http://www.planets.org/list.html. Die übrigen Dokumente rutschen in der Rangliste auf die hinteren Ränge ab.

Wie können Benutzer die Index-Eigenschaften ausnützen?

Die folgende Grafik zeigt, wie ein konkreter Index aussehen könnte. Jedes kleine Quadrat stellt einen Eintrag dar, das heisst ein Dokument, in dem der entsprechende Begriff mindestens einmal auftaucht.



In einem typischen Index gibt es einige wenige Begriffe, die über eine immense Anzahl an Einträgen verfügen. Diese Begriffe kommen folglich in einem Grossteil aller Dokumente vor. Im Beispiel: sport, musik und buch. Daneben existieren für die weitaus grösste Anzahl der Begriffe nur ganz wenige Einträge. Diese Begriffe treten demnach nur in den wenigsten Dokumenten auf. Im Beispiel: verdi, momo oder triathlon. Diese in der Praxis beobachteten Index-Eigenschaften haben zwei wichtige Konsequenzen:

  • Sucheffizienz beschreibt, wie schnell (effizient) das Suchsystem die Rangliste ermittelt. Für jeden Suchbegriff in der Anfrage muss ein Suchsystem die entsprechende Liste im Index untersuchen. Natürlich braucht das Verarbeiten mehr Zeit für eine lange Liste als für eine kurze. Also: Eine Suchanfrage kann umso schneller beantwortet werden, je spezieller die Suchbegriffe ausfallen.

  • Sucheffektivität charakterisiert, wie gut (effektiv) das Suchsystem relevante Dokumente findet. Ein Benutzer kann die Sucheffektivität beeinflussen, indem er seltene Suchbegriffe wählt und auf diese Weise eher auf relevante Dokumente stossen sollte. Auch Rangierungsprinzip 3 besagt: Das Auftreten eines seltenen Suchbegriffs führt zu einer höheren Relevanz eines Dokuments.

Zusammenfassend folgt, dass eine ideale Anfrage aus vielen seltenen Suchbegriffen besteht. Damit wird sowohl eine gute Effizienz als auch eine gute Effektivität erzielt.