Suchmaschinen beschäftigen sich, kurz gesagt, mit der Beschaffung (Wiederbeschaffung) verlorener Daten.
Suchmaschinen sind indexbasierte Softwareprogramme, die das World Wide Web vollautomatisch durchsuchen. Vor allem aber sind Suchmaschinen das zentrale Element bei der Suche im Netz. Suchmaschinen bringen also Ordnung ins Internet.
Betrachtet man die Datenflut, die Suchmaschinen zu bewältigen haben, wird auch schnell klar, dass diese Arbeit sehr intensiv ist.
Allein Google listet derzeit rund 8 Milliarden Webseiten mit Inhalten aller Art.
Von Menschenhand ist das längst nicht mehr zu bewältigen.
Also bedienen sich Google und Co. der Hilfe von Software, die diese Aufgabe übernimmt. Dabei kommen im Prinzip 3 Schritte bei dieser doch recht schwierigen Aufgabe zum Einsatz.
1.Der Suchroboter (Webcrawler, Searchbot, Agentsoftware, Spider etc.). Er kümmert sich um das Auffinden von Daten im weltweiten Netz. Diese Software folgt den Hyperlinks und indiziert neu gefundene Daten und Dokumente. Die Art und Weise, wie diese Programme ihre Arbeit verrichten, ist oft unterschiedlich. Manche Crawler indizieren den Titel, andere die ersten Absätze des Textes oder sogar jedes Wort des Dokuments.
2. Die zweite Instanz ist die Indexierungssoftware. Sie nimmt die Suchergebnisse der Crawler entgegen und schreibt sie in eine Indextabelle. In dieser Tabelle werden die Wörter der indizierten Seite in einer Ja-Nein-Struktur aufgelistet. Das spart natürlich Platz. Außerdem werden die Datenbestände auf diese Weise sehr schnell und effizient durchsuchbar.
3. Nun zur dritten Komponente, der Suchsoftware. Diese wiederum nimmt die Suchanfragen vom Server entgegen und leitet sie an den Datenserver weiter. Von diesen Servern besitzt Google übrigens über 1000.000. Das ist eine enorme Menge. Grundlage dafür ist eine CGI-Schnittstelle. Das Ergebnis wird dann als HTML-Dokument an den Webserver geschickt, der schließlich die Ergebnisliste präsentiert.
Da eine Suchmaschine mit einer Datenbank arbeitet, ist zu beachten, dass in der Regel nach exakten Zeichenketten gesucht wird.
Wir haben eingangs von 8 Milliarden Seiten gesprochen, die derzeit bei Google indiziert sind. Als Fazit lässt sich folgendes festhalten.
Auch wenn Suchmaschinen heutzutage unglaublich leistungsfähig sind, so ist doch klar, dass selbst die beste Suchmaschine nur einen kleinen Teil der tatsächlich existierenden Websites erfassen kann.
Wenn Sie also eine Suchanfrage starten, durchsuchen die Suchmaschinen nicht wirklich das gesamte Netz, sondern nur die Seiten, die diese Suchmaschinen bereits indiziert haben.