So funktionieren Crawler
Das Crawlen von URLs ist eine Aufgabe, die von einem Computerprogramm ausgeführt wird, das als Crawler oder Spider bezeichnet wird. Die Aufgabe des Crawlers besteht darin, Webseiten zu besuchen und den gefundenen HTML-Inhalt zu extrahieren. Zu den wichtigsten Dingen, nach denen ein Crawler von Suchmaschinen sucht, gehören Links.
Jede Webseite hat eine einzige eindeutige Kennung, nämlich ihre URL. Wenn du die URL in die Adressleiste deines Browsers eingibst, gelangst du automatisch auf die dazugehörige Webseite. Webseiten selbst bestehen aus Inhalten, die in HTML gekennzeichnet sind.
HTML ist eine maschinenlesbare Sprache, sodass ein externes Programm wie ein Crawler eine URL besuchen, den HTML-Code extrahieren und auf strukturierte Weise auf den Inhalt zugreifen kann. Es ist wichtig zu verstehen, dass diese Programmiersprache zwischen Text und Hyperlinks unterscheiden kann.
Wenn Crawler von Suchmaschinen den HTML-Code für eine Seite untersuchen (zum Beispiel die Seite, auf der du gerade diesen Artikel liest), stellen sie fest, dass jeder Absatz am Anfang und am Ende durch ein Stück Code namens Absatzelement oder p-Tag versetzt ist. Dies identifiziert einen Absatztextblock: das p-Tag am Anfang öffnet das Absatzelement und das p-Tag am Ende schließt es. Obwohl du diesen Code nur siehst, wenn du die Seite untersuchst, sieht der Crawler ihn und versteht, dass diese Seite Textinhalte enthält, die für Besucher zum Lesen bestimmt sind.
Links sind aufgrund ihres HTML-Codes auch für Crawler von Suchmaschinen sichtbar und interpretierbar. Programmierer codieren Links mit einem Ankerelement am Anfang und am Ende. Links enthalten auch ein „Attribut“, welches das Ziel des Hyperlinks angibt, und einen „Ankertext“. Ein Ankertext ist der verlinkte Text, der von Lesern gesehen wird und in Browsern oft in Blau mit Unterstreichung angezeigt wird.
Für einen Crawler ist es eine einfache Aufgabe, diesen HTML-Block zu verarbeiten und den Text vom Link zu trennen. Auf einer einzelnen Webseite gibt es jedoch viel mehr als einen Absatz und einen Link. Um dir diese Art von Daten selbst anzeigen zu lassen, besuche einfach eine beliebige Webseite in deinem Browser, klicke mit der rechten Maustaste auf eine beliebige Stelle auf dem Bildschirm und klicke dann auf „Quelle anzeigen“ oder „Seitenquelle anzeigen“. Auf den meisten Seiten findest du Hunderte von Codezeilen.
Für jede Webseite, auf die ein Crawler trifft, analysiert er den HTML-Code, d. h. er zerlegt den HTML-Code in seine Bestandteile, um ihn weiter zu verarbeiten. Der Crawler extrahiert alle Links, die er auf einer bestimmten Seite findet, und plant sie dann zum Crawlen ein. Tatsächlich baut sich der Crawler selbst eine kleine Rückkopplungsschleife auf:
URL crawlen → Links zu URLs finden → URLs zum Crawlen planen → URL crawlen
So kannst du einem Crawler eine einzelne URL als Quelle geben, von der aus er mit dem Crawlen beginnen kann, und er wird weitermachen, bis er aufhört, neue URLs zum Crawlen zu finden – dies können später Tausende oder sogar Millionen von URLs sein.
Kurz gesagt: Crawling ist eine Methode, um Dinge zu entdecken. Suchmaschinen bestimmen, was den Nutzern bei Suchanfragen angezeigt wird, indem sie Web-Crawler aussenden, um Webseiten zu finden, die dann wiederum zu den nächsten Webseiten verlinken.
Aus diesem Grund sind interne Links auf deiner Website wichtig, da sie es Suchmaschinen-Crawlern ermöglichen, alle Seiten deiner Website zu entdecken. Durch externe Links entdecken sie andere Websites, während sie das Netzwerk miteinander verbundener Seiten erkunden, aus denen das Internet besteht.