Fonctionnement de l’exploration
Explorer les URL est une tâche effectuée par un programme informatique appelé crawler ou spider. Le travail du crawler consiste à consulter des pages Web et à extraire le contenu HTML qu’il trouve. L’une des principales choses qu’un crawler recherche, ce sont les liens.
Chaque page Web a un identifiant unique, son URL. Saisissez l’URL dans la barre d’adresse de votre navigateur et vous accéderez à la page Web. Les pages Web elles-mêmes consistent en un contenu balisé en HTML.
HTML est un langage lisible par machine, donc un programme externe comme un crawler peut consulter une URL, extraire le HTML et accéder au contenu numérique de manière structurée. Surtout, il peut différencier le texte des hyperliens.
Lorsque les robots d’exploration examinent le code HTML d’une page comme celle-ci, qui contient l’article que vous lisez, ils trouveront que chaque paragraphe est décalé par un morceau de code appelé élément de paragraphe ou balise p au début et à la fin. Ceci identifie un bloc de texte de paragraphe — la balise p au début ouvre l’élément paragraphe, et la balise p à la fin le ferme. Bien que vous ne voyiez pas ce code à moins d’inspecter la page, le robot d’exploration le voit et comprend que cette page contient du texte conçu pour être lu par les visiteurs.
Les liens sont également visibles et interprétés par les robots grâce à leur code HTML. Les programmeurs codent des liens avec un élément d’ancrage au début et à la fin. Les liens incluent également un « attribut » qui fournit la destination du lien hypertexte et un « texte d’ancrage ». Le texte d’ancrage est le texte lié vu par les lecteurs, souvent affiché dans les navigateurs en bleu avec un soulignement.
C’est une tâche simple pour un crawler de traiter ce bloc de HTML et de séparer le texte du lien. Cependant, sur une seule page Web, il y a bien plus qu’un paragraphe et un lien. Pour voir ce type de données vous-même, consultez n’importe quelle page Web dans votre navigateur, faites un clic droit n’importe où sur l’écran, puis cliquez sur « Afficher la source »ou « Afficher la source de la page ». Sur la plupart des pages, vous trouverez des centaines de lignes de code.
Pour chaque page Web rencontrée par un crawler, il analyse le code HTML, ce qui signifie qu’il divise le code HTML en ses composants pour un traitement ultérieur. Le crawler extrait tous les liens qu’il trouve sur une page donnée, puis les programme pour de l’exploration. En effet, il se construit une petite boucle de rétroaction :
Crawl URL → Trouver des liens vers des URL → Programmer des URL pour le l’exploration → Crawl URL
Ainsi, vous pouvez donner à un crawler une seule source URL pour commencer à explorer, et il continuera jusqu’à ce qu’il arrête de trouver de nouvelles URL - cela pourrait être des milliers ou même des millions d’URL plus tard.
En bref, l’exploration est une méthode de découverte. Les moteurs de recherche déterminent ce qui existe en envoyant des robots d’indexation pour trouver des pages Web en utilisant des liens comme panneaux indiquant le prochain endroit où chercher.
C’est pourquoi les liens internes sur votre site Web sont importants, car ils permettent aux robots des moteurs de recherche de découvrir toutes les pages de votre site. Grâce à des liens externes, ils découvriront d’autres sites Web en explorant le réseau de pages interconnectées qui composent Internet.