Passer au contenu principal

Moteurs de recherche : Fonctionnement

En apprenant le fonctionnement des moteurs de recherche, vous pouvez élaborer une meilleure SEO de votre entreprise pour générer du trafic vers votre site Web.

How Search Engines Work Hero Illustration

Pour comprendre l’optimisation pour les moteurs de recherche (SEO), il est utile d’apprendre comment fonctionnent les moteurs de recherche. Les moteurs de recherche existent pour vous aider à trouver ce que vous cherchez en ligne. Pour ce faire, ils évaluent le contenu des innombrables sites et éléments Web qui composent le World Wide Web et déterminent quels sites correspondent le mieux à n’importe quelle requête.

Le Web lui-même est un ensemble de pages et de ressources interconnectées auxquelles des millions d’utilisateurs accèdent sur un réseau mondial, Internet. Bien entendu, vous pouvez accéder directement à ces documents en consultant l’URL d’une page Web (son adresse Web) à l’aide d’un navigateur Web. Mais le plus souvent, les internautes accèdent aux sites Web par le biais d’un moteur de recherche. Pour les dirigeants d’entreprise, cela offre une opportunité inestimable.

Qu’est-ce qui fait fonctionner le Web ?

Les pages Web sont des documents formatés à l’aide de HTML, un langage de programmation Web qui permet d’intégrer des hyperliens reliant une page à une autre. C’est le concept le plus important pour comprendre le fonctionnement du Web.

Les pages Web incluent du contenu comme du texte, des images, des formulaires, des vidéos, des hyperliens, etc. Ce contenu, c’est ce que les utilisateurs recherchent. Vous accédez à une page Web pour lire, regarder, écouter ou effectuer des tâches telles que l’achat d’un produit ou l’inscription à une lettre d’information. Vous naviguez en utilisant des liens entre les pages.

Ces actions sont possibles en raison du contenu programmé dans une page Web. La nature du Web permet une expérience de navigation facile entre les pages, en fonction de ce que vous avez l’intention de faire.

Qu’est-ce qu’un site Web ?

Un site Web est un ensemble de pages Web qui résident toutes sur le même domaine et sont généralement détenues et gérées par la même organisation. La page d’accueil de Mailchimp, par exemple, est accessible via l’URL https://mailchimp.com/.

De cette URL, « mailchimp.com » est le domaine. Lorsque vous regardez d’autres URL sur ce site Web, vous remarquerez qu’elles partagent le même domaine, même si l’URL complète est différente. Par exemple :

  • https://mailchimp.com/resources/
  • https://mailchimp.com/why-mailchimp/

Mailchimp utilise également des liens pour rediriger les visiteurs vers d’autres zones du site Web. Par exemple, à partir de la zone de navigation en haut de chaque page, vous pouvez facilement cliquer sur une autre page du site. C’est possible grâce aux liens internes, qui sont des liens entre des pages d’un même domaine.

La différence entre les liens internes et externes

Les liens vers un domaine différent sont des liens externes. (Vous remarquerez un lien externe dans la signature de l’auteur au bas de cet article.)

Au bas de chaque page, Mailchimp inclut une section de bas de page. Cela aide les visiteurs à naviguer vers des pages particulières en utilisant à la fois des liens internes et externes. Dans ce cas, les liens externes vous dirigent vers des pages de profil de réseaux sociaux.

La plupart des sites Web utilisent davantage de liens internes que de liens externes. Habituellement, toutes les pages d’un site Web sont liées à d’autres pages du même site Web, générant ainsi son propre réseau miniature de documents interconnectés.

Les liens internes connectent des pages qui se rapportent les unes aux autres et existent sur le même domaine, mais la puissance du Web est davantage liée aux liens externes. Les liens externes établissent des liens vers des pages Web qui existent et fonctionnent en dehors des limites d’une seule organisation. Ils contribuent à faire partie du réseau de milliards de pages qui existent sur le Web.

Les raisons d’utiliser un lien externe varient. Il se peut que vous incluiez une statistique dans un article et que vous souhaitiez établir un lien vers la source des données sur un autre site Web. Cela ajoute non seulement de la crédibilité à ce que vous publiez, mais cela contribue également au vaste réseau du Web.

Que fait un moteur de recherche

Les moteurs de recherche effectuent 3 tâches principales :

  1. Exploration de données
  2. Indexation
  3. Fournir des résultats de recherche

Pour simplifier, l’exploration est l’acte d’accéder à des pages Web sur Internet. L’indexation consiste à tirer un sens du contenu des fichiers des pages Web et à créer une base de données relationnelles entre elles. Fournir des résultats de recherche signifie interpréter les recherches d’un utilisateur, puis fournir les résultats de l’index qui répondent le mieux à cette requête.

Fonctionnement de l’exploration

Explorer les URL est une tâche effectuée par un programme informatique appelé crawler ou spider. Le travail du crawler consiste à consulter des pages Web et à extraire le contenu HTML qu’il trouve. L’une des principales choses qu’un crawler recherche, ce sont les liens.

Chaque page Web a un identifiant unique, son URL. Saisissez l’URL dans la barre d’adresse de votre navigateur et vous accéderez à la page Web. Les pages Web elles-mêmes consistent en un contenu balisé en HTML.

HTML est un langage lisible par machine, donc un programme externe comme un crawler peut consulter une URL, extraire le HTML et accéder au contenu numérique de manière structurée. Surtout, il peut différencier le texte des hyperliens.

Lorsque les robots d’exploration examinent le code HTML d’une page comme celle-ci, qui contient l’article que vous lisez, ils trouveront que chaque paragraphe est décalé par un morceau de code appelé élément de paragraphe ou balise p au début et à la fin. Ceci identifie un bloc de texte de paragraphe — la balise p au début ouvre l’élément paragraphe, et la balise p à la fin le ferme. Bien que vous ne voyiez pas ce code à moins d’inspecter la page, le robot d’exploration le voit et comprend que cette page contient du texte conçu pour être lu par les visiteurs.

Les liens sont également visibles et interprétés par les robots grâce à leur code HTML. Les programmeurs codent des liens avec un élément d’ancrage au début et à la fin. Les liens incluent également un « attribut » qui fournit la destination du lien hypertexte et un « texte d’ancrage ». Le texte d’ancrage est le texte lié vu par les lecteurs, souvent affiché dans les navigateurs en bleu avec un soulignement.

C’est une tâche simple pour un crawler de traiter ce bloc de HTML et de séparer le texte du lien. Cependant, sur une seule page Web, il y a bien plus qu’un paragraphe et un lien. Pour voir ce type de données vous-même, consultez n’importe quelle page Web dans votre navigateur, faites un clic droit n’importe où sur l’écran, puis cliquez sur « Afficher la source »ou « Afficher la source de la page ». Sur la plupart des pages, vous trouverez des centaines de lignes de code.

Pour chaque page Web rencontrée par un crawler, il analyse le code HTML, ce qui signifie qu’il divise le code HTML en ses composants pour un traitement ultérieur. Le crawler extrait tous les liens qu’il trouve sur une page donnée, puis les programme pour de l’exploration. En effet, il se construit une petite boucle de rétroaction :

Crawl URL → Trouver des liens vers des URL → Programmer des URL pour le l’exploration → Crawl URL

Ainsi, vous pouvez donner à un crawler une seule source URL pour commencer à explorer, et il continuera jusqu’à ce qu’il arrête de trouver de nouvelles URL - cela pourrait être des milliers ou même des millions d’URL plus tard.

En bref, l’exploration est une méthode de découverte. Les moteurs de recherche déterminent ce qui existe en envoyant des robots d’indexation pour trouver des pages Web en utilisant des liens comme panneaux indiquant le prochain endroit où chercher.

C’est pourquoi les liens internes sur votre site Web sont importants, car ils permettent aux robots des moteurs de recherche de découvrir toutes les pages de votre site. Grâce à des liens externes, ils découvriront d’autres sites Web en explorant le réseau de pages interconnectées qui composent Internet.

Fonctionnement de l’indexation

Lorsque les moteurs de recherche explorent le Web, ils créent un référentiel des pages Web qu’ils trouvent, qu’ils utilisent ensuite pour générer leur index.

Pensez à l’index que vous trouviez au dos des manuels lorsque vous étiez à l’école. Si vous aviez des questions sur la structure cellulaire, vous regardiez dans l’index d’un livre de biologie et trouviez les pages sur ce sujet. L’indexation des pages Web fonctionne de la même manière.

Un index est utile car il permet une recherche rapide. Les moteurs de recherche comme Google ont également besoin d’un moyen rapide pour récupérer des informations et fournir des résultats de recherche. L’indexation est donc cruciale.

Les moteurs de recherche prennent chaque page Web qu’ils explorent et analysent le document HTML pour séparer tous les liens. Ils font cela pour pouvoir stocker l’URL de destination vers laquelle pointe chaque lien, ainsi que le texte d’ancrage utilisé. De même, ils prennent tout le contenu textuel trouvé et le divisent en un ensemble d’occurrences de mots.

À l’aide de cette analyse de données, ils génèrent un index inversé en attribuant l’URL de la page Web à chacun des mots de la page. Une fois qu’ils stockent une URL de cette façon, elle est indexée. Cela signifie qu’elle a le potentiel d’être dans un ensemble de résultats de recherche.

Pour chaque URL indexée, les moteurs de recherche stockent autant de ces relations mot-URL qu’ils jugent pertinentes, ainsi que les autres métadonnées associées qu’ils ont collectées à propos de la page. Ce sont les données qu’ils utilisent pour déterminer le choix des URL qui apparaissent dans leurs résultats de recherche.

Comment les résultats de recherche sont-ils livrés

L’exploration et l’indexation se font automatiquement et en permanence. L’index est mis à jour en temps réel. Cette collecte et ce stockage de données s’exécutent seuls, en arrière-plan, sans être influencés par les utilisateurs qui saisissent des requêtes.

Cependant, la livraison de résultats de recherche est entièrement pilotée par les entrées des utilisateurs via leurs requêtes de recherche. Si quelqu’un recherche « meilleur service de streaming télévisé », le moteur de recherche associe chaque mot aux documents de son index.

Mais le simple fait de faire correspondre des mots avec des pages indexées génère des milliards de documents, ils doivent donc déterminer comment vous montrer les meilleures correspondances en premier. C’est là que cela devient délicat et pourquoi le référencement est important. Comment les meilleurs moteurs de recherche décident-ils, parmi des milliards de résultats potentiels, lesquels afficher ? Ils utilisent un algorithme de classement.

Les algorithmes sont un ensemble de règles que les programmes informatiques suivent pour exécuter un processus spécifique. Un algorithme de classement est un grand nombre d’algorithmes et de processus, tous fonctionnant à l’unisson.

L’algorithme de classement recherche des facteurs comme ceux-ci :

  • Tous les mots de la requête de recherche apparaissent-ils sur la page ?
  • Certaines combinaisons de mots apparaissent-elles sur la page (par exemple, « meilleur » et « diffusion ») ?
  • Les mots apparaissent-ils dans le titre de la page ?
  • Les mots sont-ils présents dans l’URL de la page ?

Ce sont des exemples de base, et il existe des centaines d’autres facteurs que l’algorithme de classement prend en compte pour déterminer les résultats à afficher. Ce sont des facteurs de classement.

La raison pour laquelle Google domine le marché mondial des moteurs de recherche est simple : son algorithme de classement est meilleur que les algorithmes de classement de ses rivaux.

Donner du sens à la complexité

Les moteurs de recherche sont des structures extrêmement complexes qui traitent chaque jour des quantités inconcevables de données personnelles. Ils appliquent des algorithmes complexes pour donner un sens à ces données et satisfaire les personnes effectuant des recherches.

Des milliers d’ingénieurs logiciels parmi les meilleurs au monde travaillent sur des raffinements et des améliorations de plus en plus granulaires, ce qui rend des entreprises comme Google responsables de l’avancement de certaines des technologies les plus sophistiquées de la planète.

Les technologies telles que l’apprentissage automatique, l’intelligence artificielle et le traitement du langage naturel continueront d’avoir un impact plus important sur la livraison des résultats de recherche. Vous n’avez pas besoin de comprendre toute la complexité, mais en appliquant une série de bonnes pratiques de base, il est possible de rendre votre site Web visible pour les mots et expressions recherchés par vos clients.

Écrit par Patrick Hathaway pour Mailchimp. Patrick est le cofondateur de Sitebulb, un outil d’audit SEO technique.

Partagez cet article