Cómo funciona el rastreo
El rastreo de URLs es una tarea que realiza un programa informático, llamado rastreador o araña web. Su trabajo consiste en visitar páginas web y extraer el contenido HTML que encuentre. Los enlaces son unos de los principales elementos que busca un rastreador.
Cada página web tiene un identificador único: su URL. Introduce la URL en la barra de direcciones de tu navegador para acceder a la página web correspondiente. Las páginas web están formadas por contenido con marcado HTML.
Este en un lenguaje legible por computadora, por lo que un programa externo (como un rastreador) puede visitar una URL, extraer el HTML y acceder al contenido de manera estructurada. Cabe destacar que distingue entre texto e hipervínculos.
Cuando los rastreadores examinan el código HTML de una página como esta, que contiene el artículo que estás leyendo, detectan que cada párrafo está delimitado por un trozo de código llamado elemento de párrafo o p-tag, tanto al principio como al final. Este elemento identifica un bloque de texto, con una etiqueta p-tag que marca su inicio y otra que marca su fin. El código solo es visible si se utiliza la función de inspeccionar elemento en la página, pero el rastreador lo ve y entiende que esta página contiene texto escrito para que los visitantes lo lean.
Los rastreadores también ven e interpretan los enlaces, pues llevan código HTML. Los programadores codifican los enlaces con un elemento ancla al principio y al final. Además, los enlaces incluyen un atributo que proporciona el destino del hiperenlace y un texto ancla. El texto ancla es lo que ven los lectores, y suele mostrarse subrayado y en azul.
Para un rastreador es muy sencillo procesar este bloque de HTML y separar el texto del enlace. Sin embargo, en una sola página web, hay mucho más que un párrafo y un enlace. Si quieres ver este tipo de datos, visita una página web en tu navegador, haz clic con el botón derecho en cualquier punto de la pantalla y, después, haz clic en "Ver código fuente" o "Ver código fuente de la página". En la mayoría de las páginas, verás que hay cientos de líneas de código.
El rastreador, cada vez que encuentra una página web, analiza su código HTML, es decir, lo divide en componentes para seguir procesándolo. Después, extrae todos los enlaces que identifica en una página y programa su rastreo. De hecho, crea su propio bucle de retroalimentación:
Rastrear URL → Buscar enlaces a URLs → Programar rastreo de URLs → Rastrear URL
Así, puedes proporcionar a un rastreador una sola URL como fuente para iniciar el rastreo y este seguirá analizando hasta que no encuentre ninguna URL nueva que rastrear, lo cual podría pasar al cabo de miles o incluso millones de URLs.
En resumen, el rastreado es un método de detección. Los motores de búsqueda determinan qué hay en la web enviando rastreadores web para que encuentren páginas web usando los enlaces como indicadores del próximo sitio que deben analizar.
Por eso, los enlaces internos de tu sitio web son importantes: permiten que los rastreadores del motor de búsqueda descubran todas las páginas de tu sitio. Por su parte, los enlaces externos permiten que descubran otros sitios web mientras exploran la red de páginas interconectadas que conforman Internet.