Come funziona la scansione
La scansione (o crawling) degli URL è un'attività svolta da un programma per computer noto come crawler o spider. Il compito del crawler è visitare le pagine web ed estrarre il contenuto HTML che trova. Una delle cose principali che un crawler cerca sono i link.
Ogni pagina web ha un singolo identificatore univoco, il suo URL. Inserisci l'URL nella barra degli indirizzi del browser e andrai alla pagina web. Le pagine web stesse sono costituite da contenuti contrassegnati in HTML.
L'HTML è un linguaggio leggibile da una macchina, quindi un programma esterno come un crawler può visitare un URL, estrarre l'HTML e accedere al contenuto in modo strutturato. È importante sottolineare che il crawler può distinguere tra testo e collegamenti ipertestuali.
Quando i crawler esaminano il codice HTML di una pagina come questa, che contiene l'articolo che stai leggendo, scoprono che ogni paragrafo è racchiuso, all'inizio e alla fine, da un pezzo di codice chiamato elemento paragrafo o tag p. Questo identifica il blocco di testo del paragrafo: il tag p iniziale apre l'elemento paragrafo e il tag p finale lo chiude. Sebbene tu non veda questo codice a meno che non ispezioni la pagina, il crawler lo vede e comprende che questa pagina contiene porzioni di testo formattato per essere letto dai visitatori.
I collegamenti sono anche visibili e interpretati dai crawler a causa del loro codice HTML. I programmatori codificano il link mediante un elemento àncora all'inizio e alla fine. I collegamenti includono anche un "attributo" che fornisce la destinazione del collegamento ipertestuale e il "testo di ancoraggio". Il testo di ancoraggio è il testo collegato visto dai lettori, spesso visualizzato nei browser in blu con una sottolineatura.
È un compito semplice per un crawler elaborare questo blocco di HTML e separare il testo dal collegamento. Tuttavia, in una singola pagina web, c'è molto più di un paragrafo e un collegamento. Per visualizzare personalmente questo tipo di dati, visitando qualsiasi pagina web nel browser, puoi cliccare il pulsante destro del mouse in un punto qualsiasi dello schermo, quindi fare clic su "Visualizza sorgente" o "Visualizza sorgente pagina". Nella maggior parte delle pagine troverai centinaia di righe di codice.
Per ogni pagina, il crawler analizzerà l'HTML, ovvero suddividerà l'HTML nelle sue componenti per elaborarlo ulteriormente. Il crawler estrae tutti i link che trova in una determinata pagina, quindi li pianifica per la scansione. In effetti, il crawler si costruisce un piccolo ciclo di feedback:
Scansiona URL → Trova collegamenti a URL → Pianifica questi URL per una scansione successiva → Scansiona URL
Quindi puoi fornire a un crawler un singolo URL come origine da cui iniziare la scansione. Il crawler continuerà fino a quando non smetterà di trovare nuovi URL da scansionare: potrebbero infine essere migliaia o addirittura milioni di URL.
In breve, la scansione è un metodo di scoperta. I motori di ricerca esplorano inviando web crawler per trovare pagine web utilizzando i link come indicazioni per il prossimo posto dove cercare.
Questo è il motivo per cui i link interni al tuo sito web sono importanti: consentono ai crawler dei motori di ricerca di scoprire tutte le pagine che contiene. Attraverso i link esterni, scopriranno altri siti web mentre esplorano la rete di pagine interconnesse che compongono internet.