Passa al contenuto principale

Come funzionano i motori di ricerca

Imparare come funzionano i motori di ricerca ti servirà a creare una migliore strategia SEO per la tua attività e attrarre traffico verso il tuo sito web.

How Search Engines Work Hero Illustration

Per comprendere gli strumenti di SEO (Ottimizzazione per i motori di ricerca), è utile capire come funzionano i motori di ricerca. I motori di ricerca esistono per aiutarti a trovare ciò che stai cercando online. Per fare ciò, valutano gli innumerevoli siti ed elementi web che compongono il World Wide Web e stabiliscono quali siti corrispondano meglio a una qualsiasi richiesta.

Il web stesso è una raccolta di pagine e risorse interconnesse a cui l’utente accede su una rete globale, che è internet. Naturalmente, puoi accedere a questi documenti direttamente visitando l'URL di una pagina (il suo indirizzo) utilizzando un browser. Ma più sovente le persone raggiungono i siti web tramite un motore di ricerca. Per gli imprenditori, questa è un'opportunità inestimabile.

Cosa fa funzionare il web?

Le pagine web sono documenti formattati utilizzando HTML, un linguaggio di programmazione che consente collegamenti ipertestuali incorporati che connettono una pagina a un'altra. Questo è il concetto principe per capire come funziona il web.

Le pagine web includono contenuti come testo, immagini, moduli, video, collegamenti ipertestuali e altro ancora. Questi contenuti sono ciò che l’utente cerca. Si va su una pagina web per leggere, guardare, ascoltare o svolgere attività come acquistare un prodotto o iscriversi a una newsletter. Si naviga utilizzando i collegamenti (link) tra le pagine.

Queste azioni sono possibili grazie al contenuto programmato in una pagina web. La natura del web rende facile spostarsi tra le pagine, da una all'altra, in base a ciò che si intende fare.

Che cos'è un sito web?

Un sito web è una raccolta di pagine che risiedono nello stesso dominio e sono in genere possedute e gestite dalla stessa organizzazione. La home page di Mailchimp, ad esempio, è accessibile tramite l’URL https://mailchimp.com/.

Di questo URL, "mailchimp.com" è il dominio. Osservando gli altri URL su questo sito web, si può notare come condividano lo stesso dominio, anche se l'URL completo è diverso. Per esempio:

  • https://mailchimp.com/resources/
  • https://mailchimp.com/why-mailchimp/

Mailchimp utilizza anche link per indirizzare i visitatori ad altre aree del sito web. Dall'area di navigazione nella parte superiore di ogni pagina, per esempio, puoi facilmente fare clic su un'altra pagina del sito. Ciò è possibile tramite link interni, che sono collegamenti tra pagine dello stesso dominio.

Differenza tra link interni ed esterni

I collegamenti a un dominio diverso sono link esterni. (Noterai un link esterno nel sottotitolo dell'autore in fondo a questo articolo.)

In fondo a ogni pagina, Mailchimp include una sezione piè di pagina. Questo aiuta i visitatori a navigare verso pagine particolari utilizzando link interni ed esterni. In questo caso, i link esterni puntano alle pagine profilo dei social media.

La maggior parte dei siti web utilizza più collegamenti interni che esterni. Di solito, tutte le pagine di un sito web si collegano ad altre pagine dello stesso sito, generando la propria rete in miniatura di documenti interconnessi.

I link interni collegano pagine che si relazionano tra loro ed esistono sullo stesso dominio, ma la potenza del web ha più a che fare con i link esterni. I link esterni creano connessioni a pagine web che esistono e operano al di fuori dei confini di una singola organizzazione. Queste connessioni sono parte della rete di miliardi di pagine che esistono sul web.

Vi sono vari motivi per utilizzare un link esterno. Se hai incluso una statistica in un articolo, potresti desiderare collegarti alla fonte dei dati su un altro sito web. Questo non solo aggiunge credibilità a ciò che pubblichi, ma contribuisce anche a espandere la rete stessa.

Cosa fa un motore di ricerca

I motori di ricerca svolgono tre compiti principali:

  1. Fare la scansione (crawling, letteralmente: strisciare, avanzare lentamente)
  2. Indicizzare
  3. Fornire risultati di ricerca

In parole povere, la scansione è l'atto di accedere a pagine web su internet. L'indicizzazione è ricavare significato dal contenuto delle pagine web e costruire un database relazionale tra di loro. Fornire risultati di ricerca significa interpretare la richiesta (query) di un utente, quindi ricavare dall'indice i risultati che meglio rispondono alla ricerca.

Come funziona la scansione

La scansione (o crawling) degli URL è un'attività svolta da un programma per computer noto come crawler o spider. Il compito del crawler è visitare le pagine web ed estrarre il contenuto HTML che trova. Una delle cose principali che un crawler cerca sono i link.

Ogni pagina web ha un singolo identificatore univoco, il suo URL. Inserisci l'URL nella barra degli indirizzi del browser e andrai alla pagina web. Le pagine web stesse sono costituite da contenuti contrassegnati in HTML.

L'HTML è un linguaggio leggibile da una macchina, quindi un programma esterno come un crawler può visitare un URL, estrarre l'HTML e accedere al contenuto in modo strutturato. È importante sottolineare che il crawler può distinguere tra testo e collegamenti ipertestuali.

Quando i crawler esaminano il codice HTML di una pagina come questa, che contiene l'articolo che stai leggendo, scoprono che ogni paragrafo è racchiuso, all'inizio e alla fine, da un pezzo di codice chiamato elemento paragrafo o tag p. Questo identifica il blocco di testo del paragrafo: il tag p iniziale apre l'elemento paragrafo e il tag p finale lo chiude. Sebbene tu non veda questo codice a meno che non ispezioni la pagina, il crawler lo vede e comprende che questa pagina contiene porzioni di testo formattato per essere letto dai visitatori.

I collegamenti sono anche visibili e interpretati dai crawler a causa del loro codice HTML. I programmatori codificano il link mediante un elemento àncora all'inizio e alla fine. I collegamenti includono anche un "attributo" che fornisce la destinazione del collegamento ipertestuale e il "testo di ancoraggio". Il testo di ancoraggio è il testo collegato visto dai lettori, spesso visualizzato nei browser in blu con una sottolineatura.

È un compito semplice per un crawler elaborare questo blocco di HTML e separare il testo dal collegamento. Tuttavia, in una singola pagina web, c'è molto più di un paragrafo e un collegamento. Per visualizzare personalmente questo tipo di dati, visitando qualsiasi pagina web nel browser, puoi cliccare il pulsante destro del mouse in un punto qualsiasi dello schermo, quindi fare clic su "Visualizza sorgente" o "Visualizza sorgente pagina". Nella maggior parte delle pagine troverai centinaia di righe di codice.

Per ogni pagina, il crawler analizzerà l'HTML, ovvero suddividerà l'HTML nelle sue componenti per elaborarlo ulteriormente. Il crawler estrae tutti i link che trova in una determinata pagina, quindi li pianifica per la scansione. In effetti, il crawler si costruisce un piccolo ciclo di feedback:

Scansiona URL → Trova collegamenti a URL → Pianifica questi URL per una scansione successiva → Scansiona URL

Quindi puoi fornire a un crawler un singolo URL come origine da cui iniziare la scansione. Il crawler continuerà fino a quando non smetterà di trovare nuovi URL da scansionare: potrebbero infine essere migliaia o addirittura milioni di URL.

In breve, la scansione è un metodo di scoperta. I motori di ricerca esplorano inviando web crawler per trovare pagine web utilizzando i link come indicazioni per il prossimo posto dove cercare.

Questo è il motivo per cui i link interni al tuo sito web sono importanti: consentono ai crawler dei motori di ricerca di scoprire tutte le pagine che contiene. Attraverso i link esterni, scopriranno altri siti web mentre esplorano la rete di pagine interconnesse che compongono internet.

Come funziona l'indicizzazione

Quando i motori di ricerca eseguono la scansione della rete, creano un deposito (repository) delle pagine web che trovano, utilizzandolo poi per generare il loro indice.

Pensa all'indice finale di un libro di testo di quando eri a scuola. Se avessi dovuto imparare la struttura cellulare, avresti consultato l'indice di un libro di biologia per trovare le pagine sull’argomento. L'indicizzazione delle pagine web funziona in modo simile.

Un indice è utile perché consente una ricerca rapida. Anche i motori di ricerca come Google necessitano di un modo rapido per recuperare informazioni e fornire risultati di ricerca, quindi l'indicizzazione è fondamentale.

I motori di ricerca, in ogni pagina web che scansionano, analizzano il documento HTML per separare tutti i link. Lo fanno in modo da poter memorizzare l'URL di destinazione a cui rimanda ogni link, insieme al testo di ancoraggio utilizzato. Allo stesso modo, prendono tutto il contenuto di testo trovato e lo suddividono in un insieme di occorrenze di parole.

Utilizzando questi dati analizzati, generano un indice invertito assegnando l'URL della pagina web a ciascuna delle parole della pagina. Una volta memorizzato in questo modo, un URL viene indicizzato. Ciò significa che ha il potenziale per essere in una serie di risultati di ricerca.

Per ogni URL indicizzato, i motori di ricerca memorizzano tutte le relazioni parola-URL che ritengono rilevanti, insieme agli altri metadati associati che hanno raccolto sulla pagina. Questi sono i dati che utilizzano per determinare quali URL andranno visualizzati nei risultati di ricerca.

Come vengono consegnati i risultati di ricerca

Scansione e indicizzazione avvengono automaticamente e costantemente. L'indice viene aggiornato in tempo reale. Questa raccolta e archiviazione di dati viene eseguita da sola, in background, non influenzata da chiunque digiti nel mentre le richieste (query).

Tuttavia, la consegna dei risultati di ricerca è interamente guidata dall'input dell'utente tramite le query di ricerca. Se qualcuno cerca "il miglior servizio di streaming televisivo", il motore di ricerca abbina ogni parola con i documenti nel suo indice.

Ma la semplice corrispondenza delle parole con le pagine indicizzate produce miliardi di documenti, quindi il sistema deve prima determinare come mostrarti le corrispondenze migliori. È qui che la faccenda si complica e la SEO, ovvero l’ottimizzazione per i motori di ricerca, diventa importante. In che modo i motori di ricerca decidono, su miliardi di potenziali risultati, quali mostrare? Usano un algoritmo di classificazione.

Gli algoritmi sono un insieme di regole che i programmi per computer seguono per compiere un processo specifico. Un algoritmo di classificazione è in realtà l’insieme di un gran numero di algoritmi e processi che funzionano tutti all'unisono.

L'algoritmo di classificazione cerca fattori come questi:

  • Tutte le parole nella query di ricerca si trovano nella pagina?
  • Nella pagina esistono determinate combinazioni di parole (per esempio "migliore" e "streaming")?
  • Le parole compaiono nel titolo della pagina?
  • Le parole sono presenti nell'URL della pagina?

Questi sono esempi di base; ci sono centinaia di altri fattori che l'algoritmo di classificazione considera quando determina quali risultati mostrare. Questi sono i fattori che determinano la classifica.

Il motivo per cui Google è diventato il motore di ricerca dominante in tutto il mondo è semplice: il suo algoritmo di classificazione era migliore degli algoritmi di ranking dei suoi rivali.

Dare un senso alla complessità

I motori di ricerca sono strutture estremamente complicate che elaborano quantità inconcepibili di dati ogni singolo giorno. Applicano algoritmi complessi per trovare una logica in quei dati e soddisfare chi fa la ricerca.

Migliaia tra i migliori ingegneri software del mondo lavorano a continui perfezionamenti e miglioramenti sempre più dettagliati, il che rende le aziende come Google responsabili del progresso di alcune tra le tecnologie più sofisticate del pianeta.

Tecnologie come l'apprendimento automatico, l'intelligenza artificiale e l'elaborazione del linguaggio naturale continueranno ad avere un impatto crescente sulla resa dei risultati di ricerca. Non è necessario comprendere tutta la complessità della materia ma, se si applica una serie di buone pratiche di base, è possibile rendere il proprio sito web individuabile per le parole e le frasi che i tuoi clienti cercano.

Scritto da Patrick Hathaway per Mailchimp. Patrick è co-fondatore di Sitebulb, uno strumento di auditing tecnico SEO.

Condividi questo articolo