Ir para conteúdo principal

Como funcionam os mecanismos de busca

Crie a melhor estratégia de SEO conhecendo os mecanismos de busca, sites, rastreamento, indexação e muito mais.

How Search Engines Work Hero Illustration

Para entender a otimização do mecanismo de busca (SEO), ele ajuda a aprender como os mecanismos de busca funcionam. Os mecanismos de busca existem para ajudá-lo a encontrar o que procura online. Para isso, eles avaliam os inúmeros sites e elementos da Web que compõem a rede global e determinam quais sites melhor correspondem a qualquer consulta.

A própria Web é uma coleção de páginas, conteúdos e recursos interligados que os usuários acessam em uma rede global, que é a Internet. Claro, você pode acessar esses documentos diretamente visitando a URL de uma página — seu endereço na Web — usando um navegador. Mas, com mais frequência, as pessoas acessam sites por meio de sites de busca como o Google. Para os empresários, isso oferece uma oportunidade inestimável.

Como a Internet funciona?

Páginas da Web são documentos formatados usando HTML, uma linguagem de programação que permite hiperlinks incorporados conectando uma página a outra. Este é o conceito mais importante para entender como a Web funciona.

As páginas incluem conteúdo como texto, dados, imagens, formulários, vídeos, hiperlinks e muito mais. Este conteúdo é o que os usuários procuram. Você acessa uma página para ler, assistir, ouvir ou realizar tarefas como comprar um produto ou se inscrever em um boletim informativo. Você navega usando os links entre as páginas.

Essas ações são possíveis devido ao conteúdo programado na página. A natureza da Web facilita a movimentação pelas páginas, de uma para outra, com base no que você pretende fazer.

O que é um site?

Um site é uma coleção de páginas que residem no mesmo domínio e normalmente são de propriedade e gerenciadas pela mesma organização. A página inicial da Mailchimp, por exemplo, pode ser acessada pela URL https://mailchimp.com/.

Nesta URL, “mailchimp.com” é o domínio. Ao observar outras URLs neste site, você notará que compartilham o mesmo domínio, mesmo que a URL completa seja diferente. Por exemplo:

  • https://mailchimp.com/resources/
  • https://mailchimp.com/why-mailchimp/

A Mailchimp também usa links para direcionar os visitantes para outras áreas do site. Por exemplo, na área de navegação na parte superior de cada página, você pode clicar facilmente para outra página do site. Isso é possível por meio de links internos, que são links entre páginas do mesmo domínio.

A diferença entre links internos e externos

Links para um domínio diferente são links externos. (Você notará um link externo na assinatura do autor na parte inferior deste artigo.)

Na parte inferior de cada página, a Mailchimp inclui uma seção de rodapé. Isso ajuda os visitantes a navegar para páginas específicas usando links internos e externos. Nesse caso, os links externos apontam para páginas de perfil em redes sociais.

A maioria dos sites usa mais links internos do que externos. Normalmente, todas as páginas de um site são vinculadas a outras páginas do mesmo site, gerando sua própria rede em miniatura de documentos interligados.

Links internos conectam páginas que se relacionam entre si e existem no mesmo domínio, mas o poder da Web tem mais a ver com links externos. Links externos criam conexões com páginas da Web que existem e operam fora dos limites de uma única organização. Eles ajudam a fazer parte da rede de bilhões de páginas que existem na Web.

As razões para usar um link externo variam. Pode ser que você inclua uma estatística em um artigo e queira vincular à fonte dos dados em outro site. Isso não apenas adiciona credibilidade ao que você publica, mas também contribui para a expansão da rede da Web.

O que um mecanismo de busca faz?

Os buscadores executam três tarefas principais:

  1. Rankeamento
  2. Indexação
  3. Entrega do resultado das pesquisas

Em termos simples, o rankeamento é o ato de acessar páginas na Internet. Indexação é derivar significado do conteúdo das páginas da Web e construir um banco de dados relacional entre elas. Entregar resultados de pesquisa significa interpretar a consulta de pesquisa de um usuário e, em seguida, entregar resultados do índice que melhor responde a essa consulta.

Como o rankeamento funciona

O rankeamento de URLs é uma tarefa realizada por um programa de computador conhecido como rastreador ou aranha. O trabalho do rastreador é visitar páginas da Web e extrair o conteúdo HTML que encontra. Uma das principais coisas que um rastreador procura são os links.

Cada página da Web tem um identificador único, seu URL. Digite o URL na barra de endereços do seu navegador e você irá para a página da Web. As próprias páginas consistem em conteúdo marcado em HTML.

HTML é uma linguagem legível por máquina; portanto, um programa externo como um rastreador pode visitar uma URL, extrair o HTML e acessar o conteúdo de maneira estruturada. Importante, ele pode diferenciar entre texto e hiperlinks.

Quando os rastreadores examinam o código HTML de uma página como esta, que contém o artigo que você está lendo, eles descobrem que cada parágrafo é destacado por um pedaço de código chamado elemento de parágrafo ou p-tag no início e no final. Isso identifica um bloco de texto de parágrafo - a tag p no início abre o elemento de parágrafo e a tag p no final o fecha. Embora você não veja esse código a menos que inspecione a página, o rastreador o vê e entende que essa página contém conteúdo de texto projetado para que os visitantes leiam.

Os links também são visíveis e interpretados pelos rastreadores devido ao seu código HTML. Os programadores codificam links com um elemento âncora no início e no final. Os links também incluem um “atributo” que fornece o destino do hiperlink e um “texto âncora”. O texto âncora é o texto vinculado visto pelos leitores, geralmente exibido em navegadores em azul com sublinhado.

É uma tarefa simples para um rastreador processar esse bloco de HTML e separar o texto do link. No entanto, em uma única página da Web, há muito mais do que um parágrafo e um link. Para ver esse tipo de dados, visite qualquer página da Web em seu navegador, clique com o botão direito do mouse em qualquer lugar da tela e clique em “Visualizar fonte” ou “Visualizar fonte da página”. Na maioria das páginas, você encontrará centenas de linhas de código.

Para cada página da Web que um rastreador encontrar, ele analisará o HTML, o que significa que ele divide o HTML em suas partes componentes para processar ainda mais. O rastreador extrai todos os links que encontra em uma determinada página e os agenda para rankeamento. Na verdade, ele constrói um pequeno ciclo de feedback:

URL de rankeamento → Encontrar links para URLs → Agendamento URLs para rankeamento → URL de rankeamento

Assim, você pode fornecer a um rastreador um único URL como fonte para iniciar o rankeamento, e ele continuará até que pare de encontrar novos URLs para rastrear - isso pode ser milhares ou até milhões de URLs mais tarde.

Em suma, o rankeamento é um método de descoberta. Os mecanismos de pesquisa determinam o que há por aí enviando rastreadores da Web para encontrar páginas da Web usando links como indicações para o próximo local a ser procurado.

É por isso que os links internos em seu site são importantes, pois permitem que os rastreadores dos mecanismos de pesquisa descubram todas as páginas do seu site. Por meio de links externos, eles descobrirão outros sites à medida que exploram a rede de páginas interconectadas que compõem a Internet.

Como a indexação funciona

À medida que os mecanismos de pesquisa rastreiam a Web, eles constroem um repositório de páginas da Web que encontram, que eles usam para gerar seu índice.

Pense no índice que você encontraria no verso de um livro didático quando estivesse na escola. Se você quisesse aprender sobre a estrutura celular, você poderia procurar no índice de um livro de biologia e encontrar as páginas sobre este tópico. A indexação de páginas da Web funciona de maneira semelhante.

Um índice é útil porque permite uma pesquisa rápida. Mecanismos de pesquisa como o Google também precisam de uma maneira rápida de recuperar informações e fornecer resultados de pesquisa; portanto, a indexação é crucial.

Os mecanismos de pesquisa pegam todas as páginas da Web que rastreiam e analisam o documento HTML para separar todos os links. Eles fazem isso para que possam armazenar o URL de destino para o qual cada link aponta, juntamente com o texto âncora usado. Da mesma forma, eles pegam todo o conteúdo de texto encontrado e o dividem em um conjunto de ocorrências de palavras.

Usando esses dados analisados, eles geram um índice invertido atribuindo o URL da página da Web a cada uma das palavras na página. Uma vez que eles armazenam um URL dessa maneira, ele é indexado. Isso significa que ele tem potencial para estar em um conjunto de resultados de pesquisa.

Para cada URL indexado, os mecanismos de pesquisa armazenam quantas dessas relações palavra-URL julgarem relevantes, juntamente com os outros metadados associados que coletaram sobre a página. Esses são os dados que eles usam ao determinar quais URLs aparecem em seus resultados de pesquisa.

Como os resultados das buscas aparecem

O rankeamento e a indexação acontecem automaticamente e constantemente. O índice é atualizado em tempo real. Essa coleta e armazenamento de dados é executado por conta própria, em segundo plano, sem a influência de pesquisadores que digitam consultas.

No entanto, a entrega de resultados de pesquisa é totalmente orientada pela entrada do usuário por meio de suas consultas de pesquisa. Se alguém pesquisar “melhor serviço de streaming de televisão”, o mecanismo de pesquisa corresponde a cada palavra com documentos em seu índice.

Mas simplesmente combinar palavras com páginas indexadas resulta em bilhões de documentos, então os motores de busca precisam determinar como mostrar primeiro as melhores correspondências. É aí que fica complicado – e por que o SEO é importante. Como os mecanismos de pesquisa decidem, entre bilhões de resultados potenciais, quais mostrar? Eles usam um algoritmo de classificação.

Os algoritmos são um conjunto de regras que os programas de computador seguem para realizar um processo específico. Um algoritmo de classificação é um grande número de algoritmos e processos, todos trabalhando em uníssono.

O algoritmo de classificação procura fatores como estes:

  • Todas as palavras na consulta de pesquisa aparecem na página?
  • Certas combinações de palavras aparecem na página, por exemplo, “melhor” e “streaming”?
  • As palavras aparecem no título da página?
  • As palavras estão presentes na URL da página?

Esses são exemplos básicos e existem centenas de outros fatores que o algoritmo de classificação considera ao determinar quais resultados mostrar. Esses são fatores de rankeamento.

A razão pela qual o Google se tornou o mecanismo de busca dominante em todo o mundo é simples: seu algoritmo de classificação é melhor do que os algoritmos de classificação de seus rivais.

Entendendo a complexidade

Os mecanismos de pesquisa são estruturas extremamente complicadas que processam quantidades inconcebíveis de dados todos os dias. Eles aplicam algoritmos complexos para dar sentido a esses dados e atender aos pesquisadores.

Milhares dos melhores engenheiros de software do mundo estão trabalhando em refinamentos e melhorias cada vez mais granulares, o que torna empresas como o Google responsáveis pelo avanço de algumas das tecnologias mais sofisticadas do planeta.

Tecnologias como aprendizado de máquina, inteligência artificial e processamento de linguagem natural continuarão a ter mais impacto na entrega de resultados de pesquisa. Você não precisa entender toda a complexidade, mas aplicando uma série de práticas recomendadas básicas, é possível tornar seu site detectável pelas palavras e frases que seus clientes pesquisam.

Escrito por Patrick Hathaway para Mailchimp. Patrick é cofundador da Sitebulb, uma ferramenta técnica de auditoria de SEO.

Compartilhar este artigo