Robots.txt – O Guia Indispensável para Sua Estratégia SEO

É incrível como um pequeno arquivo de texto pode fazer ou quebrar seu site. Se você tiver uma linha ou duas erradas em seu arquivo robots.txt, você pode realmente dizer aos robôs do mecanismo de pesquisa que não rastreiem e indexem seu site … o que significa que suas páginas da web não aparecerão nos motores de busca.

Felizmente, é fácil de verificar e fácil de resolver.

Nesta publicação do blog, você aprenderá sobre o que é o robots.txt, como verificar seu próprio robots.txt e como você pode melhorar suas instruções para os robôs do mecanismo de pesquisa.

O que é robots.txt?

É um arquivo na raiz do seu site que pode permitir ou restringir os robôs dos mecanismos de pesquisa das páginas de rastreamento em seu site.

Pense nos motores de busca como uma grande biblioteca de todas as páginas do mundo. Google, Yahoo e outros, enviam suas aranhas (também conhecidas como spiders, rastreadores ou robôs) para encontrar páginas novas ou atualizadas para adicionar ao índice.

A primeira coisa que eles procuram quando eles chegam ao seu site é o seu arquivo robots.txt.

No seu arquivo robots.txt, você mostra os robôs quais das suas páginas você quer (ou não quer) que eles leiam (rastreiem).

Tenha em mente que há uma diferença entre “rastrear” e “indexar”.

O mecanismo de pesquisa pode rastrear (ler) uma página sem indexar (listar nos resultados das pesquisas) e vice-versa.

Tudo depende das instruções que você coloca nas suas Meta Tags Robots e no seu arquivo robots.txt.

Eu preciso mesmo de um arquivo robots.txt?

Se a aranha do motor de busca não encontrar um robots.txt nos arquivos do seu site, ele irá rastrear e indexar todas as suas páginas (a menos que você tenha implementado Meta Tags Robots com outras instruções).

De acordo com o Ajuda do antigo Google Webmaster Tools, se você deseja que os mecanismos de pesquisa indexem tudo em seu site, você não precisa de um arquivo robots.txt (nem mesmo um vazio)”.

No entanto, se você não possui um arquivo robots.txt, os logs do servidor retornarão erros 404 sempre que um robô do Google tentar acessar seu arquivo robots.txt.

Para evitar as mensagens de erro 404 (arquivo não encontrado) no seu log do servidor web, você pode criar um arquivo vazio chamado robots.txt. Fonte: Googlebot

Isso nem sempre é ideal, e depois de ler este artigo, tenho certeza que você entenderá a necessidade e utilidade de ter esse arquivo bem estruturado e também pode encontrar pelo menos uma coisa para melhorar no arquivo robots.txt que já possui em seu site.

Utilidades do robots.txt

Entre outras coisas, seu arquivo robots.txt pode ajudar:

  • Se você tem páginas ou diretórios em seu site que não devem aparecer nas SERPs (Páginas de Resultado do Search Engine);
  • Se quiser que as páginas duplicadas sejam ignoradas, por exemplo, se o seu site CMS gerar mais de um URL para o mesmo conteúdo como páginas de autor em blogs que só possuem um autor ou exageradas paginas de categorias e tags;
  • Se você não quiser que as páginas de resultados da pesquisa interna do seu site sejam indexadas;
  • Para dizer aos motores de busca qual é e onde está seu Sitemap;
  • Para dizer aos motores de busca qual versão indexar se você, por exemplo, tiver um HTML e uma versão em PDF do mesmo conteúdo;
  • E algumas outras…

Algo importante para ter em mente é: Um arquivo robots.txt é algo como colocar uma nota: (Por favor, não entre) – em uma porta destrancada. Você não pode impedir que os mal-intencionados entrem, mas os bem-intencionados não vão abrir a porta e entrar.

Como funciona?

Antes que um robô do mecanismo de busca rastreie seu site, ele procurará primeiro o arquivo robots.txt para descobrir onde deseja que ele vá.

Você sabia que… na sua conta do Google Analytics, uma visita de um robô é adicionada às estatísticas gerais dos visitantes?

Para ver apenas as estatísticas de visitantes reais (humanos), você pode aplicar um filtro para excluir o tráfego de robôs.

Mas esse é um tópico para outra postagem no blog :).

Há 3 coisas que você deve ter em mente:

  1. Os robôs podem ignorar o seu robots.txt. Os robôs de malware que exploram a Web para vulnerabilidades de segurança ou colheitadores de endereços de email usados ​​pelos spammers não se preocuparão com suas instruções.
  2. O arquivo robots.txt é público. Qualquer um pode ver quais áreas do seu site você não deseja que os robôs rastreiem, indexem e outras informações contidas em seu arquivo.
  3. Os mecanismos de pesquisa ainda podem indexar (mas não rastrear) uma página que você não permitiu (Disallow), se estiver vinculada a partir de outro site. Nos resultados de pesquisa, ele só mostrará a url, mas geralmente não tem nenhum título ou trecho de informações. Para evitar isso, faça uso dos comandos “noindex” nas Meta Tags Robots para essas páginas.

Agora, vá para o seu site e verifique se você possui um arquivo robots.txt.

Basta adicionar o /robots.txt após o seu nome de domínio.

Será algo assim: http://www.seusite.com.br/robots.txt

Se o seu arquivo robots.txt diz isso, então você está com problemas:

User-agent: *
Disallow: /

Continue lendo e logo entenderá o porquê.

Como criar um arquivo robots.txt?

Se você não possui um arquivo robots.txt, deve criar rapidamente um antes de continuar lendo.

Faça o seguinte:

  1. Crie um arquivo de texto normal e salve-o com o nome robots.txt. Lembre-se de usar todas as letras minúsculas para o nome do arquivo: robots.txt (não Robots.TXT);
  2. Faça o upload para o diretório raiz do seu site, não para um subdiretório;
  3. Se você fez isso direito, agora você poderá ver seu arquivo robots.txt em http://www.seusite.com.br/robots.txt.

Nota: se você tem subdomínios em uso, você deve criar um arquivo robots.txt separado no diretório raiz de cada subdomínio.

Como fazer a personalização do arquivo robots.txt

Os proprietários de sites discutem muito sobre o que se deve ou não colocar no arquivo robots.txt, cabe a você decidir o que funciona melhor para o seu site de acordo com suas necessidades e objetivos.

As instruções em seu arquivo robots são feitas através de comandos/diretrizes destinadas para diversos fins.

Analise sua estrutura com cuidado para ver o que você não quer que os robôs dos buscadores encontrem em seu site e através desses comandos/diretrizes no seu arquivo diga para eles.

Indique também a localização do seu Sitemap ou Sitemaps caso tenha mais de um.

Recomenda-se que a localização da sua área de administração e outras áreas privadas do seu site não estejam incluídas no arquivo robots.txt.

Em vez disso, você pode, por exemplo, usar a Meta Tag Robots para evitar que os principais mecanismos de pesquisa as rastreiem/indexem.

Aviso: robots.txt não se destina a lidar com a segurança do seu site!

Se você realmente quer bloquear de forma segura os robôs de acessar seu conteúdo privado, você deve observar as medidas de segurança adequadas para isso (comandos no arquivo .htaccess e outras formas).

Use robots.txt como um guia para os robôs, mas saiba que cabe a cada robô honrar as instruções.

Comandos/diretrizes que você pode usar

Primeiro, abra alguns arquivos robots.txt e use-os como referências.

Vá em frente, abra o robots.txt do seu concorrente, de grandes portais e sites famosos, de um site usando o mesmo CMS que você, é simples.

Basta adicionar o /robots.txt após o domínio.

Para ajudá-lo, aqui estão alguns exemplos:

Agora vamos dar uma olhada nas diferentes linhas que você pode ter em seu arquivo robots.txt:

User-agent:

Esta é a linha onde você define o robô ao qual você está falando.

É como dizer oi ao robô:

“Olá, todos os robôs”

User-agent: *

“Oi Robô Google”

User-agent: Googlebot

“Oi Robô Yahoo!”

User-agent: Slurp

Para os rastreadores de sites diferentes do Google, veja esta lista.

Robotstxt.org tem um banco de dados de robôs, mas não sei quando foi atualizado pela última vez.

DICAS: você pode descobrir quais robôs rastreiam seu site examinando seus logs do servidor e, em seguida, use as informações para adicionar diretrizes específicas do usuário-usuário no seu robots.txt.

Nem todos os robôs/user-agents entendem todas as diretivas.

No protocolo original de Exclusão de Robôs, a diretriz Disallow foi a única opção oficial e mais tarde veio a inclusão da diretriz Sitemap.

Na lista abaixo, você encontrará algumas diretrizes não-padrão, mas úteis. Google e Bing seguem a maioria delas, mas infelizmente nem todos os outros robôs vão entender e segui-las.

Para cada uma das seguintes diretrizes, você deve ter a linha user-agent primeiro.

É como dizer “Oi Google”, e depois siga as instruções específicas para o Google.

Agora diga aos robôs o que você quer que eles façam…

Disallow (Não Permitir):

Isso diz aos robôs o que você não quer que eles rastreiem em seu site:

“Olá, todos os robôs, não rasteiem nada no meu site.”

User-agent: *
Disallow: /

“Oi, o robô de imagem do Google, não rasteie a pasta das minhas imagens (mas você pode rastrear todo o resto).”

User-agent: Googlebot-Image
Disallow: /images/

Nota: muitos proprietários de sites não permitem aos robôs rastrearem seu diretório de imagens, mas isso pode ser uma coisa boa para permitir (pense na busca de imagens do Google).

Apenas certifique-se de ter nomeado suas imagens corretamente, para o nome do arquivo demonstrar sobre o que é a imagem (não imagem1.jpg, arq-002.jpg, etc.).

Se você quiser remover suas imagens do índice do Google, leia essas informações do Google.

Allow (Permitir):

Isso diz aos robôs o que você quer que eles rastreiem no seu site.

“Olá, todos os robôs, você pode rastear tudo no meu site.”

User-agent: *
Allow: /

Nota: se estas são as únicas linhas que você tem no seu robots.txt, você pode excluir o arquivo.

Se não houver robots.txt, os motores de busca assumirão que você quer que eles rastreiem tudo em seu site.

“Oi, todos os robôs, não quero que você rastreie qualquer coisa na pasta /coisas/, exceto o arquivo /coisas/coisas-incriveis.html”.

User-agent: *
Disallow: /coisas/
Allow: /coisas/coisas-incriveis.html

Lembre-se, as instruções específicas substituem as instruções gerais:

“Oi, todos os robôs, não rastreiem nada no meu site… Mas se você é o robô do Google, então eu tenho uma instrução especial para você: você tem permissão para rastrear todas as páginas no meu site.”

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

Noindex (Não indexar):

Ao contrário das URLs não permitidas (Disallow), as URLs não incluídas (Noindex) não terminam no índice e, portanto, não serão exibidas nos resultados de pesquisa.

“Olá, todos os robôs, não exibam nada que estiver na pasta /conteudo-premium/ nos resultados de pesquisa.”

User-agent: *
Noindex: /conteudo-premium/

As principais situações de exclusão de suas URLs dos resultados de pesquisa podem incluir (mas não estão limitadas a):

  • Páginas criadas para fins de marketing (páginas de versões on-line de email marketing, landing pages de downloads de ebooks) que você não deseja que os usuários encontrem nos resultados das buscas;
  • Qualquer página que você deseja esconder do público em geral. Por exemplo, uma página que você deseja que apenas pessoas com um link específico possam encontrar ou páginas de conteúdo para membros e assinantes;
  • Conteúdo gerado por usuários, como páginas de fórum.

Nota: No entanto, o Google avisa contra o uso deste método: John Mueller afirmou que “você não deve confiar nele”.

* (Asterisco):

Com o símbolo *, você diz aos robôs que correspondam a qualquer número de caracteres. Muito útil, por exemplo, quando você não quer que as páginas de resultados de pesquisa internas sejam indexadas:

“Olá, todos os robôs, não rastreiem minhas páginas de resultados de pesquisa… que seriam quaisquer URLs contendo qualquer coisas antes de /search.php? com qualquer coisa depois.”

User-agent: *
Disallow: */search.php?*

Teoricamente, você não precisa do * no final, como os robôs assumem que o URL continua de qualquer maneira (a menos que você tenha um símbolo de $ no final).

No entanto, o próprio Google usa o * no final , então é melhor prevenir do que remediar.

“Olá, todos os robôs, não rastejam quaisquer URL contendo a palavra contato.”

User-agent: *
Disallow: *contato*

Isso desautorizaria, por exemplo:

  • /entre-em-contato-aqui/
  • /contato/form.html
  • /empresa/contato.html

$ (Cifrão/Sinal de dólar):

O sinal de dólar diz aos robôs que é o fim da url.

“Oi robô do Google, não rastreie nenhum arquivo .pdf no meu site.”

User-agent: Google-bot
Disallow: *.pdf$

“Olá, todos os robôs, na minha categoria /ajuda/ eu tenho alguns arquivos que terminam com .php. Não rasteje nenhum deles, mas você pode rastrear todas as outras coisas nessa categoria.”

User-agent: *
Disallow: /ajuda/*.php$

# (Hashtag):

Você pode adicionar comentários após o símbolo “#”, no início de uma linha ou depois de uma diretiva. Isso é útil se você quiser deixar claro o que cada seção é:

# Instruções para todos os robôs
User-agent: *
Disallow: /archives/ # desativar o rastreamento da categoria de arquivos

Sitemap:

Sitemap: http://www.seusite.com.br/sitemap.xml

Como você pode ver, a diretiva Sitemap: não precisa da linha user-agent.

Não importa onde você coloca a diretriz Sitemap: no seu arquivo, mas eu prefiro que ele seja a primeira ou última linha no arquivo.

Você pode especificar mais de um arquivo de Sitemap XML por arquivo robots.txt, mas se você tiver um arquivo de índice do sitemap pode vincular apenas ele e terá o mesmo efeito.

Crawl-delay, Request-rate e Visit-time

Essas diretrizes não são comumente usadas, mas ainda merecem destaque.

Crawl-delay:

Essa diretiva pede para o robô esperar uma certa quantidade de segundos depois de cada vez que rastreia uma página em seu site.

Oi Yahoo! Robô, aguarde 5 segundos entre os suas solicitações.

User-agent: Slurp
Crawl-delay: 5

Usei como exemplo o robô do Yahoo!, pois o Google recomenda que você configure a velocidade de rastreamento através do Google Search Console.

Request-rate:

É onde você diz ao robô quantas páginas você deseja que ele rasteie dentro de uma certa quantidade de segundos.

O primeiro número é a quantidade de páginas e o segundo número são os segundos.

Oi todos os robôs, por favor rastreiem apenas 1 página a cada 5 segundos.

User-agent: *
Request-rate: 1/5 # carregar 1 página a cada 5 segundos
Visit-time:

É como horário de funcionamento, ou seja, quando você quer que os robôs visitem seu site.

Isso pode ser útil se você não quiser que os robôs visitem seu site durante os horários de pico (quando você tem muitos visitantes humanos ao mesmo tempo).

User-agent: *
Visit-time: 2100-0500 # somente acesse meu site entre 21:00h (9PM) e 05:00h (5AM) UTC (GMT)

Lembre-se de definir todos os horários em UTC / GMT.

A diretriz acima não é amplamente utilizado (até onde eu sei).

Existem outras maneiras melhores de alcançar o que você deseja.

Por exemplo: implementando LastModified, ETags, LastMod e ChangeFrequency… Mas falaremos mais sobre isso em futuras postagens de blog.

Como verificar e testar seu arquivo robots.txt?

Existem várias ferramentas pagas e gratuitas para testar, verificar e até mesmo criar um arquivo robots.txt, mas eu prefiro usar o Google Search Console e as Ferramentas para Webmasters do Bing em meus projetos.

Ferramentas do Google Search Console

O Google search Console é uma sistema onde você pode verificar seu site com base em informações do Google.

Tem muitas ferramentas e relatórios, e é totalmente gratuito.

Para ajudá-lo a criar um arquivo robots.txt, o Google Search Console possui uma ferramenta que gera robots.txt (por favor note que está focada apenas nos robôs do Google).

Você pode verificar e testar o seu robots.txt existente através do Google Search Console no menu Rastreamento > Testar robots.txt.

Você também deve verificar os problemas encontrados pelo Googlebot quando rastrear seu site.

Vá para o menu Índice do Google > Recursos bloqueados.

Lá você verá os URLs restritos por robots.txt.

No Google Search Console Você também pode ver seus erros de mapa do site, erros de HTTP, URLs sem URLs e URLs que expiram, mas entraremos em detalhes para isso em outra postagem no blog.

Ferramentas para Webmaster do Bing

Assim como as Ferramentas do Google, as Ferramentas para webmasters do Bing são gratuitas e incrivelmente úteis para os proprietários de sites.

Vá para as ferramentas do webmaster do Bing > problemas de rastreamento.

Assim como problemas com robots.txt, ele também identifica erros de código de status HTTP, páginas infectadas com malware e muitas outras coisas que você deve verificar regularmente.

Depois de ter um bom arquivo robots.txt construído e validado, não basta configurá-lo e esquecê-lo.

Auditar periodicamente as configurações do arquivo, especialmente depois de ter passado por um redesenho do site é muito importante, de acordo com o Bing Webmaster Center Blog.

Exemplos engraçados e criativos de robots.txt

Para encerrar isso, aqui estão alguns exemplos engraçados e criativos de robots.txt:

Se você conhece quaisquer outros arquivos criativos de robots.txt, publique um link para eles nos comentários abaixo.

Você também vai gostar:

O que você achou deste conteúdo? Têm alguma dúvida ou sugestão? Comenta aí!

Nenhum Comentário, até o momento.

    Deixe um comentário

    Você quer ser VIP?

    VOCÊ QUER SER VIP?!

    Obtenha acesso instantâneo à minha Biblioteca de Recursos GRÁTIS. Receba as Últimas Notícias, Ofertas, DescontosBônus e Conteúdos Exclusivos que não são compartilhados em nenhum outro lugar.

    Digite seu nome e endereço de e-mail AGORA e seja VIP ⤵︎