Tempo de leitura: 3 minutos
Você já parou para pensar como Google, Yahoo, Bing e outros buscadores encontram todas as páginas que os usuários pesquisam? De forma simples, eles utilizam robôs de busca que percorrem toda web. A missão deles é indexar conteúdos que podem ser exibidos nos resultados de busca.
No entanto, todos os sites possuem páginas que não são interessantes serem apresentadas nos resultados. Aqui, estamos falando de áreas restritas do site, como páginas de login, de acesso à intranet, além das pastas do administrador.
Caso você crie diversas landing pages com conteúdos semelhantes, não faz sentido que todas essas páginas sejam indexadas. Principalmente porque você deve evitar problemas de conteúdo duplicado em seu site. Então, seria interessante permitir a indexação de apenas uma versão da landing page.
Mas como não permitir que os robôs do Google não indexem as páginas restritas do meu site? É simples. Basta criar um robots.txt no diretório raiz do site.
Afinal, o que é robots.txt?
Trata-se do primeiro arquivo que os robôs dos mecanismos de busca procuram em um site. Isso porque ele mostra quais páginas do site podem ser apresentadas nos resultados e quais não podem.
Então, se você criou um site pelo WordPress, por exemplo, você precisa bloquear a indexação da página “wp-admin”. Por outro lado, permitir o acesso de outras páginas, como a de imagens e de conteúdos. Em resumo, com o robots.txt você decide os diretórios e arquivos do seu site não devem aparecer nas ferramentas de busca.
Além de bloquear a indexação de áreas restritas do site, os robots.txt podem ser úteis para quem ainda está construindo um site e não deseja que ele apareça nos resultados de busca antes de ficar pronto.
Como criar um arquivo robots.txt
Embora existam inúmeras ferramentas gratuitas disponíveis na internet, você pode criar o arquivo robots.txt usando o bloco de notas. Aliás, se o seu site não for muito grande, é até mais recomendável. Ah, antes de começar a criar o arquivo, vale lembrar que ele precisa ser nomeado com letra minúscula e salvo a extensão (robots.txt).
Como você pode ver na imagem abaixo, o robots.txt trabalha, basicamente, com dois códigos: User-agent e Disallow.
User-agent: trata-se de um comando que especifica para qual robô se trata a próxima ordem. Se você usar o asterisco (User-agent: *), significa que a ordem abaixo se refere aos robôs de todos os mescanismos de busca.
Por sua vez, se você escrever (User-agent: Googlebot), significa que o comando a seguir só deve ser aplicado ao robô de indexação do Google. Aqui, vale destacar o nome dos robôs de outros mecanismos: YahooBot (Yahoo) e BingBot (Bing).
Disallow: depois do termo “disallow”, você precisa escrever o nome de uma pasta ou de um arquivo que não deseja ser indexado. Por exemplo, se você escrever (Disallow: /wp-admin/), significa que a página de administração não deve ser apresentada nos resultados de busca.
Você ainda pode fazer com que apenas um arquivo não seja indexado. Aqui, se você escrever (Disallow: /vídeos/vídeo2.mp4), significa que os buscadores podem indexar todos os arquivos da sua página “Vídeos”, exceto o vídeo 2.
Os robots.txt de sites famosos
A grande maioria dos sites usa robots.txt. Inclusive, você pode acessá-los ao digitar na barra de endereço site.com.br/robots.txt. Então, estes são os arquivos robots.txt do Google, do Facebook e do Como Criar um Site.