Como evitar que determinadas páginas do site apareçam no Google?

Robots, ou robôs, são aplicativos que percorrem a internet em busca de conteúdo com o objetivo de indexá-lo ou verificarem alterações ocorridas desde a última "visita" Nem todo o conteúdo de um site deve ser indexado pelos robots. Páginas de login, páginas repetidas, páginas de impressão são alguns desses exemplos. O que é robots.txt, então? Como o próprio nome já diz, é um arquivo no formato txt que funciona como um filtro para os Crawlers, fazendo com que webmasters possam controlar permissões de acesso a determinados pontos dos sites. O robots.txt controla qual informação de um site deve ou não deve ser indexado pelos sites de busca. A sintaxe do arquivo é bem simples, e deve ser colocada pelo webmaster responsável pelo site na raíz da hospedagem.


ROBOTS.TXT - SINTAXE

O arquivo robots.txt tem o papel de criar uma política de acesso para os Robots. Para a execução dessas tarefas há palavras reservadas, ou seja, palavras com a função de comandos que permitirão ou não o acesso a determinados diretórios ou páginas de um site:

User-agent

A função deste comando é apenas dizer quais Robots devem seguir as regras indicadas no Robots.txt. Supondo que você deseje apenas que o mecanismo de busca do google siga as definições constantes no arquivo robots.txt, este deve ser indicado como User-agent: Googlebot. Eis as principais opções:

* Google: User-agent: Googlebot
* Yahoo: User-agent: Slurp
* MSN: User-agent: msnbot.
* Todos os mecanismos: User-agent: *.

Disallow

Este comando diz aos mecanismos qual diretório ou página deve ser impedida de ter o conteúdo verificado. Exemplos:

* Disallow: /images diz aos robots para que não seja indexado o conteúdo do diretório /images
* Disallow: print1.html instrui os robots a não indexarem a página print1.html.

Allow

Este comando diz aos robots qual diretório ou página deve ter o conteúdo verificado. Mas qual seria a necessidade deste comando, sendo que diretórios e páginas são por definição sempre permitidos? Este será útil em situações em que o webmaster bloqueu o acesso a um diretório através do comando Disallow, mas gostaria de ter indexado um arquivo ou sub-diretório dentro do diretório bloqueado.



EXEMPLOS DE ROBOTS.TXT


Exemplo 1: O webmaster não deseja que o conteúdo do diretório /docs seja indexado pelos robots. Dessa bloqueou o acesso ao diretório /docs usando o comando Disallow: /docs no arquivo robots.txt. Dentro deste diretório, porém, existe um sub-diretório chamado "public", que deve ter seu conteúdo indexado. Para que isto aconteça, basta usar no arquivo robots.txt a instrução Allow: /docs/public/.

Exemplo 2: Considere a seguinte estrutura de um determinado site:

/
Index.html
Contato.html
/Interno
Ambiente.html
/News
Novidades.html
/Admin
Restrito.html
Seguranca.html
robots.txt

Como pode ser observado, há na raíz 2 diretórios e 2 páginas. No diretório "Interno" há 1 página e 1 diretório, cujo nome é "News", onde existe 1 página. No diretório "Admin", podemos observar outras 2 páginas. Ainda na raíz está o arquivo robots.txt.

O webmaster responsável pelo site definiu que o diretório "Interno" terá seu conteúdo bloqueado aos robots, isto é, não deverá ser indexado pelo Google e outros sites de busca. , mas o diretório "News" deverá será indexado. Já o diretório "Admin" deve ser completamente bloqueado. As instruções, segundo o webmaster, devem ser seguidas por qualquer mecanismo de busca. O conteúdo do arquivo Robots.txt deve ser o seguinte:

User-agent: *
Disallow: /Interno
Allow: /Interno/News
Disallow: /Admin

Com as regras acima, os mecanismos irão indexar o conteúdo apenas da raíz e do diretório "News".


EXEMPLOS REAIS DE ROBOTS.TXT

Google: [Somente usuários registrados podem vem os links. ]
Registro.br: [Somente usuários registrados podem vem os links. ]