Como evitar que determinadas páginas do site apareçam no Google? Robots, ou robôs, são aplicativos que percorrem a internet em busca de conteúdo com o objetivo de indexá-lo ou verificarem alterações ocorridas desde a última "visita" Nem todo o conteúdo de um site deve ser indexado pelos robots. Páginas de login, páginas repetidas, páginas de impressão são alguns desses exemplos. O que é robots.txt, então? Como o próprio nome já diz, é um arquivo no formato txt que funciona como um filtro para os Crawlers, fazendo com que webmasters possam controlar permissões de acesso a determinados pontos dos sites. O robots.txt controla qual informação de um site deve ou não deve ser indexado pelos sites de busca. A sintaxe do arquivo é bem simples, e deve ser colocada pelo webmaster responsável pelo site na raíz da hospedagem. ROBOTS.TXT - SINTAXE O arquivo robots.txt tem o papel de criar uma política de acesso para os Robots. Para a execução dessas tarefas há palavras reservadas, ou seja, palavras com a função de comandos que permitirão ou não o acesso a determinados diretórios ou páginas de um site: User-agent A função deste comando é apenas dizer quais Robots devem seguir as regras indicadas no Robots.txt. Supondo que você deseje apenas que o mecanismo de busca do google siga as definições constantes no arquivo robots.txt, este deve ser indicado como User-agent: Googlebot. Eis as principais opções: * Google: User-agent: Googlebot * Yahoo: User-agent: Slurp * MSN: User-agent: msnbot. * Todos os mecanismos: User-agent: *. Disallow Este comando diz aos mecanismos qual diretório ou página deve ser impedida de ter o conteúdo verificado. Exemplos: * Disallow: /images diz aos robots para que não seja indexado o conteúdo do diretório /images * Disallow: print1.html instrui os robots a não indexarem a página print1.html. Allow Este comando diz aos robots qual diretório ou página deve ter o conteúdo verificado. Mas qual seria a necessidade deste comando, sendo que diretórios e páginas são por definição sempre permitidos? Este será útil em situações em que o webmaster bloqueu o acesso a um diretório através do comando Disallow, mas gostaria de ter indexado um arquivo ou sub-diretório dentro do diretório bloqueado. EXEMPLOS DE ROBOTS.TXT Exemplo 1: O webmaster não deseja que o conteúdo do diretório /docs seja indexado pelos robots. Dessa bloqueou o acesso ao diretório /docs usando o comando Disallow: /docs no arquivo robots.txt. Dentro deste diretório, porém, existe um sub-diretório chamado "public", que deve ter seu conteúdo indexado. Para que isto aconteça, basta usar no arquivo robots.txt a instrução Allow: /docs/public/. Exemplo 2: Considere a seguinte estrutura de um determinado site: / Index.html Contato.html /Interno Ambiente.html /News Novidades.html /Admin Restrito.html Seguranca.html robots.txt Como pode ser observado, há na raíz 2 diretórios e 2 páginas. No diretório "Interno" há 1 página e 1 diretório, cujo nome é "News", onde existe 1 página. No diretório "Admin", podemos observar outras 2 páginas. Ainda na raíz está o arquivo robots.txt. O webmaster responsável pelo site definiu que o diretório "Interno" terá seu conteúdo bloqueado aos robots, isto é, não deverá ser indexado pelo Google e outros sites de busca. , mas o diretório "News" deverá será indexado. Já o diretório "Admin" deve ser completamente bloqueado. As instruções, segundo o webmaster, devem ser seguidas por qualquer mecanismo de busca. O conteúdo do arquivo Robots.txt deve ser o seguinte: User-agent: * Disallow: /Interno Allow: /Interno/News Disallow: /Admin Com as regras acima, os mecanismos irão indexar o conteúdo apenas da raíz e do diretório "News". EXEMPLOS REAIS DE ROBOTS.TXT Google: [Somente usuários registrados podem vem os links. ] Registro.br: [Somente usuários registrados podem vem os links. ]
Hidden Content Hidden Content - Sou melhor do que as pessoas pensam e pior do que elas imaginam ...
Há 1 usuários navegando neste tópico. (0 registrados e 1 visitantes)
Regras do Fórum