Práticas recomendadas para configurar crawlers da Web
Este artigo fornece práticas recomendadas para usar arquivos do robots.txt
e do sitemap.xml
no Adobe Commerce, incluindo configuração e segurança. Esses arquivos instruem os rastreadores da Web (geralmente robôs de mecanismo de pesquisa) a rastrear páginas em um site. A configuração desses arquivos pode melhorar o desempenho do site e a otimização do mecanismo de pesquisa.
Produtos e versões afetados
Todas as versõescom suporte de:
- Adobe Commerce na infraestrutura em nuvem
- Adobe Commerce no local
Adobe Commerce na infraestrutura em nuvem
Um projeto padrão do Adobe Commerce contém uma hierarquia que inclui uma única visualização de site, loja e loja. Para implementações mais complexas, você pode criar sites adicionais, lojas e visualizações de loja para uma loja com vários sites.
Lojas de um único site
Siga estas práticas recomendadas ao configurar os arquivos robots.txt
e sitemap.xml
para vitrines de site único:
-
Verifique se o projeto está usando o
ece-tools
versão 2002.0.12 ou posterior. -
Use o aplicativo Administrador para adicionar conteúdo ao arquivo
robots.txt
.note tip TIP Exiba o arquivo robots.txt
gerado automaticamente para seu armazenamento em<domain.your.project>/robots.txt
. -
Use o aplicativo de Administração para gerar um arquivo
sitemap.xml
.note important IMPORTANT Devido ao sistema de arquivos somente leitura no Adobe Commerce em projetos de infraestrutura em nuvem, você deve especificar o caminho pub/media
antes de gerar o arquivo. -
Use um trecho Fastly VCL personalizado para redirecionar da raiz do site para o local
pub/media/
para ambos os arquivos:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path ~ \"^/?sitemap.xml$\" ) { set req.url = \"pub/media/sitemap.xml\"; } else if (req.url.path ~ \"^/?robots.txt$\") { set req.url = \"pub/media/robots.txt\";}" }
-
Teste o redirecionamento visualizando os arquivos em um navegador da Web. Por exemplo,
<domain.your.project>/robots.txt
e<domain.your.project>/sitemap.xml
. Verifique se você está usando o caminho raiz para o qual você configurou o redirecionamento e não um caminho diferente.
Lojas de vários sites
Você pode configurar e executar várias lojas com uma única implementação do Adobe Commerce na infraestrutura em nuvem. Consulte Configurar vários sites ou lojas.
As mesmas práticas recomendadas para configurar os arquivos robots.txt
e sitemap.xml
para vitrines de site único aplicam-se a vitrines de vários sites com duas diferenças importantes:
-
Verifique se os nomes de arquivo
robots.txt
esitemap.xml
contêm os nomes dos sites correspondentes. Por exemplo:domaineone_robots.txt
domaintwo_robots.txt
domainone_sitemap.xml
domaintwo_sitemap.xml
-
Use um trecho Fastly VCL personalizado modificado para redirecionar da raiz de seus sites para o local
pub/media
para ambos os arquivos em seus sites:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path == \"/robots.txt\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_robots.txt\"; }} else if ( req.url.path == \"/sitemap.xml\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_sitemap.xml\"; }}" }
Adobe Commerce no local
Use o aplicativo de Administração para configurar os arquivos robots.txt
e sitemap.xml
para impedir que os bots verifiquem e indexem conteúdo desnecessário (consulte Robôs do Mecanismo de Pesquisa).
/path/to/commerce/pub/media/
ou /path/to/commerce/media
, o que for certo para a sua instalação.Segurança
Não exponha o caminho de Administrador no arquivo robots.txt
. Ter o caminho de administrador exposto é uma vulnerabilidade para hackers no site e perda potencial de dados. Remova o caminho Admin do arquivo robots.txt
.
Para obter as etapas para editar o arquivo robots.txt
e remover todas as entradas do caminho de Administrador, consulte Guia do Usuário de Marketing > SEO e Pesquisa > Robôs do Mecanismo de Pesquisa.