Práticas recomendadas para configurar crawlers da Web
Este artigo fornece práticas recomendadas para usar arquivos do robots.txt e do sitemap.xml no Adobe Commerce, incluindo configuração e segurança. Esses arquivos instruem os rastreadores da Web (geralmente robôs de mecanismo de pesquisa) a rastrear páginas em um site. A configuração desses arquivos pode melhorar o desempenho do site e a otimização do mecanismo de pesquisa.
Produtos e versões afetados
Todas as versões com suporte de:
- Adobe Commerce na infraestrutura em nuvem
- Adobe Commerce no local
Adobe Commerce na infraestrutura em nuvem
Um projeto padrão do Adobe Commerce contém uma hierarquia que inclui uma única visualização de site, loja e loja. Para implementações mais complexas, você pode criar sites adicionais, lojas e visualizações de loja para uma loja com vários sites.
Lojas de um único site
Siga estas práticas recomendadas ao configurar os arquivos robots.txt e sitemap.xml para vitrines de site único:
-
Verifique se o projeto está usando o
ece-toolsversão 2002.0.12 ou posterior. -
Use o aplicativo Administrador para adicionar conteúdo ao arquivo
robots.txt.note tip TIP Exiba o arquivo robots.txtgerado automaticamente para seu armazenamento em<domain.your.project>/robots.txt. -
Use o aplicativo de Administração para gerar um arquivo
sitemap.xml.note important IMPORTANT Devido ao sistema de arquivos somente leitura no Adobe Commerce em projetos de infraestrutura em nuvem, você deve especificar o caminho pub/mediaantes de gerar o arquivo. -
Use um trecho Fastly VCL personalizado para redirecionar da raiz do site para o local
pub/media/para ambos os arquivos:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path ~ \"^/?sitemap.xml$\" ) { set req.url = \"pub/media/sitemap.xml\"; } else if (req.url.path ~ \"^/?robots.txt$\") { set req.url = \"pub/media/robots.txt\";}" } -
Teste o redirecionamento visualizando os arquivos em um navegador da Web. Por exemplo,
<domain.your.project>/robots.txte<domain.your.project>/sitemap.xml. Verifique se você está usando o caminho raiz para o qual você configurou o redirecionamento e não um caminho diferente.
Lojas de vários sites
Você pode configurar e executar várias lojas com uma única implementação do Adobe Commerce na infraestrutura em nuvem. Consulte Configurar vários sites ou lojas.
As mesmas práticas recomendadas para configurar os arquivos robots.txt e sitemap.xml para vitrines de site único aplicam-se a vitrines de vários sites com duas diferenças importantes:
-
Verifique se os nomes de arquivo
robots.txtesitemap.xmlcontêm os nomes dos sites correspondentes. Por exemplo:domaineone_robots.txtdomaintwo_robots.txtdomainone_sitemap.xmldomaintwo_sitemap.xml
-
Use um trecho Fastly VCL personalizado modificado para redirecionar da raiz de seus sites para o local
pub/mediapara ambos os arquivos em seus sites:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path == \"/robots.txt\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_robots.txt\"; }} else if ( req.url.path == \"/sitemap.xml\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_sitemap.xml\"; }}" }
Adobe Commerce no local
Use o aplicativo de Administração para configurar os arquivos robots.txt e sitemap.xml para impedir que os bots verifiquem e indexem conteúdo desnecessário (consulte Robôs do Mecanismo de Pesquisa).
/path/to/commerce/pub/media/ ou /path/to/commerce/media, o que for certo para a sua instalação.Segurança
Não exponha o caminho de Administrador no arquivo robots.txt. Ter o caminho de administrador exposto é uma vulnerabilidade para hackers no site e perda potencial de dados. Remova o caminho Admin do arquivo robots.txt.
Para obter as etapas para editar o arquivo robots.txt e remover todas as entradas do caminho de Administrador, consulte Guia do Usuário de Marketing > SEO e Pesquisa > Robôs do Mecanismo de Pesquisa.