配置Web爬网程序的最佳实践

本文提供了使用的最佳实践 robots.txtsitemap.xml Adobe Commerce中的文件,包括配置和安全性。 这些文件指示Web爬网程序(通常是搜索引擎机器人)如何爬网网站上的页面。 配置这些文件可以提高网站性能和优化搜索引擎。

NOTE
这些最佳实践仅适用于使用本机Adobe Commerce店面的项目。 它们不适用于使用其他店面解决方案(例如,Adobe Experience Manager、headless)的Adobe Commerce项目。

受影响的产品和版本

所有受支持的版本 之:

  • 云基础架构上的Adobe Commerce
  • Adobe Commerce内部部署

云基础架构上的Adobe Commerce

默认的Adobe Commerce项目包含一个层级,其中包括单个网站、商店和商店视图。 对于更复杂的实施,您可以为创建其他网站、商店和存储视图 多站点 店面。

单站点店面

配置时,请遵循以下最佳实践 robots.txtsitemap.xml 单站点店面的文件:

  • 确保您的项目正在使用 ece-tools 版本2002.0.12或更高版本

  • 使用管理员应用程序将内容添加到 robots.txt 文件。

    note tip
    TIP
    查看自动生成的 robots.txt 您商店的文件,位于 <domain.your.project>/robots.txt.
  • 使用Admin应用程序生成 sitemap.xml 文件。

    note important
    IMPORTANT
    由于Adobe Commerce上的云基础架构项目采用只读文件系统,因此您必须指定 pub/media 路径。
  • 使用自定义Fastly VCL代码片段从站点的根重定向到 pub/media/ 这两个文件的位置:

    code language-vcl
    {
      "name": "sitemaprobots_rewrite",
      "dynamic": "0",
      "type": "recv",
      "priority": "90",
      "content": "if ( req.url.path ~ \"^/?sitemap.xml$\" ) { set req.url = \"pub/media/sitemap.xml\"; } else if (req.url.path ~ \"^/?robots.txt$\") { set req.url = \"pub/media/robots.txt\";}"
    }
    
  • 通过在Web浏览器中查看文件来测试重定向。 例如, <domain.your.project>/robots.txt<domain.your.project>/sitemap.xml. 确保您使用的是为其配置重定向的根路径,而不是其他路径。

INFO
请参阅 添加站点地图和搜索引擎机器人 以获取详细说明。

多站点店面

您可以在云基础架构上通过一次实施Adobe Commerce来设置和运行多个商店。 请参阅 设置多个网站或商店.

配置的最佳实践也相同 robots.txtsitemap.xml 文件 单站点店面 适用于具有两个重要区别的多站点商店:

  • 确保 robots.txtsitemap.xml 文件名包含相应站点的名称。 例如:

    • domaineone_robots.txt
    • domaintwo_robots.txt
    • domainone_sitemap.xml
    • domaintwo_sitemap.xml
  • 使用稍作修改的自定义Fastly VCL代码片段从站点的根重定向到 pub/media 这两个文件在您的网站中的位置:

    code language-vcl
    {
      "name": "sitemaprobots_rewrite",
      "dynamic": "0",
      "type": "recv",
      "priority": "90",
      "content": "if ( req.url.path == \"/robots.txt\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_robots.txt\"; }} else if ( req.url.path == \"/sitemap.xml\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) {  set req.url = \"pub/media/\" re.group.1 \"_sitemap.xml\"; }}"
    }
    

Adobe Commerce内部部署

使用管理员应用程序配置 robots.txtsitemap.xml 用于阻止机器人扫描和索引不必要内容的文件(请参阅 搜索引擎机器人)。

TIP
对于内部部署,文件编写位置取决于您安装Adobe Commerce的方式。 将文件写入 /path/to/commerce/pub/media//path/to/commerce/media,以适合您的安装为准。

安全性

不要在您的网站中公开您的管理员路径, robots.txt 文件。 暴露管理员路径是网站黑客攻击和潜在数据丢失的漏洞。 从删除管理员路径 robots.txt 文件。

有关编辑 robots.txt 文件并删除管理员路径的所有条目,请参见 《营销用户指南》 > “SEO”和“搜索” > “搜索引擎机器人”.

TIP
如果你需要帮助, 提交Adobe Commerce支持票证.

其他信息

recommendation-more-help
754cbbf3-3a3c-4af3-b6ce-9d34390f3a60