配置Web爬网程序的最佳实践
本文提供了在Adobe Commerce中使用robots.txt
和sitemap.xml
文件的最佳实践,包括配置和安全性。 这些文件指示Web爬网程序(通常是搜索引擎机器人)如何爬网网站上的页面。 配置这些文件可以提高网站性能和优化搜索引擎。
受影响的产品和版本
所有受支持的版本,共:
- 云基础架构上的Adobe Commerce
- Adobe Commerce内部部署
云基础架构上的Adobe Commerce
默认的Adobe Commerce项目包含一个层级,其中包括单个网站、商店和商店视图。 对于更复杂的实施,您可以为 多站点 店面创建其他网站、商店和商店视图。
单站点店面
为单站点店面配置robots.txt
和sitemap.xml
文件时,请遵循以下最佳实践:
-
确保您的项目使用的是
ece-tools
版本2002.0.12或更高版本。 -
使用Admin应用程序将内容添加到
robots.txt
文件。note tip TIP 在 <domain.your.project>/robots.txt
上查看为您的商店自动生成的robots.txt
文件。 -
使用管理员应用程序生成
sitemap.xml
文件。note important IMPORTANT 由于Adobe Commerce上的云基础架构项目采用只读文件系统,因此您必须指定 pub/media
路径才能生成文件。 -
使用自定义Fastly VCL代码片段,将两个文件的从站点根目录重定向到
pub/media/
位置:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path ~ \"^/?sitemap.xml$\" ) { set req.url = \"pub/media/sitemap.xml\"; } else if (req.url.path ~ \"^/?robots.txt$\") { set req.url = \"pub/media/robots.txt\";}" }
-
通过在Web浏览器中查看文件来测试重定向。 例如,
<domain.your.project>/robots.txt
和<domain.your.project>/sitemap.xml
。 确保您使用的是为其配置重定向的根路径,而不是其他路径。
多站点店面
您可以在云基础架构上通过一次实施Adobe Commerce来设置和运行多个商店。 请参阅设置多个网站或商店。
为单站点店面配置robots.txt
和sitemap.xml
文件的相同最佳实践适用于具有两个重要区别的多站点店面:
-
确保
robots.txt
和sitemap.xml
文件名包含相应站点的名称。 例如:domaineone_robots.txt
domaintwo_robots.txt
domainone_sitemap.xml
domaintwo_sitemap.xml
-
使用稍作修改的自定义Fastly VCL代码片段将两个文件从站点的根重定向到站点中的
pub/media
位置:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path == \"/robots.txt\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_robots.txt\"; }} else if ( req.url.path == \"/sitemap.xml\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_sitemap.xml\"; }}" }
Adobe Commerce内部部署
使用管理员应用程序配置robots.txt
和sitemap.xml
文件,以防止机器人扫描和索引不必要的内容(请参阅搜索引擎机器人)。
/path/to/commerce/pub/media/
或/path/to/commerce/media
,以适合您的安装为准。安全性
不要在robots.txt
文件中公开您的管理员路径。 暴露管理员路径是网站黑客攻击和潜在数据丢失的漏洞。 从robots.txt
文件中删除管理员路径。
有关编辑robots.txt
文件并删除管理员路径所有条目的步骤,请参阅营销用户指南> SEO和搜索>搜索引擎机器人。
其他信息
- 了解网站、商店和商店视图
- 添加网站
- 使用Fastly阻止Adobe Commerce网站的恶意流量
- robots.txt在云基础架构2.3.x上的Adobe Commerce中出现404错误