Best Practices für die Konfiguration von Webcrawlern
Dieser Artikel enthält Best Practices für die Verwendung von robots.txt
und sitemap.xml
-Dateien in Adobe Commerce, einschließlich Konfiguration und Sicherheit. Diese Dateien weisen Webcrawler (typischerweise Suchmaschinen-Roboter) an, wie Seiten auf einer Website durchsucht werden. Die Konfiguration dieser Dateien kann die Site-Leistung und Suchmaschinenoptimierung verbessern.
Betroffene Produkte und Versionen
Alle unterstützten Versionen von:
- Adobe Commerce auf Cloud-Infrastruktur
- Adobe Commerce vor Ort
Adobe Commerce auf Cloud-Infrastruktur
Ein standardmäßiges Adobe Commerce-Projekt enthält eine Hierarchie mit einer Website-, Store- und Store-Ansicht. Für komplexere Implementierungen können Sie zusätzliche Websites, Stores und Ansichten für eine Multi-Site Storefront.
Storefronts mit nur einer Site
Befolgen Sie diese Best Practices bei der Konfiguration der robots.txt
und sitemap.xml
-Dateien für Einzelsite-Storefronts:
-
Vergewissern Sie sich, dass Ihr Projekt
ece-tools
Version 2002.0.12 oder höher. -
Verwenden Sie die Admin-Anwendung, um Inhalte zur
robots.txt
-Datei.note tip TIP Automatisch generierte anzeigen robots.txt
-Datei für Ihren Store unter<domain.your.project>/robots.txt
. -
Verwenden Sie die Admin-Anwendung, um eine
sitemap.xml
-Datei.note important IMPORTANT Aufgrund des schreibgeschützten Dateisystems in Adobe Commerce für Cloud-Infrastrukturprojekte müssen Sie die pub/media
Pfad vor dem Generieren der Datei. -
Verwenden Sie ein benutzerdefiniertes Fastly VCL-Snippet, um vom Stamm Ihrer Site zur
pub/media/
Speicherort für beide Dateien:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path ~ \"^/?sitemap.xml$\" ) { set req.url = \"pub/media/sitemap.xml\"; } else if (req.url.path ~ \"^/?robots.txt$\") { set req.url = \"pub/media/robots.txt\";}" }
-
Testen Sie die Umleitung, indem Sie die Dateien in einem Webbrowser anzeigen. Beispiel:
<domain.your.project>/robots.txt
und<domain.your.project>/sitemap.xml
. Vergewissern Sie sich, dass Sie den Stammpfad verwenden, für den Sie die Umleitung konfiguriert haben, und nicht einen anderen Pfad.
Storefronts mit mehreren Sites
Sie können mehrere Stores mit einer einzigen Implementierung von Adobe Commerce in der Cloud-Infrastruktur einrichten und ausführen. Siehe Einrichten mehrerer Websites oder Stores.
Die gleichen Best Practices für die Konfiguration der robots.txt
und sitemap.xml
Dateien für Storefronts mit nur einer Site gilt für Storefronts mit mehreren Sites mit zwei wichtigen Unterschieden:
-
Stellen Sie sicher, dass die Variable
robots.txt
undsitemap.xml
-Dateinamen enthalten die Namen der entsprechenden Sites. Beispiel:domaineone_robots.txt
domaintwo_robots.txt
domainone_sitemap.xml
domaintwo_sitemap.xml
-
Verwenden Sie ein geringfügig modifiziertes benutzerdefiniertes Fastly VCL-Snippet, um vom Stamm Ihrer Sites zum
pub/media
Speicherort für beide Dateien Ihrer Sites:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path == \"/robots.txt\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_robots.txt\"; }} else if ( req.url.path == \"/sitemap.xml\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_sitemap.xml\"; }}" }
Adobe Commerce vor Ort
Verwenden Sie die Admin-Anwendung, um die robots.txt
und sitemap.xml
Dateien, um zu verhindern, dass Bots unnötige Inhalte scannen und indizieren (siehe Suchmaschinen-Roboter).
/path/to/commerce/pub/media/
oder /path/to/commerce/media
, je nachdem, welcher Zeitpunkt für Ihre Installation geeignet ist.Sicherheit
Geben Sie Ihren Admin-Pfad nicht in Ihrer robots.txt
-Datei. Der Admin-Pfad offen zu legen ist eine Schwachstelle für das Site-Hacking und einen möglichen Datenverlust. Entfernen Sie den Admin-Pfad aus dem robots.txt
-Datei.
Für die Schritte zum Bearbeiten der robots.txt
und entfernen Sie alle Einträge des Admin-Pfads, siehe Marketing-Benutzerhandbuch > SEO und Suche > Suchmaschinen-Roboter.