Best Practices für die Konfiguration von Webcrawlern
Dieser Artikel enthält Best Practices für die Verwendung von robots.txt
- und sitemap.xml
-Dateien in Adobe Commerce, einschließlich Konfiguration und Sicherheit. Diese Dateien weisen Webcrawler (typischerweise Suchmaschinen-Roboter) an, wie Seiten auf einer Website durchsucht werden. Die Konfiguration dieser Dateien kann die Site-Leistung und Suchmaschinenoptimierung verbessern.
Betroffene Produkte und Versionen
Alle unterstützten Versionen von:
- Adobe Commerce auf Cloud-Infrastruktur
- Adobe Commerce vor Ort
Adobe Commerce auf Cloud-Infrastruktur
Ein standardmäßiges Adobe Commerce-Projekt enthält eine Hierarchie mit einer Website-, Store- und Store-Ansicht. Bei komplexeren Implementierungen können Sie zusätzliche Websites, Stores und Ansichten für eine Storefront mit mehreren Sites erstellen.
Storefronts mit nur einer Site
Befolgen Sie diese Best Practices bei der Konfiguration der robots.txt
- und sitemap.xml
-Dateien für Einzelsite-Storefronts:
-
Stellen Sie sicher, dass Ihr Projekt die
ece-tools
-Version 2002.0.12 oder höher verwendet. -
Verwenden Sie die Admin-Anwendung, um der Datei
robots.txt
Inhalte hinzuzufügen.note tip TIP Zeigen Sie die automatisch generierte robots.txt
-Datei für Ihren Store unter<domain.your.project>/robots.txt
an. -
Verwenden Sie die Admin-Anwendung, um eine
sitemap.xml
-Datei zu generieren.note important IMPORTANT Aufgrund des schreibgeschützten Dateisystems in Adobe Commerce bei Cloud-Infrastrukturprojekten müssen Sie den Pfad " pub/media
"angeben, bevor Sie die Datei generieren. -
Verwenden Sie ein benutzerdefiniertes Fastly VCL-Snippet, um für beide Dateien vom Stamm Ihrer Site zum Speicherort
pub/media/
umzuleiten:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path ~ \"^/?sitemap.xml$\" ) { set req.url = \"pub/media/sitemap.xml\"; } else if (req.url.path ~ \"^/?robots.txt$\") { set req.url = \"pub/media/robots.txt\";}" }
-
Testen Sie die Umleitung, indem Sie die Dateien in einem Webbrowser anzeigen. Beispiel:
<domain.your.project>/robots.txt
und<domain.your.project>/sitemap.xml
. Vergewissern Sie sich, dass Sie den Stammpfad verwenden, für den Sie die Umleitung konfiguriert haben, und nicht einen anderen Pfad.
Storefronts mit mehreren Sites
Sie können mehrere Stores mit einer einzigen Implementierung von Adobe Commerce in der Cloud-Infrastruktur einrichten und ausführen. Siehe Einrichten mehrerer Websites oder Stores.
Die gleichen Best Practices für die Konfiguration der robots.txt
- und sitemap.xml
-Dateien für die Storefronts mit einer einzelnen Site gelten für Storefronts mit mehreren Sites mit zwei wichtigen Unterschieden:
-
Stellen Sie sicher, dass die Dateinamen
robots.txt
undsitemap.xml
die Namen der entsprechenden Sites enthalten. Beispiel:domaineone_robots.txt
domaintwo_robots.txt
domainone_sitemap.xml
domaintwo_sitemap.xml
-
Verwenden Sie ein leicht modifiziertes benutzerdefiniertes Fastly VCL-Snippet, um vom Stamm Ihrer Sites zum Speicherort
pub/media
für beide Dateien auf allen Ihren Sites umzuleiten:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path == \"/robots.txt\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_robots.txt\"; }} else if ( req.url.path == \"/sitemap.xml\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_sitemap.xml\"; }}" }
Adobe Commerce vor Ort
Verwenden Sie die Admin-Anwendung, um die Dateien robots.txt
und sitemap.xml
zu konfigurieren, um zu verhindern, dass Bots unnötigen Inhalt scannen und indizieren (siehe Suchmaschinen-Roboter).
/path/to/commerce/pub/media/
oder /path/to/commerce/media
, je nachdem, welcher Wert für Ihre Installation geeignet ist.Sicherheit
Stellen Sie Ihren Admin-Pfad nicht in Ihrer robots.txt
-Datei bereit. Der Admin-Pfad offen zu legen ist eine Schwachstelle für das Site-Hacking und einen möglichen Datenverlust. Entfernen Sie den Administratorpfad aus der Datei "robots.txt
".
Anweisungen zum Bearbeiten der Datei robots.txt
und zum Entfernen aller Einträge des Admin-Pfads finden Sie unter Marketing-Benutzerhandbuch > SEO und Suche > Suchmaschinen-Roboter.