Best Practices für die Konfiguration von Web-Crawlern
- Themen:
- Best Practices
Erstellt für:
- Experte
- Entwickler
Dieser Artikel enthält Best Practices für die Verwendung von robots.txt
- und sitemap.xml
in Adobe Commerce, einschließlich Konfiguration und Sicherheit. Diese Dateien weisen Web-Crawler (normalerweise Suchmaschinenroboter) an, Seiten auf einer Website zu durchsuchen. Die Konfiguration dieser Dateien kann die Leistung der Site und die Suchmaschinenoptimierung verbessern.
Betroffene Produkte und Versionen
- Adobe Commerce auf Cloud-Infrastruktur
- Adobe Commerce On-Premises
Adobe Commerce auf Cloud-Infrastruktur
Ein standardmäßiges Adobe Commerce-Projekt enthält eine Hierarchie mit einer einzelnen Website-, Store- und Store-Ansicht. Für komplexere Implementierungen können Sie zusätzliche Websites, Stores und Store-Ansichten für eine Storefront mit Sites.
Storefronts mit einer Site
Befolgen Sie diese Best Practices beim Konfigurieren der robots.txt
- und sitemap.xml
für Storefronts mit einer Website:
-
Stellen Sie sicher, dass Ihr Projekt
ece-tools
Version 2002.0.12 oder höher verwendet. -
Verwenden Sie das Admin-Programm, um der
robots.txt
Inhalte hinzuzufügen.TIPZeigen Sie die automatisch generierterobots.txt
für Ihren Store unter<domain.your.project>/robots.txt
an. -
Verwenden Sie das Admin-Programm, um eine
sitemap.xml
-Datei zu generieren.IMPORTANTAufgrund des schreibgeschützten Dateisystems in Adobe Commerce in Cloud-Infrastrukturprojekten müssen Sie denpub/media
angeben, bevor Sie die Datei generieren. -
Verwenden Sie ein benutzerdefiniertes Fastly-VCL-Snippet für beide Dateien, um vom Stammverzeichnis Ihrer Site zum
pub/media/
-Speicherort umzuleiten:{ "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path ~ \"^/?sitemap.xml$\" ) { set req.url = \"pub/media/sitemap.xml\"; } else if (req.url.path ~ \"^/?robots.txt$\") { set req.url = \"pub/media/robots.txt\";}" }
-
Testen Sie die Umleitung, indem Sie die Dateien in einem Webbrowser anzeigen. Zum Beispiel
<domain.your.project>/robots.txt
und<domain.your.project>/sitemap.xml
. Stellen Sie sicher, dass Sie den Stammpfad verwenden, für den Sie die Umleitung konfiguriert haben, und nicht einen anderen Pfad.
Storefronts mit mehreren Sites
Mit einer einzigen Implementierung von Adobe Commerce in der Cloud-Infrastruktur können Sie mehrere Stores einrichten und ausführen. Siehe Einrichten mehrerer Websites oder Stores.
Die gleichen Best Practices für die Konfiguration der robots.txt
- und sitemap.xml
-Dateien für Storefronts mit einer Site gelten für Storefronts mit mehreren Sites, mit zwei wichtigen Unterschieden:
-
Stellen Sie sicher, dass die
robots.txt
- undsitemap.xml
-Dateinamen die Namen der entsprechenden Sites enthalten. Beispiel:domaineone_robots.txt
domaintwo_robots.txt
domainone_sitemap.xml
domaintwo_sitemap.xml
-
Verwenden Sie ein leicht geändertes benutzerdefiniertes Fastly-VCL-Fragment, um für beide Dateien in Ihren Sites vom Stammverzeichnis Ihrer Sites zum
pub/media
-Speicherort umzuleiten:{ "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path == \"/robots.txt\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_robots.txt\"; }} else if ( req.url.path == \"/sitemap.xml\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_sitemap.xml\"; }}" }
Adobe Commerce On-Premises
Verwenden Sie das Admin-Programm, um die robots.txt
- und sitemap.xml
-Dateien zu konfigurieren, damit Bots keine unnötigen Inhalte scannen und indizieren (siehe Suchmaschinenroboter).
/path/to/commerce/pub/media/
oder /path/to/commerce/media
, je nachdem, was für Ihre Installation geeignet ist.Sicherheit
Geben Sie den Administratorpfad nicht in Ihrer robots.txt
an. Das Offenlegen des Administratorpfads ist eine Schwachstelle für Website-Hacking und möglichen Datenverlust. Entfernen Sie den Administratorpfad aus der robots.txt
.
Schritte zum Bearbeiten der robots.txt
und Entfernen aller Einträge im Administratorpfad finden Sie unter Marketing-Benutzerhandbuch > SEO und Suche > Suchmaschinenroboter.