Bästa tillvägagångssätt för att konfigurera webbcrawler
Den här artikeln innehåller tips om hur du använder robots.txt
- och sitemap.xml
-filer i Adobe Commerce, inklusive konfiguration och säkerhet. De här filerna instruerar webbcrawlningar (oftast robotar för sökmotorer) hur du crawlar sidor på en webbplats. Om du konfigurerar dessa filer kan webbplatsens prestanda förbättras och sökmotoroptimeringen förbättras.
Berörda produkter och versioner
- Adobe Commerce i molninfrastruktur
- Adobe Commerce lokalt
Adobe Commerce i molninfrastruktur
Ett Adobe Commerce-standardprojekt innehåller en hierarki som innehåller en webbplats-, butiks- och butiksvy. För mer komplexa implementeringar kan du skapa ytterligare webbplatser, butiker och butiksvyer för en multi-site -butik.
Butiker för en webbplats
Följ dessa metodtips när du konfigurerar robots.txt
- och sitemap.xml
-filer för butiker med en plats:
-
Kontrollera att ditt projekt använder
ece-tools
version 2002.0.12 eller senare. -
Använd administratörsprogrammet för att lägga till innehåll i filen
robots.txt
.note tip TIP Visa den automatiskt genererade robots.txt
-filen för din butik på<domain.your.project>/robots.txt
. -
Använd administratörsprogrammet för att generera en
sitemap.xml
-fil.note important IMPORTANT På grund av det skrivskyddade filsystemet på Adobe Commerce i molninfrastrukturprojekt måste du ange sökvägen pub/media
innan du genererar filen. -
Använd ett anpassat fast VCL-fragment för att omdirigera från platsens rot till platsen
pub/media/
för båda filerna:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path ~ \"^/?sitemap.xml$\" ) { set req.url = \"pub/media/sitemap.xml\"; } else if (req.url.path ~ \"^/?robots.txt$\") { set req.url = \"pub/media/robots.txt\";}" }
-
Testa omdirigeringen genom att visa filerna i en webbläsare. Till exempel
<domain.your.project>/robots.txt
och<domain.your.project>/sitemap.xml
. Se till att du använder rotsökvägen som du konfigurerade omdirigeringen för och inte en annan sökväg.
Lagringsplatser för flera platser
Du kan konfigurera och köra flera butiker med en enda implementering av Adobe Commerce i molninfrastrukturen. Se Konfigurera flera webbplatser eller butiker.
Samma metodtips för att konfigurera robots.txt
- och sitemap.xml
-filer för butiker med en plats gäller för flera platslager med två viktiga skillnader:
-
Kontrollera att filnamnen
robots.txt
ochsitemap.xml
innehåller namnen på motsvarande platser. Exempel:domaineone_robots.txt
domaintwo_robots.txt
domainone_sitemap.xml
domaintwo_sitemap.xml
-
Använd ett något ändrat anpassat Fast VCL-fragment för att omdirigera från platsens rot till platsen
pub/media
för båda filerna på platserna:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path == \"/robots.txt\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_robots.txt\"; }} else if ( req.url.path == \"/sitemap.xml\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_sitemap.xml\"; }}" }
Adobe Commerce lokalt
Använd administratörsprogrammet för att konfigurera robots.txt
- och sitemap.xml
-filerna så att de inte kan skanna och indexera onödigt innehåll (se Sökmotorrotfiler).
/path/to/commerce/pub/media/
eller /path/to/commerce/media
, beroende på vilket som är rätt för din installation.Säkerhet
Visa inte din administratörssökväg i din robots.txt
-fil. Att ha administratörssökvägen exponerad är en sårbarhet för webbplatshackning och potentiell förlust av data. Ta bort administratörssökvägen från filen robots.txt
.
Anvisningar om hur du redigerar filen robots.txt
och tar bort alla poster i administratörssökvägen finns i Marknadsföringsanvändarhandbok > SEO och sökning > Sökmotorrobotar.