Bästa tillvägagångssätt för att konfigurera webbcrawler

I den här artikeln beskrivs de bästa sätten att använda robots.txt och sitemap.xml filer i Adobe Commerce, inklusive konfiguration och säkerhet. De här filerna instruerar webbcrawlningar (oftast robotar för sökmotorer) hur du crawlar sidor på en webbplats. Om du konfigurerar dessa filer kan webbplatsens prestanda förbättras och sökmotoroptimeringen förbättras.

NOTE
De bästa sätten är att använda i projekt som endast använder den inbyggda Adobe Commerce Store. De gäller inte för Adobe Commerce-projekt som använder andra butikslösningar (till exempel Adobe Experience Manager, headless).

Berörda produkter och versioner

Alla versioner som stöds av:

  • Adobe Commerce i molninfrastruktur
  • Adobe Commerce lokalt

Adobe Commerce i molninfrastruktur

Ett Adobe Commerce-standardprojekt innehåller en hierarki som innehåller en webbplats-, butiks- och butiksvy. För mer komplexa implementeringar kan du skapa ytterligare webbplatser, butiker och butiksvyer för en flera platser storefront.

Butiker för en webbplats

Följ dessa standarder när du konfigurerar robots.txt och sitemap.xml filer för butiker på en plats:

  • Se till att ditt projekt använder ece-tools version 2002.0.12 eller senare.

  • Använd programmet Admin för att lägga till innehåll i robots.txt -fil.

    note tip
    TIP
    Visa den autogenererade robots.txt fil för din butik på <domain.your.project>/robots.txt.
  • Använd administratörsprogrammet för att generera en sitemap.xml -fil.

    note important
    IMPORTANT
    På grund av det skrivskyddade filsystemet i Adobe Commerce för molninfrastrukturprojekt måste du ange pub/media sökväg innan filen genereras.
  • Använd ett anpassat fast VCL-fragment för att omdirigera från platsens rot till pub/media/ plats för båda filerna:

    code language-vcl
    {
      "name": "sitemaprobots_rewrite",
      "dynamic": "0",
      "type": "recv",
      "priority": "90",
      "content": "if ( req.url.path ~ \"^/?sitemap.xml$\" ) { set req.url = \"pub/media/sitemap.xml\"; } else if (req.url.path ~ \"^/?robots.txt$\") { set req.url = \"pub/media/robots.txt\";}"
    }
    
  • Testa omdirigeringen genom att visa filerna i en webbläsare. Till exempel: <domain.your.project>/robots.txt och <domain.your.project>/sitemap.xml. Se till att du använder rotsökvägen som du konfigurerade omdirigeringen för och inte en annan sökväg.

INFO
Se Lägg till webbplatskarta och sökrobotar för detaljerade anvisningar.

Lagringsplatser för flera platser

Du kan konfigurera och köra flera butiker med en enda implementering av Adobe Commerce i molninfrastrukturen. Se Konfigurera flera webbplatser eller butiker.

Samma metodtips för att konfigurera robots.txt och sitemap.xml filer för butiker för en webbplats gäller för butiker med flera platser med två viktiga skillnader:

  • Se till att robots.txt och sitemap.xml filnamnen innehåller namnen på motsvarande platser. Exempel:

    • domaineone_robots.txt
    • domaintwo_robots.txt
    • domainone_sitemap.xml
    • domaintwo_sitemap.xml
  • Använd ett något modifierat anpassat VCL-fragment för att dirigera om från platsens rot till pub/media plats för båda filerna på dina platser:

    code language-vcl
    {
      "name": "sitemaprobots_rewrite",
      "dynamic": "0",
      "type": "recv",
      "priority": "90",
      "content": "if ( req.url.path == \"/robots.txt\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_robots.txt\"; }} else if ( req.url.path == \"/sitemap.xml\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) {  set req.url = \"pub/media/\" re.group.1 \"_sitemap.xml\"; }}"
    }
    

Adobe Commerce lokalt

Konfigurera robots.txt och sitemap.xml filer för att förhindra att bottnar skannar och indexerar onödigt innehåll (se Sökmotorrobotar).

TIP
För lokala distributioner, där du skriver filerna beror på hur du har installerat Adobe Commerce. Skriv filerna till /path/to/commerce/pub/media/ eller /path/to/commerce/media, beroende på vad som gäller för installationen.

Säkerhet

Visa inte din administratörssökväg i din robots.txt -fil. Att ha administratörssökvägen exponerad är en sårbarhet för webbplatshackning och potentiell förlust av data. Ta bort Admin-sökvägen från robots.txt -fil.

För steg redigerar du robots.txt och ta bort alla poster i administratörssökvägen finns i Marketing User Guide > SEO and Search > Search Engine Robots.

TIP
Om du behöver hjälp, skicka en Adobe Commerce-supportanmälan.

Ytterligare information

recommendation-more-help
754cbbf3-3a3c-4af3-b6ce-9d34390f3a60