Best practice per la configurazione dei crawler web

Questo articolo fornisce le best practice per l'utilizzo di robots.txt e sitemap.xml file in Adobe Commerce, incluse la configurazione e la sicurezza. Questi file forniscono istruzioni ai crawler (in genere robot di motori di ricerca) su come eseguire la ricerca per indicizzazione delle pagine di un sito Web. La configurazione di questi file può migliorare le prestazioni del sito e l’ottimizzazione dei motori di ricerca.

NOTE
Queste best practice sono valide solo per i progetti che utilizzano la vetrina nativa di Adobe Commerce. Non si applicano ai progetti Adobe Commerce che utilizzano altre soluzioni di vetrina (ad esempio, Adobe Experience Manager, headless).

Prodotti e versioni interessati

Tutte le versioni supportate di:

  • Adobe Commerce sull’infrastruttura cloud
  • Adobe Commerce on-premise

Adobe Commerce sull’infrastruttura cloud

Un progetto Adobe Commerce predefinito contiene una gerarchia che include una singola vista per siti web, store e store. Per implementazioni più complesse, puoi creare siti web, store e viste store aggiuntivi per una vetrina multisito.

Vetrine di singoli siti

Seguire le procedure consigliate riportate di seguito durante la configurazione dei file robots.txt e sitemap.xml per gli storefront a sito singolo:

  • Verificare che il progetto utilizzi ece-tools versione 2002.0.12 o successiva.

  • Utilizzare l'applicazione Admin per aggiungere contenuto al file robots.txt.

    note tip
    TIP
    Visualizza il file robots.txt generato automaticamente per il tuo archivio in <domain.your.project>/robots.txt.
  • Utilizzare l'applicazione Admin per generare un file sitemap.xml.

    note important
    IMPORTANT
    A causa del file system di sola lettura su Adobe Commerce nei progetti di infrastruttura cloud, è necessario specificare il percorso pub/media prima di generare il file.
  • Utilizzare uno snippet Fastly VCL personalizzato per reindirizzare dalla directory principale del sito alla posizione pub/media/ per entrambi i file:

    code language-vcl
    {
      "name": "sitemaprobots_rewrite",
      "dynamic": "0",
      "type": "recv",
      "priority": "90",
      "content": "if ( req.url.path ~ \"^/?sitemap.xml$\" ) { set req.url = \"pub/media/sitemap.xml\"; } else if (req.url.path ~ \"^/?robots.txt$\") { set req.url = \"pub/media/robots.txt\";}"
    }
    
  • Verifica il reindirizzamento visualizzando i file in un browser web. Ad esempio, <domain.your.project>/robots.txt e <domain.your.project>/sitemap.xml. Assicurati di utilizzare il percorso principale per il quale hai configurato il reindirizzamento e non un percorso diverso.

INFO
Per istruzioni dettagliate, vedere Aggiungere una mappa del sito e i robot dei motori di ricerca.

Vetrine di negozi multisito

Puoi configurare ed eseguire diversi store con una singola implementazione di Adobe Commerce sull’infrastruttura cloud. Vedere Configurare più siti Web o store.

Le stesse procedure consigliate per la configurazione dei file robots.txt e sitemap.xml per storefront a sito singolo si applicano a storefront multisito con due importanti differenze:

  • Verificare che i nomi dei file robots.txt e sitemap.xml contengano i nomi dei siti corrispondenti. Ad esempio:

    • domaineone_robots.txt
    • domaintwo_robots.txt
    • domainone_sitemap.xml
    • domaintwo_sitemap.xml
  • Utilizza uno snippet Fastly VCL personalizzato leggermente modificato per reindirizzare dalla directory principale dei siti alla posizione pub/media per entrambi i file nei siti:

    code language-vcl
    {
      "name": "sitemaprobots_rewrite",
      "dynamic": "0",
      "type": "recv",
      "priority": "90",
      "content": "if ( req.url.path == \"/robots.txt\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_robots.txt\"; }} else if ( req.url.path == \"/sitemap.xml\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) {  set req.url = \"pub/media/\" re.group.1 \"_sitemap.xml\"; }}"
    }
    

Adobe Commerce on-premise

Utilizzare l'applicazione Admin per configurare i file robots.txt e sitemap.xml per impedire ai bot di eseguire la scansione e l'indicizzazione di contenuto non necessario (vedere Robot motore di ricerca).

TIP
Per le distribuzioni locali, la posizione in cui vengono scritti i file dipende da come è stato installato Adobe Commerce. Scrivere i file in /path/to/commerce/pub/media/ o /path/to/commerce/media, a seconda di quale sia la scelta corretta per l'installazione.

Sicurezza

Non esporre il percorso amministratore nel file robots.txt. L’esposizione del percorso di amministrazione comporta una vulnerabilità ad attacchi di hacker al sito e potenziale perdita di dati. Rimuovere il percorso di amministrazione dal file robots.txt.

Per i passaggi per modificare il file robots.txt e rimuovere tutte le voci del percorso amministratore, vedere Guida utente marketing > SEO e Ricerca > Robot motore di ricerca.

TIP
Se hai bisogno di assistenza, invia un ticket di supporto Adobe Commerce.

Informazioni aggiuntive

recommendation-more-help
754cbbf3-3a3c-4af3-b6ce-9d34390f3a60