Best practice per la configurazione dei crawler web
Questo articolo fornisce le best practice per l'utilizzo di robots.txt
e sitemap.xml
file in Adobe Commerce, incluse la configurazione e la sicurezza. Questi file forniscono istruzioni ai crawler (in genere robot di motori di ricerca) su come eseguire la ricerca per indicizzazione delle pagine di un sito Web. La configurazione di questi file può migliorare le prestazioni del sito e l’ottimizzazione dei motori di ricerca.
Prodotti e versioni interessati
Tutte le versioni supportate di:
- Adobe Commerce sull’infrastruttura cloud
- Adobe Commerce on-premise
Adobe Commerce sull’infrastruttura cloud
Un progetto Adobe Commerce predefinito contiene una gerarchia che include una singola vista per siti web, store e store. Per implementazioni più complesse, puoi creare siti web, store e viste store aggiuntivi per una vetrina multisito.
Vetrine di singoli siti
Seguire le procedure consigliate riportate di seguito durante la configurazione dei file robots.txt
e sitemap.xml
per gli storefront a sito singolo:
-
Verificare che il progetto utilizzi
ece-tools
versione 2002.0.12 o successiva. -
Utilizzare l'applicazione Admin per aggiungere contenuto al file
robots.txt
.note tip TIP Visualizza il file robots.txt
generato automaticamente per il tuo archivio in<domain.your.project>/robots.txt
. -
Utilizzare l'applicazione Admin per generare un file
sitemap.xml
.note important IMPORTANT A causa del file system di sola lettura su Adobe Commerce nei progetti di infrastruttura cloud, è necessario specificare il percorso pub/media
prima di generare il file. -
Utilizzare uno snippet Fastly VCL personalizzato per reindirizzare dalla directory principale del sito alla posizione
pub/media/
per entrambi i file:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path ~ \"^/?sitemap.xml$\" ) { set req.url = \"pub/media/sitemap.xml\"; } else if (req.url.path ~ \"^/?robots.txt$\") { set req.url = \"pub/media/robots.txt\";}" }
-
Verifica il reindirizzamento visualizzando i file in un browser web. Ad esempio,
<domain.your.project>/robots.txt
e<domain.your.project>/sitemap.xml
. Assicurati di utilizzare il percorso principale per il quale hai configurato il reindirizzamento e non un percorso diverso.
Vetrine di negozi multisito
Puoi configurare ed eseguire diversi store con una singola implementazione di Adobe Commerce sull’infrastruttura cloud. Vedere Configurare più siti Web o store.
Le stesse procedure consigliate per la configurazione dei file robots.txt
e sitemap.xml
per storefront a sito singolo si applicano a storefront multisito con due importanti differenze:
-
Verificare che i nomi dei file
robots.txt
esitemap.xml
contengano i nomi dei siti corrispondenti. Ad esempio:domaineone_robots.txt
domaintwo_robots.txt
domainone_sitemap.xml
domaintwo_sitemap.xml
-
Utilizza uno snippet Fastly VCL personalizzato leggermente modificato per reindirizzare dalla directory principale dei siti alla posizione
pub/media
per entrambi i file nei siti:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path == \"/robots.txt\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_robots.txt\"; }} else if ( req.url.path == \"/sitemap.xml\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_sitemap.xml\"; }}" }
Adobe Commerce on-premise
Utilizzare l'applicazione Admin per configurare i file robots.txt
e sitemap.xml
per impedire ai bot di eseguire la scansione e l'indicizzazione di contenuto non necessario (vedere Robot motore di ricerca).
/path/to/commerce/pub/media/
o /path/to/commerce/media
, a seconda di quale sia la scelta corretta per l'installazione.Sicurezza
Non esporre il percorso amministratore nel file robots.txt
. L’esposizione del percorso di amministrazione comporta una vulnerabilità ad attacchi di hacker al sito e potenziale perdita di dati. Rimuovere il percorso di amministrazione dal file robots.txt
.
Per i passaggi per modificare il file robots.txt
e rimuovere tutte le voci del percorso amministratore, vedere Guida utente marketing > SEO e Ricerca > Robot motore di ricerca.