Best practice per la configurazione dei crawler web
Questo articolo fornisce le best practice per l'utilizzo di robots.txt
e sitemap.xml
file in Adobe Commerce, incluse la configurazione e la sicurezza. Questi file forniscono istruzioni ai crawler (in genere robot di motori di ricerca) su come eseguire la ricerca per indicizzazione delle pagine di un sito Web. La configurazione di questi file può migliorare le prestazioni del sito e l’ottimizzazione dei motori di ricerca.
Prodotti e versioni interessati
Tutte le versioni supportate di:
- Adobe Systems Commerce su infrastruttura cloud
- Adobe Systems Commerce locale
Adobe Systems Commerce su infrastruttura cloud
Un progetto Adobe Systems Commerce predefinito contiene una gerarchia che include un singolo sito Web, una singola visualizzazione store e store. Per implementazioni più complesse, è possibile creare siti Web, archivi e visualizzazioni store aggiuntive per una vetrina multisito .
Vetrine di singoli siti
Seguire le procedure consigliate riportate di seguito durante la configurazione dei file robots.txt
e sitemap.xml
per gli storefront a sito singolo:
-
Verificare che il progetto utilizzi
ece-tools
versione 2002.0.12 o successiva. -
Utilizzare l'applicazione Admin per aggiungere contenuto al file
robots.txt
.note tip TIP Visualizza il file generato robots.txt
automaticamente per il store in .<domain.your.project>/robots.txt
-
Utilizza l'applicazione amministrazione per generare un
sitemap.xml
file.note important IMPORTANT A causa del file system di sola lettura in Adobe Systems Commerce nei progetti infrastruttura cloud, è necessario specificare il pub/media
percorso prima di generare il file. -
Utilizza uno snippet Fastly VCL personalizzato per reindirizzare dalla radice del tuo sito alla posizione di entrambi i
pub/media/
file:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path ~ \"^/?sitemap.xml$\" ) { set req.url = \"pub/media/sitemap.xml\"; } else if (req.url.path ~ \"^/?robots.txt$\") { set req.url = \"pub/media/robots.txt\";}" }
-
Verificare il reindirizzare visualizzando i file in un browser Web. Ad esempio,
<domain.your.project>/robots.txt
e<domain.your.project>/sitemap.xml
. Assicurati di utilizzare il percorso radice per il quale hai configurato il reindirizzare e non un percorso diverso.
Vetrine di negozi multisito
Puoi configurare ed eseguire diversi store con una singola implementazione di Adobe Commerce sull’infrastruttura cloud. Vedere Configurare più siti Web o store.
Le stesse procedure consigliate per la configurazione dei file robots.txt
e sitemap.xml
per storefront a sito singolo si applicano a storefront multisito con due importanti differenze:
-
Assicurarsi che i
robots.txt
nomi dei file esitemap.xml
contengano i nomi dei siti corrispondenti. Ad esempio:domaineone_robots.txt
domaintwo_robots.txt
domainone_sitemap.xml
domaintwo_sitemap.xml
-
Utilizza uno snippet Fastly VCL personalizzato leggermente modificato per reindirizzare dalla radice dei tuoi siti alla
pub/media
posizione di entrambi i file nei tuoi siti:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path == \"/robots.txt\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_robots.txt\"; }} else if ( req.url.path == \"/sitemap.xml\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_sitemap.xml\"; }}" }
Adobe Systems Commerce locale
Utilizza l'applicazione Admin per configurare i file AND sitemap.xml
in modo da impedire ai bot di eseguire la scansione e l'indicizzazione robots.txt
di contenuto non necessari (consulta Search Engine Robots).
/path/to/commerce/pub/media/
o /path/to/commerce/media
, a seconda di quale sia giusto per l'installazione.Sicurezza
Non esporre il percorso amministratore nel file robots.txt
. L’esposizione del percorso di amministrazione comporta una vulnerabilità ad attacchi di hacker al sito e potenziale perdita di dati. Rimuovere il percorso di amministrazione dal file robots.txt
.
Per i passaggi per modificare il file robots.txt
e rimuovere tutte le voci del percorso amministratore, vedere Guida utente marketing > SEO e Ricerca > Robot motore di ricerca.