Prácticas recomendadas para configurar rastreadores web
Este artículo proporciona prácticas recomendadas para usar archivos de robots.txt
y sitemap.xml
en Adobe Commerce, incluida la configuración y la seguridad. Estos archivos indican a los rastreadores web (generalmente robots de motores de búsqueda) cómo rastrear páginas en un sitio web. La configuración de estos archivos puede mejorar el rendimiento del sitio y la optimización de los motores de búsqueda.
Productos y versiones afectados
Todas las versiones compatibles de:
- Adobe Commerce en la infraestructura en la nube
- Adobe Commerce local
Adobe Commerce en la infraestructura en la nube
Un proyecto de Adobe Commerce predeterminado contiene una jerarquía que incluye un solo sitio web, tienda y vista de tienda. Para implementaciones más complejas, puedes crear sitios web, tiendas y vistas de tiendas adicionales para una tienda de varios sitios.
Tiendas de un solo sitio
Siga estas prácticas recomendadas al configurar los archivos de robots.txt
y sitemap.xml
para tiendas de un solo sitio:
-
Asegúrese de que el proyecto esté usando
ece-tools
versión 2002.0.12 o posterior. -
Utilice la aplicación Admin para agregar contenido al archivo
robots.txt
.note tip TIP Vea el archivo robots.txt
generado automáticamente para su tienda en<domain.your.project>/robots.txt
. -
Use la aplicación Admin para generar un archivo de
sitemap.xml
.note important IMPORTANT Debido al sistema de archivos de solo lectura de Adobe Commerce en los proyectos de infraestructura en la nube, debe especificar la ruta de acceso pub/media
antes de generar el archivo. -
Utilice un fragmento personalizado de VCL de Fastly para redirigir desde la raíz del sitio a la ubicación
pub/media/
para ambos archivos:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path ~ \"^/?sitemap.xml$\" ) { set req.url = \"pub/media/sitemap.xml\"; } else if (req.url.path ~ \"^/?robots.txt$\") { set req.url = \"pub/media/robots.txt\";}" }
-
Pruebe el redireccionamiento viendo los archivos en un explorador web. Por ejemplo,
<domain.your.project>/robots.txt
y<domain.your.project>/sitemap.xml
. Asegúrese de utilizar la ruta raíz para la que configuró el redireccionamiento y no una ruta diferente.
Tiendas de varios sitios
Puede configurar y ejecutar varias tiendas con una sola implementación de Adobe Commerce en la infraestructura en la nube. Ver Configurar varios sitios web o tiendas.
Las mismas prácticas recomendadas para configurar los archivos de robots.txt
y sitemap.xml
para tiendas de un solo sitio se aplican a tiendas de varios sitios con dos diferencias importantes:
-
Asegúrese de que los nombres de archivo
robots.txt
ysitemap.xml
contengan los nombres de los sitios correspondientes. Por ejemplo:domaineone_robots.txt
domaintwo_robots.txt
domainone_sitemap.xml
domaintwo_sitemap.xml
-
Utilice un fragmento de VCL personalizado ligeramente modificado para redirigir desde la raíz de sus sitios a la ubicación
pub/media
para ambos archivos en los sitios:code language-vcl { "name": "sitemaprobots_rewrite", "dynamic": "0", "type": "recv", "priority": "90", "content": "if ( req.url.path == \"/robots.txt\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_robots.txt\"; }} else if ( req.url.path == \"/sitemap.xml\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_sitemap.xml\"; }}" }
Adobe Commerce local
Use la aplicación Admin para configurar los archivos de robots.txt
y sitemap.xml
a fin de evitar que los bots analicen e indexen contenido innecesario (consulte Robots de motores de búsqueda).
/path/to/commerce/pub/media/
o /path/to/commerce/media
, lo que sea adecuado para la instalación.Seguridad
No exponga la ruta de acceso de administrador en el archivo robots.txt
. Exponer la ruta del administrador es una vulnerabilidad para el pirateo del sitio y la posible pérdida de datos. Quitar la ruta de acceso de administración del archivo robots.txt
.
Para ver los pasos para editar el archivo robots.txt
y eliminar todas las entradas de la ruta de administración, consulte Guía del usuario de marketing > SEO y búsqueda > Robots del motor de búsqueda.