Indexación

Last update: Thu May 16 2024 00:00:00 GMT+0000 (Coordinated Universal Time)

Temas:
Edge Delivery Services

Adobe Experience Manager ofrece una forma de mantener un índice de todas las páginas publicadas en una sección concreta del sitio web. Esto se utiliza comúnmente para crear listas y fuentes, y habilitar casos de uso de búsqueda y filtrado para sus páginas o fragmentos de contenido.

AEM mantiene este índice en una hoja de cálculo y ofrece acceso a él mediante JSON. Consulte el documento Hojas de cálculo y JSON para obtener más información.

Configuración de un índice de consulta inicial

En esta sección crearemos un índice de consulta en la carpeta raíz que indexará todos los documentos del servidor.

Después de configurar su fstab.yaml con un punto de montaje que apunte a su sitio de SharePoint o Google Drive, vaya a la carpeta raíz.
Según el backend, cree un libro con el nombre query-index.xlsx para SharePoint o una hoja de cálculo denominada query-index para Google Drive.
En esa hoja de cálculo o libro, cree una hoja denominada raw_index.

Configuración de propiedades para añadirlas al índice

En su query-index documento, añada una línea de encabezado y, en la primera columna, añada path como nombre del encabezado.
En las siguientes columnas de la línea del encabezado, añada todas las demás propiedades que necesite extraídas de la página de HTML procesada.

En el siguiente ejemplo de Google Drive, los campos extraídos son title, image, description, y lastModified.

Las páginas se indexan cuando se publican. Para eliminar páginas del índice, se debe cancelar su publicación.

Para escenarios simples sin definición de índice personalizada, las páginas que tienen robots propiedad de metadatos establecida en noindex AEM se omitirá automáticamente de la indexación por parte de los. (Aquí hay algunos escenarios especiales; para obtener más información, consulte la sección Escenarios especiales para robots).

La siguiente tabla resume las propiedades disponibles y de dónde se extraen en la página del HTML.

Nombre

Descripción

author

Devuelve el contenido de la metaetiqueta denominada author en el head Elemento.

title

Devuelve el contenido del og:title metapropiedad en el head Elemento.

date

Devuelve el contenido de la metaetiqueta denominada publication-date en el head Elemento.

image

Devuelve el contenido del og:image metapropiedad en el head Elemento.

category

Devuelve el contenido de la metaetiqueta denominada category en el head Elemento.

tags

Devuelve el contenido de la metaetiqueta denominada article:tag en el head como una matriz.

Ver el documento Hojas de cálculo y JSON para obtener más información sobre la administración de matrices.

description

Devuelve el contenido de la metaetiqueta denominada description en el head Elemento.

robots

Devuelve el contenido de la metaetiqueta denominada robots en el head Elemento.

lastModified

Devuelve el valor del Last-Modified encabezado de respuesta para el documento.

Por cada otro encabezado agregado, el indexador intentará encontrar una metaetiqueta con el nombre correspondiente.

Activar el índice

Para activar el índice, previsualice la hoja de cálculo mediante la barra de tareas. Esto creará una configuración de índice.

Comprobación del índice

El servicio de administración tiene un punto final de API donde puede comprobar la representación del índice de la página. Dado el propietario de GitHub, el repositorio, la rama y el propietario, y una ruta de recurso a una página, su punto final es:

https://admin.hlx.page/index/<owner>/<repo>/<branch>/<path>

Debe obtener una respuesta JSON en la que el nodo de datos contenga la representación de índice de la página.

Depuración de la configuración del índice

AEM La CLI de la tiene una función en la que imprime el registro de índice cada vez que cambia la configuración de la consulta, lo que le ayuda a encontrar los selectores CSS correctos:

$ aem up --print-index

Consulte la AEM Documentación de GitHub sobre CLI para obtener más información y ver esto video para obtener más información sobre esta función.

Configuración de más configuraciones de índice

Puede definir sus propias configuraciones de índice personalizadas creando las suyas helix-query.yaml. Esto le permite tener más de una configuración de índice en la misma helix-query.yaml, donde partes de los sitios se indizan en diferentes libros de Excel u hojas de cálculo de Google. Ver el documento Referencia de indexación para obtener más información.

Escenarios especiales para robots

AEM Hay algunos matices en la forma en que las páginas se indexan por el recurso de la lista de distribución, junto con la configuración de indexación para su sitio. Veamos lo que ocurre con ellos:

En las dos situaciones siguientes, configurar robots hasta noindex en la página, los metadatos no AEM evite que se indexe mediante el método de la siguiente manera:

Ha añadido una robots columna en query-index.xlsx
Tiene un helix-query.yaml en su repositorio de Github, es decir, ha definido un definición de índice personalizada.

Recomendaciones

Si no tiene una definición de índice personalizada, se recomienda no añada un robots a la hoja de índice, a menos que tenga algún requisito para hacerlo.
Agregando robots AEM a la hoja de índice provocaría que una página se indexara por la hoja de índice, aunque se haya robots metadatos establecidos en noindex.
Si tiene una definición de índice personalizada AEM , las páginas se indexarían por el número de páginas que se seleccione, independientemente de la configuración robots hasta noindex en la página metadatos. Si desea evitar que esto ocurra, puede utilizar filtros de hoja de cálculo para omitir páginas del índice que tengan robots metadatos establecidos en noindex. Para obtener más información, consulte la sección titulada "Forzoso noindex configuración con definiciones de índice personalizadas" a continuación.

Aplicar la configuración "noindex" con definiciones de índice personalizadas

Si ha definido sus propias definiciones de índice personalizadas en helix-query.yaml, configurando la variable robots propiedad a noindex no es eficaz para evitar que las páginas se indexen. Para hacer cumplir noindex Si la configuración es de este tipo, haga lo siguiente:

Cree una hoja con el nombrehelix-default" en su query-index.xlsx . Después de esto, su query-index.xlsx la hoja de cálculo debe tener 2 hojas “raw_index" y “helix-default". El “raw_indexLa hoja " está ahí para tener todos los datos indexados sin procesar.
Modifique el personalizado helix-query.yaml (debe estar en el repositorio de Github del proyecto) y agregue la variable robots para que se indexe.
Ahora configure su “helix-default" en la query-index.xlsx para que se rellene automáticamente con la fórmula de Excel, que garantiza que todas las filas de raw_index que tienen robots propiedad establecida como noindex, no se copien en el helix-default hoja. Esto se puede hacer con una fórmula de Excel como esta =FILTER(Table1,NOT(Table1[robots]="noindex"))
Ahora, la hoja hélice-predeterminada sólo tiene las filas de raw_index que no tienen robots propiedad establecida en noindex.
Asegúrese de publicar las páginas que desea indexar.
Ahora, si recupera el índice de la forma habitual, como: https://<branch>--<repo>-<org>.hlx.page/query-index.json, solo obtendría datos de helix-default hoja, es decir, las entradas que no se evitan explícitamente que se indexen a través de la robot propiedad establecida como noindex.

recommendation-more-help

10a6ce9d-c5c5-48d9-8ce1-9797d2f0f3ec