Indexación
Adobe Experience Manager ofrece una forma de mantener un índice de todas las páginas publicadas en una sección concreta del sitio web. Esto se utiliza comúnmente para crear listas y fuentes, y habilitar casos de uso de búsqueda y filtrado para sus páginas o fragmentos de contenido.
AEM mantiene este índice en una hoja de cálculo y ofrece acceso a él mediante JSON. Consulte el documento Hojas de cálculo y JSON para obtener más información.
Configuración de un índice de consulta inicial
En esta sección crearemos un índice de consulta en la carpeta raíz que indexará todos los documentos del servidor.
- Después de configurar su
fstab.yaml
con un punto de montaje que apunte a su sitio de SharePoint o Google Drive, vaya a la carpeta raíz. - Según el backend, cree un libro con el nombre
query-index.xlsx
para SharePoint o una hoja de cálculo denominadaquery-index
para Google Drive. - En esa hoja de cálculo o libro, cree una hoja denominada
raw_index
.
Configuración de propiedades para añadirlas al índice
- En su
query-index
documento, añada una línea de encabezado y, en la primera columna, añadapath
como nombre del encabezado. - En las siguientes columnas de la línea del encabezado, añada todas las demás propiedades que necesite extraídas de la página de HTML procesada.
En el siguiente ejemplo de Google Drive, los campos extraídos son title
, image
, description
, y lastModified
.
Las páginas se indexan cuando se publican. Para eliminar páginas del índice, se debe cancelar su publicación.
Para escenarios simples sin definición de índice personalizada, las páginas que tienen robots
propiedad de metadatos establecida en noindex
AEM se omitirá automáticamente de la indexación por parte de los. (Aquí hay algunos escenarios especiales; para obtener más información, consulte la sección Escenarios especiales para robots).
La siguiente tabla resume las propiedades disponibles y de dónde se extraen en la página del HTML.
Por cada otro encabezado agregado, el indexador intentará encontrar una metaetiqueta con el nombre correspondiente.
Activar el índice
Para activar el índice, previsualice la hoja de cálculo mediante la barra de tareas. Esto creará una configuración de índice.
Comprobación del índice
El servicio de administración tiene un punto final de API donde puede comprobar la representación del índice de la página. Dado el propietario de GitHub, el repositorio, la rama y el propietario, y una ruta de recurso a una página, su punto final es:
https://admin.hlx.page/index/<owner>/<repo>/<branch>/<path>
Debe obtener una respuesta JSON en la que el nodo de datos contenga la representación de índice de la página.
Depuración de la configuración del índice
AEM La CLI de la tiene una función en la que imprime el registro de índice cada vez que cambia la configuración de la consulta, lo que le ayuda a encontrar los selectores CSS correctos:
$ aem up --print-index
Consulte la AEM Documentación de GitHub sobre CLI para obtener más información y ver esto video para obtener más información sobre esta función.
Configuración de más configuraciones de índice
Puede definir sus propias configuraciones de índice personalizadas creando las suyas helix-query.yaml.
Esto le permite tener más de una configuración de índice en la misma helix-query.yaml
, donde partes de los sitios se indizan en diferentes libros de Excel u hojas de cálculo de Google. Ver el documento Referencia de indexación para obtener más información.
Escenarios especiales para robots
AEM Hay algunos matices en la forma en que las páginas se indexan por el recurso de la lista de distribución, junto con la configuración de indexación para su sitio. Veamos lo que ocurre con ellos:
En las dos situaciones siguientes, configurar robots
hasta noindex
en la página, los metadatos no AEM evite que se indexe mediante el método de la siguiente manera:
- Ha añadido una
robots
columna enquery-index.xlsx
- Tiene un
helix-query.yaml
en su repositorio de Github, es decir, ha definido un definición de índice personalizada.
Recomendaciones
- Si no tiene una definición de índice personalizada, se recomienda no añada un
robots
a la hoja de índice, a menos que tenga algún requisito para hacerlo.
Agregandorobots
AEM a la hoja de índice provocaría que una página se indexara por la hoja de índice, aunque se hayarobots
metadatos establecidos ennoindex.
- Si tiene una definición de índice personalizada AEM , las páginas se indexarían por el número de páginas que se seleccione, independientemente de la configuración
robots
hastanoindex
en la página metadatos. Si desea evitar que esto ocurra, puede utilizar filtros de hoja de cálculo para omitir páginas del índice que tenganrobots
metadatos establecidos ennoindex
. Para obtener más información, consulte la sección titulada "Forzosonoindex
configuración con definiciones de índice personalizadas" a continuación.
Aplicar la configuración "noindex" con definiciones de índice personalizadas
Si ha definido sus propias definiciones de índice personalizadas en helix-query.yaml
, configurando la variable robots
propiedad a noindex
no es eficaz para evitar que las páginas se indexen. Para hacer cumplir noindex
Si la configuración es de este tipo, haga lo siguiente:
- Cree una hoja con el nombre
helix-default
" en suquery-index.xlsx
. Después de esto, suquery-index.xlsx
la hoja de cálculo debe tener 2 hojas“raw_index
" y“helix-default
". El“raw_index
La hoja " está ahí para tener todos los datos indexados sin procesar. - Modifique el personalizado
helix-query.yaml
(debe estar en el repositorio de Github del proyecto) y agregue la variablerobots
para que se indexe. - Ahora configure su
“helix-default
" en laquery-index.xlsx
para que se rellene automáticamente con la fórmula de Excel, que garantiza que todas las filas deraw_index
que tienenrobots
propiedad establecida comonoindex
, no se copien en elhelix-default
hoja. Esto se puede hacer con una fórmula de Excel como esta=FILTER(Table1,NOT(Table1[robots]="noindex"))
- Ahora, la hoja hélice-predeterminada sólo tiene las filas de
raw_index
que no tienenrobots
propiedad establecida ennoindex
. - Asegúrese de publicar las páginas que desea indexar.
- Ahora, si recupera el índice de la forma habitual, como:
https://<branch>--<repo>-<org>.hlx.page/query-index.json
, solo obtendría datos dehelix-default
hoja, es decir, las entradas que no se evitan explícitamente que se indexen a través de larobot
propiedad establecida comonoindex
.