Indexação

O Adobe Experience Manager oferece uma maneira de manter um índice de todas as páginas publicadas em uma seção específica do site. Normalmente, isso é usado para criar listas, feeds e habilitar casos de uso de pesquisa e filtragem para suas páginas ou fragmentos de conteúdo.

O AEM mantém esse índice em uma planilha e oferece acesso a ele usando JSON. Consulte o documento Planilhas e JSON para obter mais informações.

Configuração de um índice de consulta inicial

Nesta seção, criaremos um índice de consulta na pasta raiz que indexará todos os documentos no back-end.

  1. Depois de configurar seu fstab.yaml com um ponto de montagem que aponta para o site do SharePoint ou para o Google Drive, vá para a pasta raiz.
  2. Dependendo do back-end, crie uma pasta de trabalho chamada query-index.xlsx para SharePoint ou uma planilha chamada query-index para Google Drive.
  3. Nessa planilha ou pasta de trabalho, crie uma planilha chamada raw_index.

Configuração das propriedades a serem adicionadas ao índice

  1. No seu query-index documento, adicione uma linha de cabeçalho e, na primeira coluna, adicione path como o nome do cabeçalho.
  2. Nas colunas a seguir da linha de cabeçalho, adicione todas as outras propriedades que precisam ser extraídas da página de HTML renderizado.

No exemplo a seguir no Google Drive, os campos extraídos são title, image, description, e lastModified.

As páginas são indexadas quando publicadas. Para remover páginas do índice, é necessário desfazer a publicação.

Para cenários simples sem definição de índice personalizada, as páginas que têm robots propriedade de metadados definida como noindex serão automaticamente omitidos da indexação pelo AEM. (Há alguns cenários especiais aqui. Para obter mais detalhes, consulte a seção Cenários especiais para robôs).

A tabela a seguir resume as propriedades que estão disponíveis e de onde na página do HTML elas são extraídas.

Nome
Descrição
author
Retorna o conteúdo da meta tag chamada author no head elemento.
title
Retorna o conteúdo de og:title metapropriedade na variável head elemento.
date
Retorna o conteúdo da meta tag chamada publication-date no head elemento.
image
Retorna o conteúdo de og:image metapropriedade na variável head elemento.
category
Retorna o conteúdo da meta tag chamada category no head elemento.
tags

Retorna o conteúdo da meta tag chamada article:tag no head elemento como uma matriz.

Consulte o documento Planilhas e JSON para obter mais informações sobre manipulação de array.

description
Retorna o conteúdo da meta tag chamada description no head elemento.
robots
Retorna o conteúdo da meta tag chamada robots no head elemento.
lastModified
Retorna o valor de Last-Modified cabeçalho de resposta para o documento.

Para cada outro cabeçalho adicionado, o indexador tentará localizar uma meta tag com um nome correspondente.

Ativar o índice

Para ativar seu índice, visualize a planilha usando o sidekick. Isso criará uma configuração de índice.

Verificando seu índice

O Admin Service tem um endpoint de API onde você pode verificar a representação de índice da sua página. Dado seu proprietário, repositório, ramificação e proprietário do GitHub e um caminho de recurso para uma página, seu endpoint é:

https://admin.hlx.page/index/<owner>/<repo>/<branch>/<path>

Você deve obter uma resposta JSON em que o nó de dados contém a representação de índice da página.

Depurando a configuração do índice

A CLI do AEM tem um recurso no qual ela imprimirá o registro do índice sempre que você alterar a configuração da consulta, o que ajuda a encontrar os seletores de CSS corretos:

$ aem up --print-index

Consulte a Documentação do GitHub da CLI do AEM para obter mais informações e assista a este vídeo para saber mais sobre este recurso.

Definição de mais configurações de índice

Você pode definir suas próprias configurações de índice personalizadas criando suas próprias helix-query.yaml. Isso permite que você tenha mais de uma configuração de índice na mesma helix-query.yaml, em que partes dos sites são indexadas em diferentes pastas de trabalho do Excel ou planilhas do Google. Consulte o documento Referência de indexação para obter mais informações.

Cenários especiais para robôs

Há algumas nuances em como as páginas são indexadas pelo AEM em conjunto com a configuração de indexação do seu site. Vamos analisá-los:

Nas 2 situações a seguir, definir robots para noindex nos metadados da página não impedir que seja indexado pelo AEM:

  • Você adicionou um robots coluna em query-index.xlsx
  • Você tem um helix-query.yaml no repositório do GitHub, ou seja, você definiu um definição de índice personalizado.

Recomendações

  1. Se você não tiver uma definição de índice personalizada, é recomendável não adicionar um robots para a folha de índice, a menos que você tenha um requisito para isso.
    Adicionando robots para sua folha de índice faria com que uma página fosse indexada pelo AEM, mesmo que ela tivesse robots metadados definidos como noindex.
  2. Se você tiver uma definição de índice personalizada, as páginas seriam indexadas pelo AEM independentemente da configuração robots para noindex nos metadados da página. Caso deseje impedir que isso aconteça, é possível usar filtros de planilha para omitir páginas de índice que tenham robots metadados definidos como noindex. Para obter mais detalhes, consulte a seção "Aplicação noindex configuração com definições de índice personalizadas" abaixo.

Aplicação da configuração "noindex" com definições de índice personalizadas

Se você tiver definido suas próprias definições de índice personalizadas no helix-query.yaml, definindo o robots propriedade para noindex O não é eficaz para impedir que as páginas sejam indexadas. A fim de aplicar a noindex nessas situações, faça o seguinte:

  1. Crie uma planilha com o nome "helix-default" no seu query-index.xlsx . Depois disso, seu query-index.xlsx a planilha deve ter duas planilhas “raw_index" e “helix-default". A variável “raw_index"A planilha está lá para ter todos os dados brutos indexados.
  2. Modificar seu personalizado helix-query.yaml (deve estar no repositório Github do projeto) e adicione o robots para que seja indexada.
  3. Agora, configure seu “helix-default" na guia query-index.xlsx planilha para ser preenchida automaticamente usando a fórmula do Excel que garante que todas as linhas em raw_index que tenham robots propriedade definida como noindex, não sejam copiados para o helix-default planilha. Isso pode ser feito usando uma fórmula do Excel como essa =FILTER(Table1,NOT(Table1[robots]="noindex"))
  4. Agora, a sua folha helix padrão tem apenas as linhas de raw_index que não têm robots propriedade definida como noindex.
  5. Publique as páginas que deseja indexar.
  6. Agora, se você buscar o índice como de costume, como: https://<branch>--<repo>-<org>.hlx.page/query-index.json, você só obteria dados de helix-default ou seja, entradas que não são explicitamente impedidas de serem indexadas robot propriedade definida como noindex.
recommendation-more-help
10a6ce9d-c5c5-48d9-8ce1-9797d2f0f3ec