Indicizzazione

Adobe Experience Manager offre un modo per mantenere un indice di tutte le pagine pubblicate in una particolare sezione del sito web. Viene comunemente utilizzato per creare elenchi, feed e abilitare casi d’uso di ricerca e filtro per pagine o frammenti di contenuto.

L’AEM mantiene questo indice in un foglio di calcolo e offre l’accesso ad esso utilizzando JSON. Consulta il documento Fogli di calcolo e JSON per ulteriori informazioni.

Impostazione di un indice di query iniziale

In questa sezione verrà creato un indice di query nella cartella principale che indicizzerà tutti i documenti nel backend.

  1. Dopo aver configurato fstab.yaml con un punto di montaggio che punta al tuo sito SharePoint o Google Drive, vai alla cartella principale.
  2. A seconda del backend, crea una cartella di lavoro denominata query-index.xlsx per SharePoint o un foglio di calcolo denominato query-index per Google Drive.
  3. In tale foglio di calcolo o cartella di lavoro creare un foglio denominato raw_index.

Impostazione delle proprietà da aggiungere all'indice

  1. Nel tuo query-index , aggiungere una riga di intestazione e nella prima colonna aggiungere path come nome dell’intestazione.
  2. Nelle seguenti colonne della riga di intestazione, aggiungi tutte le altre proprietà che devono essere estratte dalla pagina HTML di cui è stato eseguito il rendering.

Nell'esempio seguente in Google Drive, i campi estratti sono title, image, description, e lastModified.

Le pagine vengono indicizzate al momento della pubblicazione. Per rimuovere le pagine dall’indice, è necessario annullarne la pubblicazione.

Per scenari semplici senza definizione di indice personalizzata, le pagine che presentano robots proprietà metadati impostata su noindex verrà automaticamente omesso dall’indicizzazione da parte dell’AEM. (Qui ci sono alcuni scenari speciali; per ulteriori dettagli consulta la sezione Scenari speciali per robot).

La tabella seguente riepiloga le proprietà disponibili e la posizione nella pagina HTML in cui vengono estratte.

Nome
Descrizione
author
Restituisce il contenuto del tag meta denominato author nel head elemento.
title
Restituisce il contenuto della og:title proprietà meta in head elemento.
date
Restituisce il contenuto del tag meta denominato publication-date nel head elemento.
image
Restituisce il contenuto della og:image proprietà meta in head elemento.
category
Restituisce il contenuto del tag meta denominato category nel head elemento.
tags

Restituisce il contenuto del tag meta denominato article:tag nel head come array.

Consulta il documento Fogli di calcolo e JSON per ulteriori informazioni sulla gestione degli array.

description
Restituisce il contenuto del tag meta denominato description nel head elemento.
robots
Restituisce il contenuto del tag meta denominato robots nel head elemento.
lastModified
Restituisce il valore della proprietà Last-Modified intestazione di risposta per il documento.

Per ogni altra intestazione aggiunta, l’indicizzatore tenterà di trovare un tag meta con un nome corrispondente.

Attivare l’indice

Per attivare l’indice, visualizza l’anteprima del foglio di calcolo utilizzando la barra laterale. Verrà creata una configurazione indice.

Verifica dell’indice

Il servizio di amministrazione dispone di un endpoint API in cui è possibile controllare la rappresentazione dell’indice della pagina. Dato il proprietario, l’archivio, il ramo e il proprietario di GitHub e il percorso di risorsa di una pagina, il suo endpoint è:

https://admin.hlx.page/index/<owner>/<repo>/<branch>/<path>

Dovresti ottenere una risposta JSON in cui il nodo dati contiene la rappresentazione dell’indice della pagina.

Debug della configurazione dell’indice

L’interfaccia della riga di comando AEM dispone di una funzione che consente di stampare il record di indice ogni volta che si modifica la configurazione della query e facilita la ricerca dei selettori CSS corretti:

$ aem up --print-index

Consulta la sezione Documentazione GitHub CLI AEM per ulteriori informazioni, consulta video per ulteriori informazioni su questa funzione.

Configurazione di altre configurazioni dell’indice

Puoi definire configurazioni di indice personalizzate creando helix-query.yaml. Questo consente di avere più configurazioni di indice nello stesso helix-query.yaml: parti dei siti sono indicizzate in diverse cartelle di lavoro di Excel o fogli di calcolo di Google. Consulta il documento Riferimento indicizzazione per ulteriori informazioni.

Scenari speciali per robot

Esistono alcune sfumature sul modo in cui le pagine vengono indicizzate dall’AEM insieme alla configurazione dell’indicizzazione per il sito. Diamo un’occhiata a:

Nelle due situazioni seguenti, impostare robots a noindex sulla pagina i metadati non evitare che venga indicizzato dall’AEM:

  • Hai aggiunto un robots colonna in query-index.xlsx
  • Hai un helix-query.yaml nell’archivio Github, ovvero hai definito un’ definizione di indice personalizzato.

Consigli

  1. Se non disponi di una definizione di indice personalizzata, si consiglia di non aggiungi un robots nel foglio indice, a meno che non si disponga di un requisito.
    Aggiunta robots nel foglio indice causerebbe l'indicizzazione di una pagina da parte dell'AEM anche se potrebbe avere robots metadati impostati su noindex.
  2. Se disponi di una definizione di indice personalizzata, le pagine verrebbero indicizzate dall’AEM indipendentemente dall’impostazione robots a noindex nei metadati della pagina. Per evitare che ciò si verifichi, puoi utilizzare i filtri dei fogli di calcolo per omettere le pagine dall’indice che presentano robots metadati impostati su noindex. Per maggiori dettagli, consulta la sezione intitolata "Applicazione noindex configurazione con definizioni di indice personalizzate".

Applicazione della configurazione "noindex" con le definizioni di indice personalizzate

Se hai definito definizioni di indice personalizzate in helix-query.yaml, impostazione di robots proprietà a noindex non impedisce l’indicizzazione delle pagine. Al fine di applicare noindex in situazioni di questo tipo, effettua le seguenti operazioni:

  1. Crea un foglio denominato "helix-default" nel tuo query-index.xlsx . Dopo questo, il tuo query-index.xlsx il foglio di calcolo deve contenere 2 fogli “raw_index" e “helix-default". Il “raw_indexIl foglio " deve contenere tutti i dati indicizzati non elaborati.
  2. Modifica il tuo personalizzato helix-query.yaml deve trovarsi nell’archivio Github del progetto e aggiungere robots in modo che venga indicizzata.
  3. Ora configura il tuo “helix-default" foglio nel query-index.xlsx foglio di calcolo per essere compilati automaticamente utilizzando la formula di Excel che assicura che tutte le righe in raw_index che hanno robots proprietà impostata come noindex, non viene copiato nel helix-default foglio. Questa operazione può essere eseguita utilizzando una formula di Excel come questa =FILTER(Table1,NOT(Table1[robots]="noindex"))
  4. Ora il foglio predefinito a elica contiene solo le righe da raw_index che non hanno robots proprietà impostata su noindex.
  5. Assicurati di pubblicare le pagine da indicizzare.
  6. Ora, se recuperi l’indice come di consueto: https://<branch>--<repo>-<org>.hlx.page/query-index.json, si otterrebbero solo i dati da helix-default ovvero voci che non sono esplicitamente escluse dall'indicizzazione tramite il robot proprietà impostata come noindex.
recommendation-more-help
10a6ce9d-c5c5-48d9-8ce1-9797d2f0f3ec