La configurazione tika non funziona in AEMaaCS-Assets
In AEMaaCS Assets, le configurazioni tika personalizzate, ad esempio l’esclusione dei PDF, vengono ignorate nell’ambiente cloud che, per impostazione predefinita, è preconfigurato. Per risolvere il problema, rimuovere la clausola "aggregate" dall'indice damAssetLucene o eliminare il nodo /jcr:content/renditions/cqdam.text.txt dopo l'elaborazione.
Descrizione description
Ambiente
- Prodotto: Adobe Experience Manager as a Cloud Service (AEMaaCS) - Assets
- Istanza: Sviluppo
Problema/Sintomi
- Un indice Lucene personalizzato include proprietà specifiche e una configurazione Apache Tika personalizzata.
- La configurazione Tika esclude alcuni tipi di risorse (ad esempio, PDF) dall’indicizzazione e dalla ricerca.
- La configurazione funziona correttamente nell’ambiente locale.
- L’ambiente cloud ignora la configurazione tika personalizzata.
- Il sistema utilizza per impostazione predefinita le impostazioni tika predefinite (preconfigurate).
- I messaggi di registro confermano che viene caricata la configurazione Tika predefinita invece di quella personalizzata.
Risoluzione resolution
Per risolvere il problema, effettua le seguenti operazioni:
-
Modificare la definizione dell’indice DAM
- Apri la definizione dell’indice damAssetLucene. Per ulteriori informazioni, consulta la documentazione di AEM sulla ricerca e l'indicizzazione dei contenuti.
- Rimuovere la clausola di aggregazione che esegue il targeting del percorso della rappresentazione del testo (
/jcr:content/renditions/cqdam.text.txt) per escludere il testo estratto dalla ricerca full-text.
-
Implementare un flusso di lavoro di post-elaborazione
-
Crea un flusso di lavoro AEM personalizzato che viene eseguito dopo che il servizio Asset Compute ha completato l’elaborazione.
-
Nel workflow:
- Aggiungere un passaggio per eliminare il nodo
/jcr:content/renditions/cqdam.text.txt. - In alternativa, sostituisci il nodo con un file vuoto per evitare che venga indicizzato.
- Aggiungere un passaggio per eliminare il nodo
-
Distribuisci il flusso di lavoro utilizzando Cloud Manager e testalo per confermare che l’indicizzazione del testo indesiderata è stata eliminata.
-
Note:
- In SDK locale/AEM, la configurazione Tika influenza direttamente il modo in cui i contenuti binari (ad esempio, PDF, PNG, MP4) vengono indicizzati. L’indicizzazione si verifica nello stesso runtime utilizzando le configurazioni Tika definite.
- In AEM as a Cloud Service, il servizio Asset Compute gestisce l’estrazione di testo e metadati dai dati binari. I dati estratti vengono quindi forniti all’indice DAM. La configurazione OSGi di Tika non influenza questo processo.
- Non puoi sovrascrivere o personalizzare l’estrazione full-text dei binari nel Cloud utilizzando le configurazioni Tika locali. Le impostazioni di Tika influiscono solo sulle rappresentazioni locali in AEM SDK e su alcune impostazioni locali legacy.
Lettura delle letture
Personalizzazione del flusso di lavoro di post-elaborazione nelle esercitazioni di AEM Assets.