La configurazione tika non funziona in AEMaaCS-Assets

In AEMaaCS Assets, le configurazioni tika personalizzate, ad esempio l’esclusione dei PDF, vengono ignorate nell’ambiente cloud che, per impostazione predefinita, è preconfigurato. Per risolvere il problema, rimuovere la clausola "aggregate" dall'indice damAssetLucene o eliminare il nodo /jcr:content/renditions/cqdam.text.txt dopo l'elaborazione.

Descrizione description

Ambiente

  • Prodotto: Adobe Experience Manager as a Cloud Service (AEMaaCS) - Assets
  • Istanza: Sviluppo

Problema/Sintomi

  • Un indice Lucene personalizzato include proprietà specifiche e una configurazione Apache Tika personalizzata.
  • La configurazione Tika esclude alcuni tipi di risorse (ad esempio, PDF) dall’indicizzazione e dalla ricerca.
  • La configurazione funziona correttamente nell’ambiente locale.
  • L’ambiente cloud ignora la configurazione tika personalizzata.
  • Il sistema utilizza per impostazione predefinita le impostazioni tika predefinite (preconfigurate).
  • I messaggi di registro confermano che viene caricata la configurazione Tika predefinita invece di quella personalizzata.

Risoluzione resolution

Per risolvere il problema, effettua le seguenti operazioni:

  • Modificare la definizione dell’indice DAM

    1. Apri la definizione dell’indice damAssetLucene. Per ulteriori informazioni, consulta la documentazione di AEM sulla ricerca e l'indicizzazione dei contenuti.
    2. Rimuovere la clausola di aggregazione che esegue il targeting del percorso della rappresentazione del testo (/jcr:content/renditions/cqdam.text.txt) per escludere il testo estratto dalla ricerca full-text.
  • Implementare un flusso di lavoro di post-elaborazione

    1. Crea un flusso di lavoro AEM personalizzato che viene eseguito dopo che il servizio Asset Compute ha completato l’elaborazione.

    2. Nel workflow:

      • Aggiungere un passaggio per eliminare il nodo /jcr:content/renditions/cqdam.text.txt.
      • In alternativa, sostituisci il nodo con un file vuoto per evitare che venga indicizzato.
    3. Distribuisci il flusso di lavoro utilizzando Cloud Manager e testalo per confermare che l’indicizzazione del testo indesiderata è stata eliminata.

Note:

  • In SDK locale/AEM, la configurazione Tika influenza direttamente il modo in cui i contenuti binari (ad esempio, PDF, PNG, MP4) vengono indicizzati. L’indicizzazione si verifica nello stesso runtime utilizzando le configurazioni Tika definite.
  • In AEM as a Cloud Service, il servizio Asset Compute gestisce l’estrazione di testo e metadati dai dati binari. I dati estratti vengono quindi forniti all’indice DAM. La configurazione OSGi di Tika non influenza questo processo.
  • Non puoi sovrascrivere o personalizzare l’estrazione full-text dei binari nel Cloud utilizzando le configurazioni Tika locali. Le impostazioni di Tika influiscono solo sulle rappresentazioni locali in AEM SDK e su alcune impostazioni locali legacy.

Lettura delle letture

Personalizzazione del flusso di lavoro di post-elaborazione nelle esercitazioni di AEM Assets.

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f