La configuration Tika ne fonctionne pas dans AEMaaCS-Assets.

Dans AEMaaCS Assets, les configurations Tika personnalisées, telles que l’exclusion des PDF, sont ignorées dans l’environnement cloud, qui utilise par défaut des paramètres prêts à l’emploi. Pour résoudre ce problème, supprimez la clause « aggregate » de l’index damAssetLucene ou supprimez le nœud /jcr:content/renditions/cqdam.text.txt après traitement.

Description description

Environnement

  • Produit : Adobe Experience Manager as a Cloud Service (AEMaaCS) - Assets
  • Instance : développement

Problème/Symptômes

  • Un index Lucene personnalisé inclut des propriétés spécifiques et une configuration Apache Tika personnalisée.
  • La configuration Tika exclut certains types de ressources (par exemple, les PDF) de l’indexation et de la recherche.
  • La configuration fonctionne correctement dans l’environnement local.
  • L’environnement cloud ignore la configuration personnalisée Tika.
  • Par défaut, le système utilise des paramètres Tika prêts à l’emploi.
  • Les messages du journal confirment que la configuration par défaut de Tika est en cours de chargement au lieu de la configuration personnalisée.

Résolution resolution

Pour résoudre ce problème, procédez comme suit :

  • Modification de la définition d’index DAM

    1. Ouvrez la définition d’index damAssetLucene. Pour plus d’informations, consultez la documentation d’AEM sur la recherche et l’indexation de contenu.
    2. Supprimez la clause d’agrégat qui cible le chemin de rendu de texte (/jcr:content/renditions/cqdam.text.txt) pour exclure le texte extrait de la recherche en texte intégral.
  • Mise en œuvre d’un workflow de post-traitement

    1. Créez un workflow AEM personnalisé qui s’exécute une fois que le service Asset Compute a terminé son traitement.

    2. Dans le workflow :

      • Ajoutez une étape pour supprimer le nœud /jcr:content/renditions/cqdam.text.txt.
      • Vous pouvez également remplacer le nœud par un fichier vide pour empêcher son indexation.
    3. Déployez le workflow à l’aide de Cloud Manager et testez-le pour confirmer que l’indexation de texte indésirable est supprimée.

Remarques :

  • Dans SDK local/AEM, la configuration Tika influence directement la manière dont le contenu binaire (par exemple, les PDF, les PNG, les MP4) est indexé. L’indexation se produit dans la même exécution à l’aide des configurations Tika définies.
  • Dans AEM as a Cloud Service, le service Asset Compute gère l’extraction de texte et de métadonnées à partir de fichiers binaires. Ces données extraites sont ensuite fournies à l’index de gestion des ressources numériques. La configuration OSGi de Tika n’influence pas ce processus.
  • Vous ne pouvez pas remplacer ou personnaliser l’extraction de texte intégral pour les fichiers binaires dans le cloud à l’aide des configurations Tika locales. Les paramètres de Tika n’affectent que les rendus locaux dans AEM SDK et certaines configurations On-Prem héritées.

Lectures en cours

Personnalisation du workflow de post-traitement dans les tutoriels AEM Assets.

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f