Tika-Konfiguration funktioniert nicht in AEMaaCS-Assets

In AEMaaCS Assets werden benutzerdefinierte Tika-Konfigurationen - z. B. das Ausschließen von PDFs - in der Cloud-Umgebung ignoriert, für die standardmäßig vordefinierte Einstellungen gelten. Um dieses Problem zu beheben, entfernen Sie die „aggregate“-Klausel aus dem damAssetLucene-Index oder löschen Sie den /jcr:content/renditions/cqdam.text.txt Knoten nach der Verarbeitung.

Beschreibung description

Umgebung

  • Produkt: Adobe Experience Manager as a Cloud Service (AEMaaCS) - Assets
  • Instanz: Entwicklung

Problem/Symptome

  • Ein benutzerdefinierter Lucene-Index enthält bestimmte Eigenschaften und eine benutzerdefinierte Apache Tika-Konfiguration.
  • Die Tika-Konfiguration schließt bestimmte Asset-Typen (z. B. PDFs) von der Indizierung und Suche aus.
  • Das Setup funktioniert in der lokalen Umgebung ordnungsgemäß.
  • Die Cloud-Umgebung ignoriert die benutzerdefinierte Tika-Konfiguration.
  • Das System verwendet standardmäßig vordefinierte Tika-Einstellungen.
  • Protokollmeldungen bestätigen, dass die standardmäßige Tika-Konfiguration anstelle der benutzerdefinierten geladen wird.

Auflösung resolution

Gehen Sie wie folgt vor, um dieses Problem zu beheben:

  • Ändern der DAM-Indexdefinition

    1. Öffnen Sie die damAssetLucene-Indexdefinition. Weitere Informationen finden Sie in der AEM-Dokumentation zur Inhaltssuche und -indizierung.
    2. Entfernen Sie die Aggregatklausel, die auf den Pfad der Textausgabedarstellung (/jcr:content/renditions/cqdam.text.txt) abzielt, um extrahierten Text von der Volltextsuche auszuschließen.
  • Implementieren eines Anschluss-Workflows

    1. Erstellen Sie einen benutzerdefinierten AEM-Workflow, der ausgeführt wird, nachdem der Asset Compute-Service seine Verarbeitung abgeschlossen hat.

    2. Im Workflow:

      • Fügen Sie einen Schritt zum Löschen des /jcr:content/renditions/cqdam.text.txt hinzu.
      • Alternativ können Sie den Knoten durch eine leere Datei ersetzen, um eine Indizierung zu verhindern.
    3. Stellen Sie den Workflow mit Cloud Manager bereit und testen Sie ihn, um zu bestätigen, dass eine unerwünschte Textindizierung unterdrückt wird.

Hinweise:

  • In lokalen/AEM-SDK beeinflusst die Tika-Konfiguration direkt die Indizierung von binären Inhalten (z. B. PDFs, PNGs, MP4S). Die Indizierung erfolgt innerhalb derselben Laufzeit mithilfe der definierten Tika-Konfigurationen.
  • In AEM as a Cloud Service übernimmt der Asset Compute-Service die Text- und Metadatenextraktion aus Binärdateien. Diese extrahierten Daten werden dann dem DAM-Index bereitgestellt. Die OSGi-Konfiguration von Tika hat keinen Einfluss auf diesen Prozess.
  • Sie können die Volltext-Extraktion für Binärdateien in der Cloud nicht mit lokalen Tika-Konfigurationen überschreiben oder anpassen. Die Einstellungen von Tika wirken sich nur auf lokale Ausgabedarstellungen in AEM SDK und einige ältere On-Premise-Setups aus.

Ablesungen

Anpassen des Nachbearbeitungs-Workflows in den AEM Assets-Tutorials.

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f