Tika-Konfiguration funktioniert nicht in AEMaaCS-Assets
In AEMaaCS Assets werden benutzerdefinierte Tika-Konfigurationen - z. B. das Ausschließen von PDFs - in der Cloud-Umgebung ignoriert, für die standardmäßig vordefinierte Einstellungen gelten. Um dieses Problem zu beheben, entfernen Sie die „aggregate“-Klausel aus dem damAssetLucene-Index oder löschen Sie den /jcr:content/renditions/cqdam.text.txt Knoten nach der Verarbeitung.
Beschreibung description
Umgebung
- Produkt: Adobe Experience Manager as a Cloud Service (AEMaaCS) - Assets
- Instanz: Entwicklung
Problem/Symptome
- Ein benutzerdefinierter Lucene-Index enthält bestimmte Eigenschaften und eine benutzerdefinierte Apache Tika-Konfiguration.
- Die Tika-Konfiguration schließt bestimmte Asset-Typen (z. B. PDFs) von der Indizierung und Suche aus.
- Das Setup funktioniert in der lokalen Umgebung ordnungsgemäß.
- Die Cloud-Umgebung ignoriert die benutzerdefinierte Tika-Konfiguration.
- Das System verwendet standardmäßig vordefinierte Tika-Einstellungen.
- Protokollmeldungen bestätigen, dass die standardmäßige Tika-Konfiguration anstelle der benutzerdefinierten geladen wird.
Auflösung resolution
Gehen Sie wie folgt vor, um dieses Problem zu beheben:
-
Ändern der DAM-Indexdefinition
- Öffnen Sie die damAssetLucene-Indexdefinition. Weitere Informationen finden Sie in der AEM-Dokumentation zur Inhaltssuche und -indizierung.
- Entfernen Sie die Aggregatklausel, die auf den Pfad der Textausgabedarstellung (
/jcr:content/renditions/cqdam.text.txt) abzielt, um extrahierten Text von der Volltextsuche auszuschließen.
-
Implementieren eines Anschluss-Workflows
-
Erstellen Sie einen benutzerdefinierten AEM-Workflow, der ausgeführt wird, nachdem der Asset Compute-Service seine Verarbeitung abgeschlossen hat.
-
Im Workflow:
- Fügen Sie einen Schritt zum Löschen des
/jcr:content/renditions/cqdam.text.txthinzu. - Alternativ können Sie den Knoten durch eine leere Datei ersetzen, um eine Indizierung zu verhindern.
- Fügen Sie einen Schritt zum Löschen des
-
Stellen Sie den Workflow mit Cloud Manager bereit und testen Sie ihn, um zu bestätigen, dass eine unerwünschte Textindizierung unterdrückt wird.
-
Hinweise:
- In lokalen/AEM-SDK beeinflusst die Tika-Konfiguration direkt die Indizierung von binären Inhalten (z. B. PDFs, PNGs, MP4S). Die Indizierung erfolgt innerhalb derselben Laufzeit mithilfe der definierten Tika-Konfigurationen.
- In AEM as a Cloud Service übernimmt der Asset Compute-Service die Text- und Metadatenextraktion aus Binärdateien. Diese extrahierten Daten werden dann dem DAM-Index bereitgestellt. Die OSGi-Konfiguration von Tika hat keinen Einfluss auf diesen Prozess.
- Sie können die Volltext-Extraktion für Binärdateien in der Cloud nicht mit lokalen Tika-Konfigurationen überschreiben oder anpassen. Die Einstellungen von Tika wirken sich nur auf lokale Ausgabedarstellungen in AEM SDK und einige ältere On-Premise-Setups aus.
Ablesungen
Anpassen des Nachbearbeitungs-Workflows in den AEM Assets-Tutorials.