Tika-konfigurationen fungerar inte i AEMaaCS-Assets
I AEMaaCS Assets ignoreras anpassade Tika-konfigurationer, till exempel PDF-filer, i molnmiljön, som har OTB-inställningarna som standard. Du åtgärdar det här problemet genom att ta bort"aggregeringssatsen" från index damAssetLucene eller ta bort noden /jcr:content/renditions/cqdam.text.txt efter bearbetning.
Beskrivning description
Miljö
- Produkt: Adobe Experience Manager as a Cloud Service (AEMaaCS) - Assets
- Instans: Utveckling
Problem/symtom
- Ett anpassat Lucene-index innehåller specifika egenskaper och en anpassad Apache Tika-konfiguration.
- Tika-konfigurationen utesluter vissa resurstyper (t.ex. PDF-filer) från indexering och sökning.
- Installationen fungerar korrekt i den lokala miljön.
- I molnmiljön ignoreras den anpassade Tika-konfigurationen.
- Systemet har som standard OTB-Tika-inställningar som inte är installerade.
- Loggmeddelanden bekräftar att Tika-standardkonfigurationen läses in i stället för den anpassade.
Upplösning resolution
Följ de här stegen för att åtgärda problemet:
-
Ändra DAM-indexdefinitionen
- Öppna indexdefinitionen damAssetLucene. Mer information finns i AEM-dokumentationen om innehållssökning och indexering.
- Ta bort sammanställningssatsen som anger textåtergivningssökvägen (
/jcr:content/renditions/cqdam.text.txt) som mål för att exkludera extraherad text från textsökning.
-
Implementera ett efterbearbetningsarbetsflöde
-
Skapa ett anpassat AEM-arbetsflöde som körs när Asset Compute-tjänsten har slutfört bearbetningen.
-
I arbetsflödet:
- Lägg till ett steg för att ta bort noden
/jcr:content/renditions/cqdam.text.txt. - Du kan också ersätta noden med en tom fil för att förhindra att den indexeras.
- Lägg till ett steg för att ta bort noden
-
Distribuera arbetsflödet med Cloud Manager och testa det för att bekräfta att oönskad textindexering inte stöds.
-
Anteckningar:
- I local/AEM SDK påverkar Tika-konfigurationen direkt hur binärt innehåll (t.ex. PDF-filer, PNG-filer, MP4-filer) indexeras. Indexering sker inom samma körningsmiljö med de definierade Tika-konfigurationerna.
- I AEM as a Cloud Service hanterar Asset Compute tjänst extrahering av text och metadata från binärfiler. Dessa extraherade data skickas sedan till DAM-indexet. Tikas OSGi-konfiguration påverkar inte den här processen.
- Du kan inte åsidosätta eller anpassa fulltextrahering för binärfiler i molnet med lokala Tika-konfigurationer. Tikas inställningar påverkar endast lokala renderingar i AEM SDK och vissa äldre lokala inställningar.
Läser avläsningar
Anpassa efterbearbetningsarbetsflödet i AEM Assets självstudier.
recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f