Tika-konfigurationen fungerar inte i AEMaaCS-Assets

I AEMaaCS Assets ignoreras anpassade Tika-konfigurationer, till exempel PDF-filer, i molnmiljön, som har OTB-inställningarna som standard. Du åtgärdar det här problemet genom att ta bort"aggregeringssatsen" från index damAssetLucene eller ta bort noden /jcr:content/renditions/cqdam.text.txt efter bearbetning.

Beskrivning description

Miljö

  • Produkt: Adobe Experience Manager as a Cloud Service (AEMaaCS) - Assets
  • Instans: Utveckling

Problem/symtom

  • Ett anpassat Lucene-index innehåller specifika egenskaper och en anpassad Apache Tika-konfiguration.
  • Tika-konfigurationen utesluter vissa resurstyper (t.ex. PDF-filer) från indexering och sökning.
  • Installationen fungerar korrekt i den lokala miljön.
  • I molnmiljön ignoreras den anpassade Tika-konfigurationen.
  • Systemet har som standard OTB-Tika-inställningar som inte är installerade.
  • Loggmeddelanden bekräftar att Tika-standardkonfigurationen läses in i stället för den anpassade.

Upplösning resolution

Följ de här stegen för att åtgärda problemet:

  • Ändra DAM-indexdefinitionen

    1. Öppna indexdefinitionen damAssetLucene. Mer information finns i AEM-dokumentationen om innehållssökning och indexering.
    2. Ta bort sammanställningssatsen som anger textåtergivningssökvägen (/jcr:content/renditions/cqdam.text.txt) som mål för att exkludera extraherad text från textsökning.
  • Implementera ett efterbearbetningsarbetsflöde

    1. Skapa ett anpassat AEM-arbetsflöde som körs när Asset Compute-tjänsten har slutfört bearbetningen.

    2. I arbetsflödet:

      • Lägg till ett steg för att ta bort noden /jcr:content/renditions/cqdam.text.txt.
      • Du kan också ersätta noden med en tom fil för att förhindra att den indexeras.
    3. Distribuera arbetsflödet med Cloud Manager och testa det för att bekräfta att oönskad textindexering inte stöds.

Anteckningar:

  • I local/AEM SDK påverkar Tika-konfigurationen direkt hur binärt innehåll (t.ex. PDF-filer, PNG-filer, MP4-filer) indexeras. Indexering sker inom samma körningsmiljö med de definierade Tika-konfigurationerna.
  • I AEM as a Cloud Service hanterar Asset Compute tjänst extrahering av text och metadata från binärfiler. Dessa extraherade data skickas sedan till DAM-indexet. Tikas OSGi-konfiguration påverkar inte den här processen.
  • Du kan inte åsidosätta eller anpassa fulltextrahering för binärfiler i molnet med lokala Tika-konfigurationer. Tikas inställningar påverkar endast lokala renderingar i AEM SDK och vissa äldre lokala inställningar.

Läser avläsningar

Anpassa efterbearbetningsarbetsflödet i AEM Assets självstudier.

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f