AEM trunkerar extraherad text från stora PDF:er efter 100 kB-token

AEM begränsar extraheringen av PDF-text till 100 000 tokens som standard, vilket kan orsaka ofullständig indexering för stora dokument. Detta påverkar söknoggrannheten och upptäckbarheten. Du kan lösa detta genom att uppdatera extraherings- och indexeringskonfigurationer så att all text i stora PDF-filer blir sökbar.

Beskrivning description

Miljö

  • Adobe Experience Manager (AEM), 6.5

Problem/symtom

AEM trunkerar text när stora PDF-filer indexeras från DAM (Digital Asset Management), vilket begränsar extraheringen till 100 000 token. Loggvisning: Storleken på den extraherade texten överskrider den konfigurerade gränsen (10000).

Uppdateringen av konfigurationen Adobe CQ DAM Text Extraction löser inte problemet och loggarna fortsätter att visa trunkeringsfel.

Upplösning resolution

Följ de här stegen för att extrahera och indexera fullständig text från stora PDF-filer:

  1. Uppdatera OSGI-konfigurationen (Open Services Gateway-initiativ) så att den extraherade tokengränsen är oändlig:

    • Gå till Adobe CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess).
    • Ange Activated till true.
    • Lägg till application/pdf i MIME-typer.
    • Ange Max Extracted Length till -1.

    Exempelkonfiguration:

    code language-none
    /apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config
    apply=B"true"
    maxExtract=L"-1"
    mimeTypes=[ "application/pdf"]
    
  2. Ändra DAM-resursindexet Lucene:

    • Ange maxFieldLength till 99999999.
    • Lägg till en sammanställningssökväg för jcr:content/text.
    • Ange reindex = true.
  3. Redigera DAM Update Assetarbetsflödet.

    • Lägg till ett processsteg efter Process Thumbnails:

      • Title: Adobe CQ DAM Text Extraction Process
      • Hanterare: com.day.cq.dam.core.impl.process.TextExtractionProcess
      • Aktivera Handler Advance
  4. Kör stora PDF-filer i det uppdaterade arbetsflödet. Du kan också använda ett arbetsflöde i ett enda steg för snabbare bearbetning.

  5. Testa med stora PDF:er för att bekräfta indexering av fullständigt innehåll.

Dessa ändringar gör att AEM kan extrahera och indexera fullständig text från stora PDF-filer, vilket förbättrar sökningens exakthet och fullständighet.

Relaterad läsning

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f