AEM trunkerar extraherad text från stora PDF:er efter 100 kB-token
AEM begränsar extraheringen av PDF-text till 100 000 tokens som standard, vilket kan orsaka ofullständig indexering för stora dokument. Detta påverkar söknoggrannheten och upptäckbarheten. Du kan lösa detta genom att uppdatera extraherings- och indexeringskonfigurationer så att all text i stora PDF-filer blir sökbar.
Beskrivning description
Miljö
- Adobe Experience Manager (AEM), 6.5
Problem/symtom
AEM trunkerar text när stora PDF-filer indexeras från DAM (Digital Asset Management), vilket begränsar extraheringen till 100 000 token. Loggvisning: Storleken på den extraherade texten överskrider den konfigurerade gränsen (10000).
Uppdateringen av konfigurationen Adobe CQ DAM Text Extraction löser inte problemet och loggarna fortsätter att visa trunkeringsfel.
Upplösning resolution
Följ de här stegen för att extrahera och indexera fullständig text från stora PDF-filer:
-
Uppdatera OSGI-konfigurationen (Open Services Gateway-initiativ) så att den extraherade tokengränsen är oändlig:
- Gå till
Adobe CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess). - Ange
Activatedtilltrue. - Lägg till
application/pdfi MIME-typer. - Ange
Max Extracted Lengthtill-1.
Exempelkonfiguration:
code language-none /apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config apply=B"true" maxExtract=L"-1" mimeTypes=[ "application/pdf"] - Gå till
-
Ändra DAM-resursindexet Lucene:
- Ange
maxFieldLengthtill99999999. - Lägg till en sammanställningssökväg för
jcr:content/text. - Ange
reindex = true.
- Ange
-
Redigera
DAM Update Assetarbetsflödet.-
Lägg till ett processsteg efter
Process Thumbnails:- Title: Adobe CQ DAM Text Extraction Process
- Hanterare:
com.day.cq.dam.core.impl.process.TextExtractionProcess - Aktivera
Handler Advance
-
-
Kör stora PDF-filer i det uppdaterade arbetsflödet. Du kan också använda ett arbetsflöde i ett enda steg för snabbare bearbetning.
-
Testa med stora PDF:er för att bekräfta indexering av fullständigt innehåll.
Dessa ändringar gör att AEM kan extrahera och indexera fullständig text från stora PDF-filer, vilket förbättrar sökningens exakthet och fullständighet.