AEM kapt geëxtraheerde tekst van grote PDF's na 100K-tokens af

AEM beperkt de extractie van PDF-tekst standaard tot 100.000 tokens, wat onvolledige indexering voor grote documenten kan veroorzaken. Dit beïnvloedt zoeknauwkeurigheid en ontdekkingsmogelijkheden. U kunt dit oplossen door extractie- en indexeringsconfiguraties bij te werken om de volledige inhoud te indexeren, zodat alle tekst in grote PDF's doorzoekbaar wordt.

Beschrijving description

Omgeving

  • Adobe Experience Manager (AEM), 6.5

Probleem/symptomen

AEM kapt tekst af bij het indexeren van grote PDF's van DAM (Digital Asset Management), waarbij de extractie wordt beperkt tot 100.000 tokens. De logboeken tonen: Geëxtraheerde tekstgrootte overtrof gevormde grens (100000).

Het bijwerken van de Adobe CQ DAM Text Extraction config lost niet de kwestie op, en de logboeken blijven afbreekfouten tonen.

Resolutie resolution

Gebruik de volgende stappen om volledige tekst uit grote PDF's te extraheren en te indexeren:

  1. Werk de Configuratie van de (Open het initiatief van de Gateway van de Diensten) Configuratie van OSGI bij om de gewonnen symbolische grens te plaatsen om oneindig te zijn:

    • Ga naar Adobe CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess) .
    • Stel Activated in op true .
    • Voeg application/pdf toe aan MIME-typen.
    • Stel Max Extracted Length in op -1 .

    Voorbeeld config:

    code language-none
    /apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config
    apply=B"true"
    maxExtract=L"-1"
    mimeTypes=[ "application/pdf"]
    
  2. Wijzig de DAM Asset Lucene Index:

    • Stel maxFieldLength in op 99999999 .
    • Voeg een verzamelpad toe voor jcr:content/text .
    • Stel reindex = true in.
  3. Bewerk het DAM Update Asset werkschema.

    • Voeg een processtap toe na Process Thumbnails :

      • Titel: Adobe CQ DAM Text Extraction Process
      • Handler: com.day.cq.dam.core.impl.process.TextExtractionProcess
      • Handler Advance inschakelen
  4. Voer grote PDF's uit via de bijgewerkte workflow. U kunt ook een workflow in één stap gebruiken om sneller op te halen.

  5. Testen met grote PDF's om de indexering van de volledige inhoud te bevestigen.

Dankzij deze wijzigingen kan AEM volledige tekst uit grote PDF's extraheren en indexeren, waardoor de zoeknauwkeurigheid en volledigheid worden verbeterd.

Gerelateerde lezing

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f