AEM kürzt extrahierten Text aus großen PDFs nach 100.000-Token

AEM beschränkt die Textextraktion von PDF standardmäßig auf 100.000 Token, was bei großen Dokumenten zu einer unvollständigen Indizierung führen kann. Dies wirkt sich auf die Suchgenauigkeit und Auffindbarkeit aus. Sie können dies beheben, indem Sie die Extraktions- und Indizierungskonfigurationen aktualisieren, um eine vollständige Inhaltsindizierung zu ermöglichen, sodass der gesamte Text in großen PDF-Dateien durchsuchbar ist.

Beschreibung description

Umgebung

  • Adobe Experience Manager (AEM), 6.5

Problem/Symptome

AEM kürzt den Text bei der Indizierung großer PDFs aus DAM (Digital Asset Management) und beschränkt die Extraktion auf 100.000 Token. Protokolle anzeigen: Die Größe des extrahierten Texts hat das konfigurierte Limit(100000) überschritten.

Durch Aktualisieren der Adobe CQ DAM Text Extraction wird das Problem nicht behoben, und die Protokolle zeigen weiterhin Abschneidungsfehler an.

Auflösung resolution

Führen Sie die folgenden Schritte aus, um Volltext aus großen PDFs zu extrahieren und zu indizieren:

  1. Aktualisieren Sie die OSGi-Konfiguration (Open Services Gateway Initiative), um das Limit für extrahierte Token auf unendlich festzulegen:

    • Gehe zu Adobe CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess).
    • Legen Sie Activated auf true fest.
    • Hinzufügen von application/pdf zu MIME-Typen.
    • Legen Sie Max Extracted Length auf -1 fest.

    Beispielkonfiguration:

    code language-none
    /apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config
    apply=B"true"
    maxExtract=L"-1"
    mimeTypes=[ "application/pdf"]
    
  2. Ändern des DAM Asset Lucene-Index:

    • Legen Sie maxFieldLength auf 99999999 fest.
    • Aggregierten Pfad für jcr:content/text hinzufügen.
    • reindex = true festlegen.
  3. Bearbeiten Sie den DAM Update AssetWorkflow.

    • Fügen Sie nach dem Process Thumbnails einen Prozessschritt hinzu:

      • Titel: Adobe CQ DAM-Textextraktionsprozess
      • Handler: com.day.cq.dam.core.impl.process.TextExtractionProcess
      • Handler Advance aktivieren
  4. Führen Sie große PDFs durch den aktualisierten Workflow aus. Verwenden Sie optional einen einstufigen Workflow für eine schnellere Neuverarbeitung.

  5. Testen Sie mit großen PDFs, um die vollständige Inhaltsindizierung zu bestätigen.

Diese Änderungen ermöglichen es AEM, Volltext aus großen PDF-Dateien zu extrahieren und zu indizieren, was die Suchgenauigkeit und -vollständigkeit verbessert.

Verwandtes Lesen

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f