AEM kürzt extrahierten Text aus großen PDFs nach 100.000-Token
AEM beschränkt die Textextraktion von PDF standardmäßig auf 100.000 Token, was bei großen Dokumenten zu einer unvollständigen Indizierung führen kann. Dies wirkt sich auf die Suchgenauigkeit und Auffindbarkeit aus. Sie können dies beheben, indem Sie die Extraktions- und Indizierungskonfigurationen aktualisieren, um eine vollständige Inhaltsindizierung zu ermöglichen, sodass der gesamte Text in großen PDF-Dateien durchsuchbar ist.
Beschreibung description
Umgebung
- Adobe Experience Manager (AEM), 6.5
Problem/Symptome
AEM kürzt den Text bei der Indizierung großer PDFs aus DAM (Digital Asset Management) und beschränkt die Extraktion auf 100.000 Token. Protokolle anzeigen: Die Größe des extrahierten Texts hat das konfigurierte Limit(100000) überschritten.
Durch Aktualisieren der Adobe CQ DAM Text Extraction wird das Problem nicht behoben, und die Protokolle zeigen weiterhin Abschneidungsfehler an.
Auflösung resolution
Führen Sie die folgenden Schritte aus, um Volltext aus großen PDFs zu extrahieren und zu indizieren:
-
Aktualisieren Sie die OSGi-Konfiguration (Open Services Gateway Initiative), um das Limit für extrahierte Token auf unendlich festzulegen:
- Gehe zu
Adobe CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess). - Legen Sie
Activatedauftruefest. - Hinzufügen von
application/pdfzu MIME-Typen. - Legen Sie
Max Extracted Lengthauf-1fest.
Beispielkonfiguration:
code language-none /apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config apply=B"true" maxExtract=L"-1" mimeTypes=[ "application/pdf"] - Gehe zu
-
Ändern des DAM Asset Lucene-Index:
- Legen Sie
maxFieldLengthauf99999999fest. - Aggregierten Pfad für
jcr:content/texthinzufügen. reindex = truefestlegen.
- Legen Sie
-
Bearbeiten Sie den
DAM Update AssetWorkflow.-
Fügen Sie nach dem
Process Thumbnailseinen Prozessschritt hinzu:- Titel: Adobe CQ DAM-Textextraktionsprozess
- Handler:
com.day.cq.dam.core.impl.process.TextExtractionProcess Handler Advanceaktivieren
-
-
Führen Sie große PDFs durch den aktualisierten Workflow aus. Verwenden Sie optional einen einstufigen Workflow für eine schnellere Neuverarbeitung.
-
Testen Sie mit großen PDFs, um die vollständige Inhaltsindizierung zu bestätigen.
Diese Änderungen ermöglichen es AEM, Volltext aus großen PDF-Dateien zu extrahieren und zu indizieren, was die Suchgenauigkeit und -vollständigkeit verbessert.
Verwandtes Lesen
- Leistungsoptimierung
- Tipps zur Leistungsoptimierung von AEM 6.x
- Leistungsoptimierung für Assets