Einschränkungen bei der Textextraktion für große PDF in Adobe Experience Manager as a Cloud Service (AEMaaCS)
Dieser Artikel behebt das Problem der unvollständigen Textextraktion für große PDF-Dokumente in Adobe Experience Manager as a Cloud Service (AEMaaCS) aufgrund von Zeichenbeschränkungen. Das Verhalten ist absichtlich und dient der Optimierung der Speicher- und Verarbeitungseffizienz. Es kann jedoch Workflows beeinträchtigen, für die eine Volltext-Extraktion erforderlich ist.
Beschreibung description
Umgebung
Adobe Experience Manager as a Cloud Service (AEMaaCS)
Problem
Bei der Verarbeitung großer PDF-Dokumente mit den vorkonfigurierten Asset-Verarbeitungsfunktionen von AEM ist die Textextraktion für umfangreiche PDF, z. B. mit Hunderten von Seiten, unvollständig. Der extrahierte Text kann aufgrund einer Zeichenbeschränkung von 100.000 Zeichen vorzeitig beendet werden. Zu den Symptomen gehören:
- Die
/jcr:content/renditions/cqdam.text.txt-Datei für große PDF enthält nur bis zu ca. 108 Seiten für eine 580-seitige PDF. - Die Volltext-Extraktion ist aufgrund von Zeichenbeschränkungen eingeschränkt.
- Der Textextraktionsvorgang ist auf 100.000 Zeichen beschränkt.
- Nur wesentliche Abschnitte des Dokuments werden durch intelligente Zusammenfassungen extrahiert.
- Diese Einschränkung entspricht den Indizierungsfunktionen von Oak innerhalb von AEM und soll die Speicher- und Verarbeitungseffizienz optimieren.
Auflösung resolution
- Die Einschränkung ist beabsichtigt, um effiziente Verarbeitungszeiten und Kostenmanagement in AEM zu gewährleisten.
- Um diese Einschränkung zu beheben, wurde eine Verbesserungsanfrage (ASSETS-45872) für zukünftige AEM-Versionen ausgelöst, wodurch möglicherweise ein Worker eingeführt wird, der größere PDF-Dateien verarbeiten kann.
- Lesen Sie die AEM-Versionshinweise für Ankündigungen zu Änderungen oder Verbesserungen an der PDF-Textextraktion in kommenden Versionen.