Adobe Experience Manager as a Cloud Service (AEMaaCS)中大型PDF的文字擷取限制
本文解決Adobe Experience Manager as a Cloud Service (AEMaaCS)中大型PDF檔案因字元限制而擷取不完整文字的問題。 此行為是刻意為之,旨在最佳化儲存和處理效率,但可能會影響需要全文檢索擷取的工作流程。
說明 description
環境
Adobe Experience Manager as a Cloud Service (AEMaaCS)
問題
使用AEM現成可用的資產處理功能處理大型PDF檔案時,大型PDF(例如包含數百頁的頁面)的文字擷取並不完整。 由於字元限製為100,000個字元,擷取的文字可能會過早結束。 症狀包括:
- 大型PDF的
/jcr:content/renditions/cqdam.text.txt檔案在580頁的PDF中最多只包含約108頁的文字。 - 由於字元限制,全文檢索擷取受到限制。
- 文字擷取程式限制在10萬個字元。
- 僅透過智慧摘要擷取檔案的必要區段。
- 此限制與Oak在AEM中的索引功能一致,並旨在最佳化儲存和處理效率。
解決方法 resolution
- 其侷限性在於透過精心設計,確保AEM的有效處理時間和成本管理。
- 已針對未來AEM版本提出增強功能要求(ASSETS-45872),以解決此限制,可能會引入可處理較大PDF檔案的工作程式。
- 請檢閱AEM發行說明,瞭解即將發行版本中PDF文字擷取的變更或改良相關公告。
recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f