Adobe Experience Manager as a Cloud Service(AEMaaCS)の大規模なPDF向けのテキスト抽出の制限

この記事では、Adobe Experience Manager as a Cloud Service(AEMaaCS)の大きなPDF文書について、文字数制限が原因でテキスト抽出が不完全になる問題を解決します。 この動作は意図的なもので、ストレージと処理の効率を最適化するように設計されていますが、フルテキスト抽出を必要とするワークフローに影響を与える可能性があります。

説明 description

環境

Adobe Experience Manager as a Cloud Service(AEMaaCS)

問題

AEMの標準のアセット処理機能を使用して大きなPDFドキュメントを処理する場合、数百ページに及ぶPDFなど、大規模なアセットのテキスト抽出が完了しません。 抽出されたテキストは、100,000 文字の文字制限により、途中で終了する場合があります。 症状は次のとおりです。

  • 大きなPDFの場合、/jcr:content/renditions/cqdam.text.txt ファイルには、580 ページのPDFに対して最大約 108 ページのテキストのみが含まれます。
  • フルテキスト抽出は、文字の制限により制限されています。
  • テキスト抽出プロセスは、100,000 文字に制限されています。
  • スマート要約では、ドキュメントの重要なセクションのみが抽出されます。
  • この制限は、AEM内のOakのインデックス作成機能に従っており、ストレージと処理の効率を最適化することを目的としています。

解決策 resolution

  • AEMでの効率的な処理時間とコスト管理を確保するための制限は、設計によって異なります。
  • この制限に対処するために、将来のAEM リリースに対して機能強化リクエスト(ASSETS-45872)が発行され、より大きなPDFファイルを処理できるワーカーが導入される可能性があります。
  • 今後のバージョンでのPDFテキスト抽出の変更点や改善点に関するお知らせについては、AEM リリースノートを確認してください。
recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f