AEMでは、大きな PDF から抽出されたテキストを 100,000 個のトークンの後で切り捨てます
AEMでは、PDFのテキスト抽出をデフォルトで 100,000 トークンに制限しているので、大きなドキュメントのインデックス作成が不完全になる可能性があります。 これは、検索の精度と検出性に影響します。 この問題を解決するには、抽出およびインデックス作成設定を更新してフルコンテンツのインデックス作成を可能にし、大きな PDF 内のすべてのテキストが検索可能になるようにします。
説明 description
環境
- Adobe Experience Manager(AEM), 6.5#キョウ#
問題/症状
AEMは、DAM (Digital Asset Management)から大きな PDF のインデックスを作成する際にテキストを切り捨て、抽出を 100,000 個のトークンに制限します。 ログ表示:抽出されたテキストのサイズが、設定された制限 100000 超えています。
Adobe CQ DAM Text Extraction 設定を更新しても問題は解決せず、ログに切り捨てエラーが引き続き表示されます。
解決策 resolution
大きな PDF からフルテキストを抽出してインデックスを作成するには、次の手順を使用します。
-
OSGI (Open Services Gateway initiative)設定を更新して、抽出されたトークン制限を無限に設定します。
Adobe CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess)に移動します。Activatedをtrueに設定します。- MIME タイプに
application/pdfを追加します。 Max Extracted Lengthを-1に設定します。
設定例:
code language-none /apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config apply=B"true" maxExtract=L"-1" mimeTypes=[ "application/pdf"] -
DAM Asset Lucene インデックスを変更します。
maxFieldLengthを99999999に設定します。jcr:content/textの集計パスを追加します。reindex = trueを設定します。
-
DAM Update Assetワークフローを編集します。-
Process Thumbnailsの後にプロセスステップを追加します。- タイトル:Adobe CQ DAM テキスト抽出プロセス
- ハンドラー:
com.day.cq.dam.core.impl.process.TextExtractionProcess - Enable
Handler Advance
-
-
更新されたワークフローで大きな PDF を実行します。 オプションで、再処理を迅速化するための 1 ステップのワークフローを使用します。
-
大きな PDF を使用したテストによるコンテンツ全体のインデックス作成の確認。
これらの変更により、AEMでは大きな PDF から完全なテキストを抽出してインデックスを作成できるので、検索の精度と完全性が向上します。