AEMでは、大きな PDF から抽出されたテキストを 100,000 個のトークンの後で切り捨てます

AEMでは、PDFのテキスト抽出をデフォルトで 100,000 トークンに制限しているので、大きなドキュメントのインデックス作成が不完全になる可能性があります。 これは、検索の精度と検出性に影響します。 この問題を解決するには、抽出およびインデックス作成設定を更新してフルコンテンツのインデックス作成を可能にし、大きな PDF 内のすべてのテキストが検索可能になるようにします。

説明 description

環境

  • Adobe Experience Manager(AEM), 6.5#キョウ#

問題/症状

AEMは、DAM (Digital Asset Management)から大きな PDF のインデックスを作成する際にテキストを切り捨て、抽出を 100,000 個のトークンに制限します。 ログ表示:抽出されたテキストのサイズが、設定された制限 100000 超えています。

Adobe CQ DAM Text Extraction 設定を更新しても問題は解決せず、ログに切り捨てエラーが引き続き表示されます。

解決策 resolution

大きな PDF からフルテキストを抽出してインデックスを作成するには、次の手順を使用します。

  1. OSGI (Open Services Gateway initiative)設定を更新して、抽出されたトークン制限を無限に設定します。

    • Adobe CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess) に移動します。
    • Activatedtrue に設定します。
    • MIME タイプに application/pdf を追加します。
    • Max Extracted Length-1 に設定します。

    設定例:

    code language-none
    /apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config
    apply=B"true"
    maxExtract=L"-1"
    mimeTypes=[ "application/pdf"]
    
  2. DAM Asset Lucene インデックスを変更します。

    • maxFieldLength99999999 に設定します。
    • jcr:content/text の集計パスを追加します。
    • reindex = true を設定します。
  3. DAM Update Asset ワークフローを編集します。

    • Process Thumbnails の後にプロセスステップを追加します。

      • タイトル:Adobe CQ DAM テキスト抽出プロセス
      • ハンドラー:com.day.cq.dam.core.impl.process.TextExtractionProcess
      • Enable Handler Advance
  4. 更新されたワークフローで大きな PDF を実行します。 オプションで、再処理を迅速化するための 1 ステップのワークフローを使用します。

  5. 大きな PDF を使用したテストによるコンテンツ全体のインデックス作成の確認。

これらの変更により、AEMでは大きな PDF から完全なテキストを抽出してインデックスを作成できるので、検索の精度と完全性が向上します。

関連資料

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f