Aemaacs-Assetsで Tika 設定が機能しない

AEMaaCS Assetsでは、カスタム Tika 設定(PDF の除外など)は、デフォルトで標準提供(OOTB)に設定されるクラウド環境では無視されます。 この問題を修正するには、「aggregate」句を damAssetLucene インデックスから削除するか、処理後に /jcr:content/renditions/cqdam.text.txt ノードを削除します。

説明 description

環境

  • 製品:Adobe Experience Manager as a Cloud Service(AEMaaCS) - Assets
  • インスタンス:開発

問題/症状

  • カスタム Lucene インデックスには、特定のプロパティとカスタムの Apache Tika 設定が含まれます。
  • Tika 設定では、特定のアセットタイプ(PDF など)のインデックス作成と検索が除外されます。
  • ローカル環境では設定は正常に機能します。
  • クラウド環境では、カスタム Tika 設定は無視されます。
  • デフォルトでは、標準(OOTB)の Tika 設定が使用されます。
  • ログメッセージは、デフォルトの Tika 設定がカスタム設定ではなく読み込まれていることを確認します。

解決策 resolution

この問題を修正するには、次の手順に従います。

  • DAM インデックス定義の変更

    1. damAssetLucene インデックス定義を開きます。 詳しくは、​ コンテンツの検索とインデックス作成に関するAEM ドキュメント ​ を参照してください。
    2. テキストレンディションパス(/jcr:content/renditions/cqdam.text.txt)を対象とする集計句を削除して、フルテキスト検索から抽出されたテキストを除外します。
  • 後処理ワークフローの実装

    1. AEM サービスが処理を完了した後に実行されるカスタム Asset Compute ワークフローを作成します。

    2. ワークフローで以下を行います。

      • /jcr:content/renditions/cqdam.text.txt ノードを削除する手順を追加します。
      • または、ノードを空のファイルに置き換えて、インデックスが作成されないようにします。
    3. Cloud Managerを使用してワークフローをデプロイし、不要なテキストインデックスが抑制されていることを確認するためにテストします。

注意:

  • ローカル/AEM SDKでは、Tika の設定はバイナリコンテンツ(PDF、PNG、MP4 など)のインデックス作成方法に直接影響します。 定義された Tika 設定を使用して、同じランタイム内でインデックス作成が行われます。
  • AEM as a Cloud Serviceでは、Asset Compute サービスがバイナリからのテキストとメタデータの抽出を処理します。 この抽出されたデータは、DAM インデックスに提供されます。 Tika の OSGi 設定は、このプロセスには影響しません。
  • ローカルの Tika 設定を使用して、クラウド内のバイナリのフルテキスト抽出を上書きまたはカスタマイズすることはできません。 Tika の設定が影響するのは、AEM SDKのローカルレンディションと、従来の一部のオンプレミス設定のみです。

読み取り値

AEM Assets チュートリアルの ​ 後処理ワークフローのカスタマイズ ​

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f