Tika配置在AEMaaCS-Assets中不起作用

在AEMaaCS Assets中,自定义Tika配置(例如不包括PDF)在云环境中被忽略,并且默认为开箱即用(OOTB)设置。 要解决此问题,请从damAssetLucene索引中删除“aggregate”子句,或在处理之后删除/jcr:content/renditions/cqdam.text.txt节点。

描述 description

环境

  • 产品: Adobe Experience Manager as a Cloud Service (AEMaaCS) - Assets
  • 实例:开发

问题/症状

  • 自定义Lucene索引包括特定属性和自定义Apache Tika配置。
  • Tika配置从索引和搜索中排除某些资产类型(如PDF)。
  • 安装程序在本地环境中可正常工作。
  • 云环境会忽略自定义Tika配置。
  • 系统默认使用开箱即用(OOTB) Tika设置。
  • 日志消息确认正在加载默认的Tika配置,而不是自定义配置。

解决方法 resolution

要解决此问题,请执行以下步骤:

  • 修改DAM索引定义

    1. 打开damAssetLucene索引定义。 有关详细信息,请参阅有关内容搜索和索引编制的AEM文档
    2. 删除以文本演绎版路径(/jcr:content/renditions/cqdam.text.txt)为目标的聚合子句,以从全文搜索中排除提取的文本。
  • 实施后处理工作流

    1. 创建在AEM服务完成处理后运行的自定义Asset Compute工作流。

    2. 在工作流中:

      • 添加步骤以删除/jcr:content/renditions/cqdam.text.txt节点。
      • 或者,将节点替换为空文件,以防止为其编制索引。
    3. 使用Cloud Manager部署工作流并进行测试,以确认取消不必要的文本索引。

注意:

  • 在本地/AEM SDK中,Tika配置直接影响二进制内容(如PDF、PNG、MP4)的索引方式。 使用定义的Tika配置,在同一运行时进行索引。
  • 在AEM as a Cloud Service中,Asset Compute服务处理来自二进制文件的文本和元数据提取。 然后,将此提取的数据提供给DAM索引。 Tika的OSGi配置不会影响此过程。
  • 无法使用本地Tika配置覆盖或自定义云中二进制文件的全文提取。 Tika的设置仅影响AEM SDK中的本地演绎版和一些旧版本地设置。

正在读取读数

在AEM Assets教程中自定义后处理工作流

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f