Tika配置在AEMaaCS-Assets中不起作用
在AEMaaCS Assets中,自定义Tika配置(例如不包括PDF)在云环境中被忽略,并且默认为开箱即用(OOTB)设置。 要解决此问题,请从damAssetLucene索引中删除“aggregate”子句,或在处理之后删除/jcr:content/renditions/cqdam.text.txt节点。
描述 description
环境
- 产品: Adobe Experience Manager as a Cloud Service (AEMaaCS) - Assets
- 实例:开发
问题/症状
- 自定义Lucene索引包括特定属性和自定义Apache Tika配置。
- Tika配置从索引和搜索中排除某些资产类型(如PDF)。
- 安装程序在本地环境中可正常工作。
- 云环境会忽略自定义Tika配置。
- 系统默认使用开箱即用(OOTB) Tika设置。
- 日志消息确认正在加载默认的Tika配置,而不是自定义配置。
解决方法 resolution
要解决此问题,请执行以下步骤:
-
修改DAM索引定义
- 打开damAssetLucene索引定义。 有关详细信息,请参阅有关内容搜索和索引编制的AEM文档。
- 删除以文本演绎版路径(
/jcr:content/renditions/cqdam.text.txt)为目标的聚合子句,以从全文搜索中排除提取的文本。
-
实施后处理工作流
-
创建在AEM服务完成处理后运行的自定义Asset Compute工作流。
-
在工作流中:
- 添加步骤以删除
/jcr:content/renditions/cqdam.text.txt节点。 - 或者,将节点替换为空文件,以防止为其编制索引。
- 添加步骤以删除
-
使用Cloud Manager部署工作流并进行测试,以确认取消不必要的文本索引。
-
注意:
- 在本地/AEM SDK中,Tika配置直接影响二进制内容(如PDF、PNG、MP4)的索引方式。 使用定义的Tika配置,在同一运行时进行索引。
- 在AEM as a Cloud Service中,Asset Compute服务处理来自二进制文件的文本和元数据提取。 然后,将此提取的数据提供给DAM索引。 Tika的OSGi配置不会影响此过程。
- 无法使用本地Tika配置覆盖或自定义云中二进制文件的全文提取。 Tika的设置仅影响AEM SDK中的本地演绎版和一些旧版本地设置。
3d58f420-19b5-47a0-a122-5c9dab55ec7f