Tika 구성이 AEMaaCS-Assets에서 작동하지 않음
AEMaaCS Assets에서 PDF 제외와 같은 사용자 지정 Tika 구성은 클라우드 환경에서 무시되며, 기본값은 기본 OOTB(제공 서비스) 설정입니다. 이 문제를 해결하려면 damAssetLucene 인덱스에서 "aggregate" 절을 제거하거나 처리 후 /jcr:content/renditions/cqdam.text.txt 노드를 삭제하십시오.
설명 description
환경
- 제품: Adobe Experience Manager as a Cloud Service(AEMaaCS) - Assets
- 인스턴스: 개발
문제/증상
- 사용자 지정 Lucene 인덱스에는 특정 속성과 사용자 지정 Apache Tika 구성이 포함됩니다.
- Tika 구성은 색인화 및 검색에서 특정 에셋 유형(예: PDF)을 제외합니다.
- 로컬 환경에서 설정이 올바르게 작동합니다.
- 클라우드 환경에서는 사용자 지정 Tika 구성을 무시합니다.
- 시스템의 기본값은 기본 Tika 설정인 OOTB(Out-of-the-Box) Tika 설정입니다.
- 로그 메시지는 사용자 지정 구성 대신 기본 Tika 구성이 로드되고 있음을 확인합니다.
해결 방법 resolution
이 문제를 해결하려면 다음 단계를 수행합니다.
-
DAM 색인 정의 수정
- damAssetLucene 인덱스 정의를 엽니다. 자세한 내용은 콘텐츠 검색 및 색인화에 대한 AEM 설명서를 참조하세요.
- 전체 텍스트 검색에서 추출된 텍스트를 제외하기 위해 텍스트 렌디션 경로(
/jcr:content/renditions/cqdam.text.txt)를 대상으로 하는 집계 절을 제거하십시오.
-
사후 처리 워크플로우 구현
-
Asset Compute 서비스 처리가 완료된 후에 실행되는 사용자 지정 AEM 워크플로우를 만듭니다.
-
워크플로우에서:
/jcr:content/renditions/cqdam.text.txt노드를 삭제하는 단계를 추가합니다.- 또는 노드를 빈 파일로 대체하여 노드가 색인화되지 않도록 합니다.
-
Cloud Manager을 사용하여 워크플로우를 배포하고 테스트하여 원하지 않는 텍스트 인덱싱이 억제되었는지 확인합니다.
-
참고:
- 로컬/AEM SDK에서 Tika 구성은 바이너리 콘텐츠(예: PDF, PNG, MP4)가 색인화되는 방식에 직접적인 영향을 줍니다. 인덱싱은 정의된 Tika 구성을 사용하여 동일한 런타임 내에서 발생합니다.
- AEM as a Cloud Service에서 Asset Compute 서비스는 바이너리에서 텍스트 및 메타데이터 추출을 처리합니다. 이렇게 추출된 데이터는 DAM 인덱스에 제공됩니다. Tika의 OSGi 구성은 이 프로세스에 영향을 주지 않습니다.
- 로컬 Tika 구성을 사용하여 클라우드에서 바이너리에 대한 전체 텍스트 추출을 재정의하거나 사용자 지정할 수 없습니다. Tika의 설정은 AEM SDK의 로컬 렌디션과 일부 레거시 온프레미스 설정에만 영향을 줍니다.
3d58f420-19b5-47a0-a122-5c9dab55ec7f