AEM은 10만 개의 토큰 후 큰 PDF에서 추출된 텍스트를 자릅니다
AEM은 PDF 텍스트 추출을 기본적으로 100,000개의 토큰으로 제한하므로 큰 문서에 대한 인덱싱이 불완전할 수 있습니다. 이는 검색 정확도 및 검색 기능에 영향을 줍니다. 추출 및 색인화 구성을 업데이트하여 전체 콘텐츠 색인화를 허용하고 큰 PDF의 모든 텍스트를 검색할 수 있도록 함으로써 이 문제를 해결할 수 있습니다.
설명 description
환경
- Adobe Experience Manager(AEM), 6.5
문제/증상
AEM은 DAM(Digital Asset Management)에서 큰 PDF를 색인화할 때 텍스트를 자르기 때문에 추출을 100,000개의 토큰으로 제한합니다. 로그 표시: 추출된 텍스트 크기가 구성된 한도를 100000.
Adobe CQ DAM Text Extraction 구성을 업데이트해도 문제가 해결되지 않으며 로그에 자르기 오류가 계속 표시됩니다.
해결 방법 resolution
큰 PDF에서 전체 텍스트를 추출하고 색인화하려면 다음 단계를 사용하십시오.
-
OSGI(Open Services Gateway 이니셔티브) 구성을 업데이트하여 추출된 토큰 제한을 무제한으로 설정합니다.
Adobe CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess)(으)로 이동합니다.Activated을(를)true(으)로 설정합니다.- MIME 형식에
application/pdf을(를) 추가합니다. Max Extracted Length을(를)-1(으)로 설정합니다.
예제 구성:
code language-none /apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config apply=B"true" maxExtract=L"-1" mimeTypes=[ "application/pdf"] -
DAM Asset Lucene 인덱스 수정:
maxFieldLength을(를)99999999(으)로 설정합니다.jcr:content/text에 대한 집계 경로를 추가하십시오.reindex = true을(를) 설정합니다.
-
DAM Update Asset워크플로우를 편집합니다.-
Process Thumbnails뒤에 프로세스 단계 추가:- 제목: Adobe CQ DAM 텍스트 추출 프로세스
- 처리기:
com.day.cq.dam.core.impl.process.TextExtractionProcess Handler Advance사용
-
-
업데이트된 워크플로우에서 큰 PDF를 실행합니다. 필요한 경우 더 빠른 재처리를 위해 단일 단계 워크플로우를 사용합니다.
-
큰 PDF로 테스트하여 전체 콘텐츠 색인화를 확인합니다.
이러한 변경 사항을 통해 AEM은 큰 PDF에서 전체 텍스트를 추출하고 색인화할 수 있으므로 검색 정확도와 완성도가 향상됩니다.