AEM은 10만 개의 토큰 후 큰 PDF에서 추출된 텍스트를 자릅니다

Last update: Wed Jun 04 2025 00:00:00 GMT+0000 (Coordinated Universal Time)

AEM은 PDF 텍스트 추출을 기본적으로 100,000개의 토큰으로 제한하므로 큰 문서에 대한 인덱싱이 불완전할 수 있습니다. 이는 검색 정확도 및 검색 기능에 영향을 줍니다. 추출 및 색인화 구성을 업데이트하여 전체 콘텐츠 색인화를 허용하고 큰 PDF의 모든 텍스트를 검색할 수 있도록 함으로써 이 문제를 해결할 수 있습니다.

설명 description

환경

Adobe Experience Manager(AEM), 6.5

문제/증상

AEM은 DAM(Digital Asset Management)에서 큰 PDF를 색인화할 때 텍스트를 자르기 때문에 추출을 100,000개의 토큰으로 제한합니다. 로그 표시: 추출된 텍스트 크기가 구성된 한도를 100000.

Adobe CQ DAM Text Extraction 구성을 업데이트해도 문제가 해결되지 않으며 로그에 자르기 오류가 계속 표시됩니다.

해결 방법 resolution

큰 PDF에서 전체 텍스트를 추출하고 색인화하려면 다음 단계를 사용하십시오.

OSGI(Open Services Gateway 이니셔티브) 구성을 업데이트하여 추출된 토큰 제한을 무제한으로 설정합니다.

Adobe CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess)(으)로 이동합니다.
Activated을(를) true(으)로 설정합니다.
MIME 형식에 application/pdf을(를) 추가합니다.
Max Extracted Length을(를) -1(으)로 설정합니다.

예제 구성:

code language-none
`/apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config apply=B"true" maxExtract=L"-1" mimeTypes=[ "application/pdf"]`

DAM Asset Lucene 인덱스 수정:
- maxFieldLength을(를) 99999999(으)로 설정합니다.
- jcr:content/text에 대한 집계 경로를 추가하십시오.
- reindex = true을(를) 설정합니다.
DAM Update Asset워크플로우를 편집합니다.
- Process Thumbnails 뒤에 프로세스 단계 추가:
  - 제목: Adobe CQ DAM 텍스트 추출 프로세스
  - 처리기: com.day.cq.dam.core.impl.process.TextExtractionProcess
  - Handler Advance 사용
업데이트된 워크플로우에서 큰 PDF를 실행합니다. 필요한 경우 더 빠른 재처리를 위해 단일 단계 워크플로우를 사용합니다.
큰 PDF로 테스트하여 전체 콘텐츠 색인화를 확인합니다.

이러한 변경 사항을 통해 AEM은 큰 PDF에서 전체 텍스트를 추출하고 색인화할 수 있으므로 검색 정확도와 완성도가 향상됩니다.

AEM은 10만 개의 토큰 후 큰 PDF에서 추출된 텍스트를 자릅니다

설명 description

환경

문제/증상

해결 방법 resolution

관련 읽기