AEM은 10만 개의 토큰 후 큰 PDF에서 추출된 텍스트를 자릅니다

AEM은 PDF 텍스트 추출을 기본적으로 100,000개의 토큰으로 제한하므로 큰 문서에 대한 인덱싱이 불완전할 수 있습니다. 이는 검색 정확도 및 검색 기능에 영향을 줍니다. 추출 및 색인화 구성을 업데이트하여 전체 콘텐츠 색인화를 허용하고 큰 PDF의 모든 텍스트를 검색할 수 있도록 함으로써 이 문제를 해결할 수 있습니다.

설명 description

환경

  • Adobe Experience Manager(AEM), 6.5

문제/증상

AEM은 DAM(Digital Asset Management)에서 큰 PDF를 색인화할 때 텍스트를 자르기 때문에 추출을 100,000개의 토큰으로 제한합니다. 로그 표시: 추출된 텍스트 크기가 구성된 한도를 100000.

Adobe CQ DAM Text Extraction 구성을 업데이트해도 문제가 해결되지 않으며 로그에 자르기 오류가 계속 표시됩니다.

해결 방법 resolution

큰 PDF에서 전체 텍스트를 추출하고 색인화하려면 다음 단계를 사용하십시오.

  1. OSGI(Open Services Gateway 이니셔티브) 구성을 업데이트하여 추출된 토큰 제한을 무제한으로 설정합니다.

    • Adobe CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess)(으)로 이동합니다.
    • Activated을(를) true(으)로 설정합니다.
    • MIME 형식에 application/pdf을(를) 추가합니다.
    • Max Extracted Length을(를) -1(으)로 설정합니다.

    예제 구성:

    code language-none
    /apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config
    apply=B"true"
    maxExtract=L"-1"
    mimeTypes=[ "application/pdf"]
    
  2. DAM Asset Lucene 인덱스 수정:

    • maxFieldLength을(를) 99999999(으)로 설정합니다.
    • jcr:content/text에 대한 집계 경로를 추가하십시오.
    • reindex = true을(를) 설정합니다.
  3. DAM Update Asset워크플로우를 편집합니다.

    • Process Thumbnails 뒤에 프로세스 단계 추가:

      • 제목: Adobe CQ DAM 텍스트 추출 프로세스
      • 처리기: com.day.cq.dam.core.impl.process.TextExtractionProcess
      • Handler Advance 사용
  4. 업데이트된 워크플로우에서 큰 PDF를 실행합니다. 필요한 경우 더 빠른 재처리를 위해 단일 단계 워크플로우를 사용합니다.

  5. 큰 PDF로 테스트하여 전체 콘텐츠 색인화를 확인합니다.

이러한 변경 사항을 통해 AEM은 큰 PDF에서 전체 텍스트를 추출하고 색인화할 수 있으므로 검색 정확도와 완성도가 향상됩니다.

관련 읽기

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f