Adobe Experience Manager as a Cloud Service(AEMaaCS)의 대규모 PDF에 대한 텍스트 추출 제한 사항
이 문서에서는 문자 제한으로 인한 Adobe Experience Manager as a Cloud Service(AEMaaCS)의 대용량 PDF 문서에 대한 불완전한 텍스트 추출 문제를 해결합니다. 이 동작은 의도적으로 저장 및 처리 효율성을 최적화하도록 설계되었지만 전체 텍스트 추출이 필요한 워크플로우에 영향을 줄 수 있습니다.
설명 description
환경
Adobe Experience Manager as a Cloud Service (AEMaaCS)
문제
AEM의 기본 에셋 처리 기능을 사용하여 대형 PDF 문서를 처리할 때 수백 개의 PDF이 포함된 것과 같은 광범위한 페이지에 대한 텍스트 추출이 불완전합니다. 100,000자의 문자 제한으로 인해 추출된 텍스트가 너무 빨리 종료될 수 있습니다. 증상은 다음과 같습니다.
- 대용량 PDF의
/jcr:content/renditions/cqdam.text.txt파일에는 580페이지 PDF의 경우 최대 약 108페이지의 텍스트만 포함되어 있습니다. - 문자 제한 사항으로 인해 전체 텍스트 추출이 제한됩니다.
- 텍스트 추출 프로세스는 10만 자로 제한됩니다.
- 스마트 요약을 통해 문서의 필수 섹션만 추출됩니다.
- 이 제한은 AEM 내의 Oak 색인화 기능과 일치하며 스토리지 및 처리 효율성을 최적화하는 것을 목표로 합니다.
해결 방법 resolution
- AEM에서 효율적인 처리 시간 및 비용 관리를 보장하기 위한 자체 설계가 한계입니다.
- 이 제한을 해결하기 위해 향후 AEM 릴리스에 대한 개선 요청(ASSETS-45872)이 제기되었으며, 이로 인해 더 큰 PDF 파일을 처리할 수 있는 작업자가 발생할 수 있습니다.
- 예정된 버전에서 PDF 텍스트 추출의 변경 사항 또는 개선 사항에 대한 공지는 AEM 릴리스 노트 를 검토하십시오.
recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f