Limitações de extração de texto para PDF grandes no Adobe Experience Manager as a Cloud Service (AEMaaCS)
Este artigo resolve o problema da extração de texto incompleta para documentos de PDF grandes no Adobe Experience Manager as a Cloud Service (AEMaaCS) devido a limitações de caracteres. O comportamento é intencional, projetado para otimizar a eficiência do armazenamento e do processamento, mas pode afetar os fluxos de trabalho que exigem extração de texto completo.
Descrição description
Ambiente
Adobe Experience Manager as a Cloud Service (AEMaaCS)
Problema
Ao processar documentos grandes de PDF com os recursos de processamento de ativos prontos para uso do AEM, a extração de texto está incompleta para PDF extensos, como aqueles que contêm centenas de páginas. O texto extraído pode terminar prematuramente devido a um limite de 100.000 caracteres. Os sintomas incluem:
- O arquivo
/jcr:content/renditions/cqdam.text.txtpara PDF grandes contém somente texto de até aproximadamente 108 páginas para um PDF de 580 páginas. - A extração de texto completo está restrita devido a limitações de caracteres.
- O processo de extração de texto é limitado a 100 mil caracteres.
- Somente as seções essenciais do documento são extraídas por meio do resumo inteligente.
- Essa limitação está alinhada aos recursos de indexação da Oak no AEM e tem como objetivo otimizar a eficiência do armazenamento e do processamento.
Resolução resolution
- A limitação é por design para garantir tempos de processamento eficientes e gerenciamento de custos no AEM.
- Uma solicitação de melhoria (ASSETS-45872) foi levantada para versões futuras do AEM para resolver essa limitação, possivelmente introduzindo um trabalhador capaz de processar arquivos PDF maiores.
- Revise as notas de versão do AEM para obter anúncios sobre alterações ou melhorias na extração de texto do PDF em versões futuras.
recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f