O AEM trunca o texto extraído de PDFs grandes após 100 mil tokens
O AEM limita a extração de texto do PDF a 100.000 tokens por padrão, o que pode causar indexação incompleta para documentos grandes. Isso afeta a precisão e a descoberta da pesquisa. Você pode resolver isso atualizando as configurações de extração e indexação para permitir a indexação completa do conteúdo, garantindo que todo o texto em PDFs grandes seja pesquisado.
Descrição description
Ambiente
- Adobe Experience Manager (AEM), 6.5
Problema/Sintomas
O AEM trunca o texto ao indexar PDFs grandes do DAM (Digital Asset Management), limitando a extração a 100.000 tokens. Os logs mostram: O tamanho do texto extraído excedeu o limite configurado (100000).
A atualização da configuração do Adobe CQ DAM Text Extraction não resolve o problema, e os logs continuam a mostrar erros de truncamento.
Resolução resolution
Use as seguintes etapas para extrair e indexar texto completo de PDFs grandes:
-
Atualize a configuração OSGI (Open Services Gateway initiative) para definir o limite de token extraído para ser infinito:
- Vá para
Adobe CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess). - Defina
Activatedcomotrue. - Adicionar
application/pdfa tipos MIME. - Defina
Max Extracted Lengthcomo-1.
Exemplo de configuração:
code language-none /apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config apply=B"true" maxExtract=L"-1" mimeTypes=[ "application/pdf"] - Vá para
-
Modifique o índice Lucene do ativo DAM:
- Defina
maxFieldLengthcomo99999999. - Adicione um caminho de agregação para
jcr:content/text. - Defina
reindex = true.
- Defina
-
Edite o fluxo de trabalho
DAM Update Asset.-
Adicionar uma etapa do processo após
Process Thumbnails:- Título: processo de extração de texto do Adobe CQ DAM
- Manipulador:
com.day.cq.dam.core.impl.process.TextExtractionProcess - Habilitar
Handler Advance
-
-
Execute PDFs grandes por meio do fluxo de trabalho atualizado. Como opção, use um fluxo de trabalho de etapa única para um reprocessamento mais rápido.
-
Teste com PDFs grandes para confirmar a indexação completa do conteúdo.
Essas alterações permitem que o AEM extraia e indexe texto completo de PDFs grandes, melhorando a precisão e a integridade da pesquisa.