O AEM trunca o texto extraído de PDFs grandes após 100 mil tokens

O AEM limita a extração de texto do PDF a 100.000 tokens por padrão, o que pode causar indexação incompleta para documentos grandes. Isso afeta a precisão e a descoberta da pesquisa. Você pode resolver isso atualizando as configurações de extração e indexação para permitir a indexação completa do conteúdo, garantindo que todo o texto em PDFs grandes seja pesquisado.

Descrição description

Ambiente

  • Adobe Experience Manager (AEM), 6.5

Problema/Sintomas

O AEM trunca o texto ao indexar PDFs grandes do DAM (Digital Asset Management), limitando a extração a 100.000 tokens. Os logs mostram: O tamanho do texto extraído excedeu o limite configurado (100000).

A atualização da configuração do Adobe CQ DAM Text Extraction não resolve o problema, e os logs continuam a mostrar erros de truncamento.

Resolução resolution

Use as seguintes etapas para extrair e indexar texto completo de PDFs grandes:

  1. Atualize a configuração OSGI (Open Services Gateway initiative) para definir o limite de token extraído para ser infinito:

    • Vá para Adobe CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess).
    • Defina Activated como true.
    • Adicionar application/pdf a tipos MIME.
    • Defina Max Extracted Length como -1.

    Exemplo de configuração:

    code language-none
    /apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config
    apply=B"true"
    maxExtract=L"-1"
    mimeTypes=[ "application/pdf"]
    
  2. Modifique o índice Lucene do ativo DAM:

    • Defina maxFieldLength como 99999999.
    • Adicione um caminho de agregação para jcr:content/text.
    • Defina reindex = true.
  3. Edite o fluxo de trabalho DAM Update Asset.

    • Adicionar uma etapa do processo após Process Thumbnails:

      • Título: processo de extração de texto do Adobe CQ DAM
      • Manipulador: com.day.cq.dam.core.impl.process.TextExtractionProcess
      • Habilitar Handler Advance
  4. Execute PDFs grandes por meio do fluxo de trabalho atualizado. Como opção, use um fluxo de trabalho de etapa única para um reprocessamento mais rápido.

  5. Teste com PDFs grandes para confirmar a indexação completa do conteúdo.

Essas alterações permitem que o AEM extraia e indexe texto completo de PDFs grandes, melhorando a precisão e a integridade da pesquisa.

Leitura relacionada

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f