AEM trunca el texto extraído de archivos PDF grandes después de 100 000 tokens

AEM limita la extracción de texto de PDF a 100 000 tokens de forma predeterminada, lo que puede provocar una indexación incompleta en documentos grandes. Esto afecta a la precisión y la capacidad de detección de búsquedas. Puede resolver esto actualizando las configuraciones de extracción e indexación para permitir la indexación de contenido completa, lo que garantiza que se pueda buscar todo el texto de los PDF grandes.

Descripción description

Entorno

  • Adobe Experience Manager (AEM), 6.5

Problema/Síntomas

AEM trunca el texto al indexar PDF grandes desde DAM (Digital Asset Management), lo que limita la extracción a 100 000 tokens. Los registros muestran: El tamaño del texto extraído superó el límite (100000) configurado(s).

Al actualizar la configuración Adobe CQ DAM Text Extraction no se resuelve el problema y los registros siguen mostrando errores de truncamiento.

Resolución resolution

Siga estos pasos para extraer e indexar texto completo de PDF grandes:

  1. Actualice la configuración de OSGI (Open Services Gateway initiative) para establecer el límite de tokens extraídos como infinito:

    • Vaya a Adobe CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess).
    • Establezca Activated en true.
    • Agregar application/pdf a tipos MIME.
    • Establezca Max Extracted Length en -1.

    Configuración de ejemplo:

    code language-none
    /apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config
    apply=B"true"
    maxExtract=L"-1"
    mimeTypes=[ "application/pdf"]
    
  2. Modifique el índice DAM Asset Lucene:

    • Establezca maxFieldLength en 99999999.
    • Agregar una ruta de acceso de agregado para jcr:content/text.
    • Establezca reindex = true.
  3. Edite el flujo de trabajo DAM Update Asset.

    • Agregar un paso de proceso después de Process Thumbnails:

      • Título: Proceso de extracción de texto de Adobe CQ DAM
      • Controlador: com.day.cq.dam.core.impl.process.TextExtractionProcess
      • Habilitar Handler Advance
  4. Ejecute PDF grandes a través del flujo de trabajo actualizado. De forma opcional, utilice un flujo de trabajo de un solo paso para un reprocesamiento más rápido.

  5. Realice pruebas con PDF grandes para confirmar la indexación de contenido completo.

Estos cambios permiten a AEM extraer e indexar texto completo de archivos PDF grandes, lo que mejora la precisión y exhaustividad de la búsqueda.

Lectura relacionada

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f