AEM trunca el texto extraído de archivos PDF grandes después de 100 000 tokens
AEM limita la extracción de texto de PDF a 100 000 tokens de forma predeterminada, lo que puede provocar una indexación incompleta en documentos grandes. Esto afecta a la precisión y la capacidad de detección de búsquedas. Puede resolver esto actualizando las configuraciones de extracción e indexación para permitir la indexación de contenido completa, lo que garantiza que se pueda buscar todo el texto de los PDF grandes.
Descripción description
Entorno
- Adobe Experience Manager (AEM), 6.5
Problema/Síntomas
AEM trunca el texto al indexar PDF grandes desde DAM (Digital Asset Management), lo que limita la extracción a 100 000 tokens. Los registros muestran: El tamaño del texto extraído superó el límite (100000) configurado(s).
Al actualizar la configuración Adobe CQ DAM Text Extraction no se resuelve el problema y los registros siguen mostrando errores de truncamiento.
Resolución resolution
Siga estos pasos para extraer e indexar texto completo de PDF grandes:
-
Actualice la configuración de OSGI (Open Services Gateway initiative) para establecer el límite de tokens extraídos como infinito:
- Vaya a
Adobe CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess). - Establezca
Activatedentrue. - Agregar
application/pdfa tipos MIME. - Establezca
Max Extracted Lengthen-1.
Configuración de ejemplo:
code language-none /apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config apply=B"true" maxExtract=L"-1" mimeTypes=[ "application/pdf"] - Vaya a
-
Modifique el índice DAM Asset Lucene:
- Establezca
maxFieldLengthen99999999. - Agregar una ruta de acceso de agregado para
jcr:content/text. - Establezca
reindex = true.
- Establezca
-
Edite el flujo de trabajo
DAM Update Asset.-
Agregar un paso de proceso después de
Process Thumbnails:- Título: Proceso de extracción de texto de Adobe CQ DAM
- Controlador:
com.day.cq.dam.core.impl.process.TextExtractionProcess - Habilitar
Handler Advance
-
-
Ejecute PDF grandes a través del flujo de trabajo actualizado. De forma opcional, utilice un flujo de trabajo de un solo paso para un reprocesamiento más rápido.
-
Realice pruebas con PDF grandes para confirmar la indexación de contenido completo.
Estos cambios permiten a AEM extraer e indexar texto completo de archivos PDF grandes, lo que mejora la precisión y exhaustividad de la búsqueda.