Limites d’extraction de texte pour les PDF volumineux dans Adobe Experience Manager as a Cloud Service (AEMaaCS)

Cet article résout le problème d’extraction de texte incomplet pour les documents de PDF volumineux dans Adobe Experience Manager as a Cloud Service (AEMaaCS) en raison des limites de caractères. Bien que ce comportement soit intentionnel et destiné à optimiser l’efficacité du stockage et du traitement, il peut affecter les workflows nécessitant une extraction de texte intégral.

Description description

Environnement

Adobe Experience Manager as a Cloud Service (AEMaaCS)

Problème

Lors du traitement de documents de PDF volumineux avec les fonctionnalités de traitement des ressources prêtes à l’emploi d’AEM, l’extraction de texte est incomplète pour les PDF volumineux, tels que ceux contenant des centaines de pages. Le texte extrait peut se terminer prématurément en raison d’une limite de 100 000 caractères. Les symptômes incluent :

  • Le fichier /jcr:content/renditions/cqdam.text.txt pour les PDF volumineux contient du texte seulement jusqu’à environ 108 pages pour un PDF de 580 pages.
  • L’extraction de texte intégral est limitée en raison des limites de caractères.
  • Le processus d’extraction de texte est limité à 100 000 caractères.
  • Seules les sections essentielles du document sont extraites par le biais d’un résumé intelligent.
  • Cette limitation s’aligne sur les fonctionnalités d’indexation d’Oak au sein d’AEM et vise à optimiser l’efficacité du stockage et du traitement.

Résolution resolution

  • La limitation est due à la conception afin d’assurer des temps de traitement et une gestion des coûts efficaces dans AEM.
  • Une demande d’amélioration (ASSETS-45872) a été émise pour les prochaines versions d’AEM afin de résoudre cette limitation, introduisant potentiellement un programme de travail capable de traiter des fichiers de PDF plus volumineux.
  • Consultez les notes de mise à jour d’AEM pour les annonces concernant les modifications ou améliorations de l’extraction de texte du PDF dans les versions à venir.
recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f