Limitazioni dell’estrazione del testo per PDF di grandi dimensioni in Adobe Experience Manager as a Cloud Service (AEMaaCS)
Questo articolo risolve il problema dell’estrazione incompleta del testo per i documenti PDF di grandi dimensioni in Adobe Experience Manager as a Cloud Service (AEMaaCS) a causa di limitazioni dei caratteri. Il comportamento è intenzionale e progettato per ottimizzare l’efficienza di archiviazione ed elaborazione, ma può influenzare i flussi di lavoro che richiedono l’estrazione full-text.
Descrizione description
Ambiente
Adobe Experience Manager as a Cloud Service (AEMaaCS)
Problema
Quando si elaborano documenti di grandi PDF con le funzionalità di elaborazione delle risorse predefinite dell’AEM, l’estrazione del testo è incompleta per i PDF di grandi dimensioni, come quelli contenenti centinaia di pagine. Il testo estratto potrebbe terminare prematuramente a causa di un limite di caratteri di 100.000 caratteri. I sintomi includono:
- Il file
/jcr:content/renditions/cqdam.text.txtper PDF di grandi dimensioni contiene solo testo fino a circa 108 pagine per un PDF di 580 pagine. - L’estrazione full-text è limitata a causa di limitazioni di caratteri.
- Il processo di estrazione del testo è limitato a 100.000 caratteri.
- Solo le sezioni essenziali del documento vengono estratte mediante il riepilogo intelligente.
- Questa limitazione è in linea con le funzionalità di indicizzazione di Oak all’interno dell’AEM e mira a ottimizzare l’efficienza di archiviazione ed elaborazione.
Risoluzione resolution
- La limitazione è di tipo "by-design" per garantire tempi di elaborazione efficienti e la gestione dei costi in AEM.
- È stata inoltrata una richiesta di miglioramento (ASSETS-45872) per le future versioni dell’AEM per risolvere questo limite, potenzialmente introducendo un lavoratore in grado di elaborare file PDF di dimensioni maggiori.
- Consulta le note sulla versione AEM per annunci relativi a modifiche o miglioramenti all’estrazione di testo di PDF nelle versioni future.