Beperkingen voor tekstextractie voor grote PDF in Adobe Experience Manager as a Cloud Service (AEMaaCS)
Dit artikel verhelpt het probleem van onvolledige tekstextractie voor grote PDF-documenten in Adobe Experience Manager as a Cloud Service (AEMaaCS) vanwege tekenbeperkingen. Het gedrag is opzettelijk, ontworpen om opslag en verwerkingsefficiency te optimaliseren, maar het kan werkschema's beïnvloeden die full-text extractie vereisen.
Beschrijving description
Omgeving
Adobe Experience Manager as a Cloud Service (AEMaaCS)
Probleem
Bij het verwerken van grote PDF-documenten met AEM functies voor het verwerken van bedrijfsmiddelen buiten de verpakking, is het uitnemen van tekst voor uitgebreide PDF, zoals pagina's met honderden pagina's, niet volledig. De uitgenomen tekst kan voortijdig eindigen vanwege een tekenlimiet van 100.000 tekens. Symptomen zijn onder meer:
- Het bestand
/jcr:content/renditions/cqdam.text.txtvoor grote PDF bevat alleen tekst van maximaal ongeveer 108 pagina's voor een PDF van 580 pagina's. - Extractie van volledige tekst is beperkt vanwege tekenbeperkingen.
- Het uitpakken van tekst mag uit maximaal 100 kB bestaan.
- Alleen essentiële gedeelten van het document worden geëxtraheerd aan de hand van een slimme samenvatting.
- Deze beperking is afgestemd op de indexeringsmogelijkheden van Oak binnen AEM en is gericht op een optimale opslag- en verwerkingsefficiëntie.
Resolutie resolution
- De beperking is bijontwerp om efficiënte verwerkingstijden en kostenbeheer in AEM te waarborgen.
- Er is een verbeteringsverzoek (ASSETS-45872) ingediend voor toekomstige AEM om deze beperking te verhelpen, waardoor een worker mogelijk wordt geïntroduceerd die grotere PDF-bestanden kan verwerken.
- Bekijk AEM releaseopmerkingen voor aankondigingen met betrekking tot wijzigingen of verbeteringen in het uitpakken van PDF-tekst in toekomstige versies.
recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f