Adobe PDF Services API gebruiken voor OCR-PDF-bestanden
Gemaakt voor:
- Beginner
- Ontwikkelaar
Met OCR (Optical Character Recognition) kun je gescande PDF ontgrendelen om tekst te extraheren en doorzoekbare bestanden te maken. Met onze krachtige cloudgebaseerde API’s integreer je OCR in elke documentworkflow voor de perfecte oplossing voor het archiveren, kopiëren van tekst en het creëren van doorzoekbare documentindexen. Maak doorzoekbare archieven vanuit gescande opslagplaatsen voor PDF om belangrijke informatie te ontgrendelen en tijd te besparen dankzij snelle doorzoekbaarheid. Of pas OCR van geüploade scans toe op uw PDF om deze te kunnen bewerken voor gebruik in onboardingworkflows.
Ontwikkelaars kunnen binnen een paar minuten aan de slag met de voorbeeldbestanden die zijn meegeleverd voor OCR.
In deze zelfstudie wordt uitgelegd hoe u uw eerste OCR-bewerking van de PDF Services-API uitvoert met behulp van voorbeeldbestanden voor Node.js, Java en .Net-talen.
Stap 1: Maak uw referenties en stel uw omgeving in
Gebruik de onderstaande Aan de slag-zelfstudies om uw API-referenties te maken, voorbeeldbestanden te downloaden en uw omgeving in te stellen.
Aan de slag met PDF Services API en Java
Het OCR-voorbeeld in de voorbeeldbestanden uitvoeren
Onze OCR verrichting staat voor Engelse scène door gebrek toe, maar verleent ook steun voor Duits, Frans, Deens, en andere talen. De standaardwaarde is 'en-us'.
Wanneer u opties doorgeeft met OCR-bewerking, inclusief een specifieke landinstelling, accepteert de methode ook de parameter 'type' met twee opties:
-
SEARCHABLE_IMAGE: Hiermee wijzigt u de oorspronkelijke afbeelding tijdens het opschoonproces (bijvoorbeeld heft u de schuintrekking op) voordat u er een onzichtbare tekstlaag op plaatst. Dit type verwijdert ongewenste artefacten en kan in sommige gevallen leiden tot een beter leesbaar document.
-
SEARCHABLE_IMAGE_EXACT: Hiermee zorgt u ervoor dat de tekst doorzoekbaar en selecteerbaar is. Met deze optie behoudt u de oorspronkelijke afbeelding en plaatst u er een onzichtbare tekstlaag overheen. Aanbevolen voor gevallen waarin een maximale getrouwheid van de oorspronkelijke afbeelding is vereist.
Java
-
Open een opdrachtprompt.
-
Wijzig mappen in uw map met voorbeeldcodes.
Bijvoorbeeld C:\Temp\PDFToolsAPI\adobe-dc-pdf-tools-sdk-java-samples>.
-
Voer de volgende opdracht uit:
mvn -f pom.xml exec:java -Dexec.mainClass=com.adobe.platform.operation.samples.ocrpdf.OcrPDF
Uw PDF wordt gemaakt in de map src/main/resources.
.Net
-
Open een opdrachtprompt.
-
Wijzig mappen in uw map met voorbeeldcodes.
Bijvoorbeeld C:\Temp\PDFToolsAPI\adobe-dc-pdf-tools-sdk-NetSamples
-
Wijzig mappen opnieuw in de map OcrPDF.
-
Voer de volgende opdracht uit:
dotnet run OcrPDF.csproj
Uw PDF wordt in dezelfde map gemaakt.
Node.js
-
Open een opdrachtprompt.
-
Wijzig mappen in uw map met voorbeeldcodes.
Bijvoorbeeld C:\Temp\PDFToolsAPI\adobe-dc-pdf-tools-sdk-node-samples
-
Voer de volgende opdracht uit:
node src/ocr/ocr-pdf.js
De PDF wordt gemaakt op de locatie die is aangegeven in de uitvoer. Standaard is dit de uitvoermap.
Definitieve gedachten
Met deze eenvoudige stappen in de voorbeeldbestanden hebt u een werkvoorbeeld waarop u kunt bouwen. Naast het OCR-voorbeeld dat we in deze zelfstudie hebben gebruikt, is er nog een voorbeeld voor OCR met behulp van het ondersteunde type- en landinstellingsopties die eerder zijn besproken.
Vanaf hier kunt u uw invoer- en uitvoerbestanden in het voorbeeld gewoon vervangen om uw eigen PDF te gebruiken om uw concepttest af te ronden voor uw eigen gebruik.
Bronnen en volgende stappen
-
Voor extra hulp en steun, bezoek het Adobe Acrobat Services APIscommunityforum
-
PDF Services API Documentatie
-
Veelgestelde vragenvoor de vragen van de Diensten API van PDF
-
Contact onsvoor vragen over vergunning en tarifering