Adobe PDF Services API gebruiken voor OCR-PDF-bestanden

Laatste update: 2023-08-04
  • Gemaakt voor:
  • Beginner
    Developer

PDF-hoofdafbeelding maken

Met OCR (Optical Character Recognition) kun je gescande PDF ontgrendelen om tekst te extraheren en doorzoekbare bestanden te maken. Met onze krachtige cloudgebaseerde API’s integreer je OCR in elke documentworkflow voor de perfecte oplossing voor het archiveren, kopiëren van tekst en het creëren van doorzoekbare documentindexen. Maak doorzoekbare archieven vanuit gescande opslagplaatsen voor PDF om belangrijke informatie te ontgrendelen en tijd te besparen dankzij snelle doorzoekbaarheid. Of pas OCR van geüploade scans toe op uw PDF om deze te kunnen bewerken voor gebruik in onboardingworkflows.

Ontwikkelaars kunnen binnen een paar minuten aan de slag met de voorbeeldbestanden die zijn meegeleverd voor OCR.

In deze zelfstudie wordt uitgelegd hoe u uw eerste OCR-bewerking van de PDF Services-API uitvoert met behulp van voorbeeldbestanden voor Node.js, Java en .Net-talen.

Stap 1: Maak uw referenties en stel uw omgeving in

Gebruik de onderstaande Aan de slag-zelfstudies om uw API-referenties te maken, voorbeeldbestanden te downloaden en uw omgeving in te stellen.

Aan de slag met PDF Services API en Java

Aan de slag met PDF Services API en .Net

Aan de slag met PDF Services API en Node.js

Het OCR-voorbeeld in de voorbeeldbestanden uitvoeren

Bij onze OCR-bewerking is standaard de Engelse landinstelling mogelijk, maar ook ondersteuning voor Duits, Frans, Deens en overige talen. De standaardwaarde is 'en-us'.

Wanneer u opties doorgeeft met OCR-bewerking, inclusief een specifieke landinstelling, accepteert de methode ook de parameter 'type' met twee opties:

  • SEARCHABLE_IMAGE: Hiermee wijzigt u de oorspronkelijke afbeelding tijdens het opschoonproces (bijvoorbeeld heft u de schuintrekking op) voordat u er een onzichtbare tekstlaag op plaatst. Dit type verwijdert ongewenste artefacten en kan in sommige gevallen leiden tot een beter leesbaar document.

  • SEARCHABLE_IMAGE_EXACT: Hiermee zorgt u ervoor dat de tekst doorzoekbaar en selecteerbaar is. Met deze optie behoudt u de oorspronkelijke afbeelding en plaatst u er een onzichtbare tekstlaag overheen. Aanbevolen voor gevallen waarin een maximale getrouwheid van de oorspronkelijke afbeelding is vereist.

Java

  1. Open een opdrachtprompt.

  2. Wijzig mappen in uw map met voorbeeldcodes.

    Bijvoorbeeld C:\Temp\PDFToolsAPI\adobe-dc-pdf-tools-sdk-java-samples>.

  3. Voer de volgende opdracht uit:

    mvn -f pom.xml exec:java -Dexec.mainClass=com.adobe.platform.operation.samples.ocrpdf.OcrPDF

Uw PDF wordt gemaakt in de map src/main/resources.

.Net

  1. Open een opdrachtprompt.

  2. Wijzig mappen in uw map met voorbeeldcodes.

    Bijvoorbeeld C:\Temp\PDFToolsAPI\adobe-dc-pdf-tools-sdk-NetSamples

  3. Wijzig mappen opnieuw in de map OcrPDF.

  4. Voer de volgende opdracht uit:

    dotnet run OcrPDF.csproj

Uw PDF wordt in dezelfde map gemaakt.

Node.js

  1. Open een opdrachtprompt.

  2. Wijzig mappen in uw map met voorbeeldcodes.

    Bijvoorbeeld C:\Temp\PDFToolsAPI\adobe-dc-pdf-tools-sdk-node-samples

  3. Voer de volgende opdracht uit:

    node src/ocr/ocr-pdf.js

De PDF wordt gemaakt op de locatie die is aangegeven in de uitvoer. Standaard is dit de uitvoermap.

Definitieve gedachten

Met deze eenvoudige stappen in de voorbeeldbestanden hebt u een werkvoorbeeld waarop u kunt bouwen. Naast het OCR-voorbeeld dat we in deze zelfstudie hebben gebruikt, is er nog een voorbeeld voor OCR met behulp van het ondersteunde type- en landinstellingsopties die eerder zijn besproken.

Vanaf hier kunt u uw invoer- en uitvoerbestanden in het voorbeeld gewoon vervangen om uw eigen PDF te gebruiken om uw concepttest af te ronden voor uw eigen gebruik.

Conceptproef

Bronnen en volgende stappen

Op deze pagina