Verwenden der Adobe PDF Services-API zum OCR-PDF von Dateien
Mit OCR (Optical Character Recognition) können Sie gescannte PDF entsperren, um Text zu extrahieren und durchsuchbare Dateien zu erstellen. Mit unseren leistungsstarken Cloud-basierten APIs lässt sich OCR in jeden Dokumenten-Workflow integrieren. Das ist die perfekte Lösung für die Archivierung, das Kopieren von Text und die Erstellung durchsuchbarer Dokumentindizes. Erstellen Sie durchsuchbare Archive aus gescannten PDF-Repositorys, um wichtige Informationen freizugeben und Zeit mit schneller Durchsuchbarkeit zu sparen. Oder wende OCR auf PDF von hochgeladenen Scans an, um sie zur Verwendung in Onboarding-Workflows bearbeiten zu können.
Entwickler können mit den für OCR bereitgestellten Beispieldateien in wenigen Minuten sofort loslegen.
In diesem Tutorial lernen Sie die Grundlagen zur Ausführung Ihres ersten PDF Services API OCR-Vorgangs mit Beispieldateien für die Sprachen Node.js, Java und .Net kennen.
Schritt 1: Erstellen Sie Ihre Anmeldeinformationen und richten Sie Ihre Umgebung ein
Verwenden Sie die folgenden Tutorials zu ersten Schritten, um Ihre API-Zugangsberechtigungen zu erstellen, Beispieldateien herunterzuladen und Ihre Umgebung einzurichten.
Erste Schritte mit PDF Services API und Java
Führen Sie das in den Beispieldateien bereitgestellte OCR-Beispiel aus
Der OCR-Vorgang ermöglicht standardmäßig das englische Gebietsschema, bietet aber auch Unterstützung für Deutsch, Französisch, Dänisch und andere Sprachen. Die Standardeinstellung ist das en-us-Gebietsschema.
Wenn Sie Optionen mit OCR-Vorgang einschließlich eines bestimmten Gebietsschemas übergeben, akzeptiert die Methode auch den Parameter "type", der zwei Optionen enthält:
-
SEARCHABLE_IMAGE: Ändert das Originalbild während des Bereinigungsvorgangs (z. B. zum Verzerren), bevor eine unsichtbare Textebene darüber platziert wird. Dieser Typ entfernt unerwünschte Artefakte und kann in einigen Szenarien zu einem besser lesbaren Dokument führen.
-
SEARCHABLE_IMAGE_EXACT: Stellt sicher, dass Text durchsucht und ausgewählt werden kann. Diese Option behält das Originalbild bei und platziert eine unsichtbare Textebene darüber. Empfohlen für Fälle, in denen eine maximale Originaltreue erforderlich ist.
Java
-
Öffnen Sie eine Eingabeaufforderung.
-
Wechseln Sie in das Beispielcodeverzeichnis.
Beispiel: C:\Temp\PDFToolsAPI\adobe-dc-pdf-tools-sdk-java-samples>.
-
Führen Sie den folgenden Befehl aus:
mvn -f pom.xml exec:java -Dexec.mainClass=com.adobe.platform.operation.samples.ocrpdf.OcrPDF
Die PDF wird im Verzeichnis "src/main/resources" erstellt.
.Net
-
Öffnen Sie eine Eingabeaufforderung.
-
Wechseln Sie in das Beispielcodeverzeichnis.
Beispiel: C:\Temp\PDFToolsAPI\adobe-dc-pdf-tools-sdk-NetSamples
-
Wechseln Sie die Verzeichnisse erneut in das OcrPDF-Verzeichnis.
-
Führen Sie den folgenden Befehl aus:
dotnet run OcrPDF.csproj
Die PDF wird im selben Verzeichnis erstellt.
Node.js
-
Öffnen Sie eine Eingabeaufforderung.
-
Wechseln Sie in das Beispielcodeverzeichnis.
Beispiel: C:\Temp\PDFToolsAPI\adobe-dc-pdf-tools-sdk-node-samples
-
Führen Sie den folgenden Befehl aus:
node src/ocr/ocr-pdf.js
Die PDF wird an dem in der Ausgabe angegebenen Speicherort erstellt, bei dem es sich standardmäßig um das Ausgabeverzeichnis handelt.
Abschließende Überlegungen
Für diese einfachen Schritte mit den Beispieldateien sollten Sie ein funktionierendes Beispiel verwenden, auf dem Sie aufbauen können. Zusätzlich zu dem OCR-Beispiel, das wir in diesem Tutorial verwendet haben, gibt es ein weiteres Beispiel für OCR mit den unterstützten Typ- und Gebietsschemaoptionen, die zuvor erläutert wurden.
Von hier aus können Sie einfach Ihre Eingabe- und Ausgabedateien im Beispiel ersetzen, um Ihre eigene PDF zu verwenden und Ihren Machbarkeitsnachweis für Ihren eigenen Anwendungsfall fertigzustellen.
Ressourcen und nächste Schritte
-
Weitere Hilfe und Unterstützung finden Sie im Adobe Acrobat Services APIs-Community-Forum
-
PDF Services-API Dokumentation
-
Häufige Fragen zu PDF Services-API-Fragen
-
Wenden Sie sich an uns, wenn Sie Fragen zur Lizenzierung und zu den Preisen haben