Uso da API de Serviços do Adobe PDF em arquivos de PDF de OCR

Criar imagem principal do PDF

Com o OCR (reconhecimento óptico de caracteres), você pode desbloquear PDF digitalizados para extrair texto e criar arquivos pesquisáveis. Usando nossas eficientes APIs baseadas em nuvem, integre o OCR em qualquer fluxo de trabalho de documento para obter a solução perfeita para arquivar, copiar texto e criar índices de documentos pesquisáveis. Crie arquivos pesquisáveis a partir de repositórios de PDF escaneados para desbloquear informações importantes e economizar tempo com rápida capacidade de pesquisa. Ou aplique o OCR aos seus PDF de digitalizações carregadas para permitir que sejam editados para uso em fluxos de trabalho de integração.

Os desenvolvedores podem começar em apenas alguns minutos com os arquivos de amostra prontos para execução fornecidos para OCR.

Neste tutorial, aborda as noções básicas de como executar sua primeira operação de OCR da API de serviços de PDF usando arquivos de amostra para as linguagens Node.js, Java e .Net.

Etapa 1: Criar suas credenciais e configurar seu ambiente

Use os tutoriais de introdução abaixo para criar suas credenciais de API, baixar arquivos de amostra e configurar seu ambiente.

Introdução à API de Serviços PDF e Java

Introdução à API de Serviços PDF e .Net

Introdução à API de Serviços de PDF e ao Node.js

Execute o exemplo de OCR fornecido nos arquivos de amostra

Nossa operação de OCR permite localidades em inglês por padrão, mas também oferece suporte para alemão, francês, dinamarquês e outros idiomas. O padrão é a localidade en-us.

Quando você passa opções com a operação de OCR incluindo o local específico, o método também aceita o parâmetro 'type', que tem duas opções:

  • SEARCHABLE_IMAGE: modifica a imagem original durante o processo de limpeza (por exemplo, desloca-a) antes de colocar uma camada de texto invisível sobre ela. Esse tipo remove artefatos indesejados e pode resultar em um documento mais legível em alguns cenários.

  • SEARCHABLE_IMAGE_EXACT: Garante que o texto seja pesquisável e selecionável. Esta opção mantém a imagem original e coloca uma camada de texto invisível sobre ela. Recomendado para casos que exigem o máximo de fidelidade para a imagem original.

Java

  1. Abra um prompt de comando.

  2. Mude os diretórios para o diretório de código de exemplo.

    Por exemplo, C:\Temp\PDFToolsAPI\adobe-dc-pdf-tools-sdk-java-samples>.

  3. Execute o seguinte comando:

    mvn -f pom.xml exec:java -Dexec.mainClass=com.adobe.platform.operation.samples.ocrpdf.OcrPDF

Seu PDF será criado no diretório src/main/resources.

.Net

  1. Abra um prompt de comando.

  2. Mude os diretórios para o diretório de código de exemplo.

    Por exemplo, C:\Temp\PDFToolsAPI\adobe-dc-pdf-tools-sdk-NetSamples

  3. Altere os diretórios novamente para o diretório OcrPDF.

  4. Execute o seguinte comando:

    dotnet run OcrPDF.csproj

Seu PDF será criado no mesmo diretório.

Node.js

  1. Abra um prompt de comando.

  2. Mude os diretórios para o diretório de código de exemplo.

    Por exemplo, C:\Temp\PDFToolsAPI\adobe-dc-pdf-tools-sdk-node-samples

  3. Execute o seguinte comando:

    node src/ocr/ocr-pdf.js

Seu PDF será criado no local designado na saída, que por padrão é o diretório de saída.

Considerações finais

Com essas etapas simples usando os arquivos de amostra, você deve ter um exemplo de trabalho no qual é possível criar. Além do exemplo de OCR que usamos neste tutorial, há outro exemplo de OCR usando as opções de tipo e localidade aceitas discutidas anteriormente.

A partir daí, você pode simplesmente substituir os arquivos de entrada e saída localizados na amostra para usar seu próprio PDF a fim de finalizar sua prova de conceito para seu próprio caso de uso.

Prova de conceito

Recursos e próximas etapas

recommendation-more-help
61c3404d-2baf-407c-beb9-87b95f86ccab