以编程方式拆分PDF文档 programmatically-disassembling-pdf-documents

CAUTION
AEM 6.4已结束扩展支持,本文档将不再更新。 有关更多详细信息,请参阅 技术支助期. 查找支持的版本 此处.

您可以通过将PDF文档传递到汇编程序服务来拆解该文档。 通常,当PDF文档最初是从许多单独的文档(如语句集合)创建时,此任务会很有用。 在下图中,文档A被分为多个生成文档,其中页面上的第一级书签标识新生成文档的开始。

pd_pd_pdf从书签

要拆解PDF文档,请确保 PDFsFromBookmarks 元素位于DDX文档中。 的 PDFsFromBookmarks 元素是生成元素,只能是的子元素 DDX 元素。 它没有 result 属性,因为它可能会生成多个文档。

PDFsFromBookmarks 元素会为源文档中的每个1级书签生成单个文档。

在本讨论中,假定使用了以下DDX文档。

 <?xml version="1.0" encoding="UTF-8"?>
 <DDX xmlns="https://ns.adobe.com/DDX/1.0/">
      <PDFsFromBookmarks prefix="stmt">
     <PDF source="AssemblerResultPDF.pdf"/>
 </PDFsFromBookmarks>
 </DDX>
NOTE
在阅读本节之前,建议您熟悉使用汇编程序服务来汇编PDF文档。 (请参阅 以编程方式组合PDF文档.)
NOTE
将单个PDF文档传递到汇编程序服务并返回单个文档时,可以调用 invokeOneDocument 操作。 但是,要拆解PDF文档,请使用 invokeDDX 操作,因为虽然一个输入PDF文档被传递到汇编程序服务,但汇编程序服务会返回一个包含一个或多个文档的集合对象。
NOTE
有关汇编程序服务的详细信息,请参阅 AEM Forms服务参考.
NOTE
有关DDX文档的更多信息,请参阅 汇编程序服务和DDX参考.

步骤摘要 summary-of-steps

要拆解PDF文档,请执行以下任务:

  1. 包括项目文件。
  2. 创建PDF汇编程序客户端。
  3. 引用现有DDX文档。
  4. 引用要拆解的PDF文档。
  5. 设置运行时选项。
  6. 拆解PDF文档。
  7. 保存已拆卸的PDF文档。

包含项目文件

在开发项目中包含必需的文件。 如果您使用Java创建客户端应用程序,请包含必需的JAR文件。 如果您使用的是Web服务,请确保包含代理文件。

必须将以下JAR文件添加到项目的类路径中:

  • adobe-livecycle-client.jar
  • adobe-usermanager-client.jar
  • adobe-assembler-client.jar
  • adobe-utilities.jar(在JBoss上部署AEM Forms时必需)
  • jbossall-client.jar(如果在JBoss上部署了AEM Forms,则此变量为必需变量)

如果AEM Forms部署在非JBoss的受支持J2EE应用程序服务器上,则必须将adobe-utilities.jar和jbossall-client.jar替换为特定于部署了AEM Forms的J2EE应用程序服务器的JAR文件。

创建PDF汇编程序客户端

在以编程方式执行汇编程序操作之前,必须创建汇编程序服务客户端。

引用现有DDX文档

必须引用DDX文档以拆解PDF文档。 此DDX文档必须包含 PDFsFromBookmarks 元素。

引用PDF文档以拆解

要拆解PDF文档,请引用表示要拆解的PDF文档的PDF文件。 当传递到汇编程序服务时,将为文档中的每个1级书签返回单独的PDF文档。

设置运行时选项

您可以设置运行时选项,以在汇编程序服务执行作业时控制其行为。 例如,您可以设置一个选项,指示汇编程序服务在遇到错误时继续处理作业。

拆解PDF文档

在创建汇编程序服务客户端、引用DDX文档、引用要拆解的PDF文档以及设置运行时选项后,可以通过调用 invokeDDX 方法。 如果DDX文档包含用于拆解PDF文档的指令,汇编程序服务将返回集合对象内已拆解的PDF文档。

保存已拆卸的PDF文档

所有已拆卸的PDF文档都在收集对象中返回。 遍历收集对象,并将每个PDF文档另存为PDF文件。

另请参阅

包括AEM Forms Java库文件

设置连接属性

以编程方式组合PDF文档

使用Java API拆解PDF文档 disassemble-a-pdf-document-using-the-java-api

使用汇编程序服务API(Java)拆解PDF文档:

  1. 包括项目文件。

    在Java项目的类路径中包含客户端JAR文件,如adobe-assembler-client.jar。

  2. 创建PDF汇编程序客户端。

    • 创建 ServiceClientFactory 包含连接属性的对象。
    • 创建 AssemblerServiceClient 对象,并使用其构造函数进行传递 ServiceClientFactory 对象。
  3. 引用现有DDX文档。

    • 创建 java.io.FileInputStream 使用其构造函数并传递指定DDX文件位置的字符串值来表示DDX文档的对象。
    • 创建 com.adobe.idp.Document 对象,并使用其构造函数进行传递 java.io.FileInputStream 对象。
  4. 引用要拆解的PDF文档。

    • 创建 java.util.Map 用于通过使用 HashMap 构造函数。

    • 创建 java.io.FileInputStream 对象,并将PDF文档的位置传递到反汇编。

    • 创建 com.adobe.idp.Document 对象并传递 java.io.FileInputStream 包含要拆解的PDF文档的对象。

    • java.util.Map 通过调用对象 put 方法和传递以下参数:

      • 表示键名称的字符串值。 此值必须匹配DDX文档中指定的PDF源元素的值。
      • A com.adobe.idp.Document 包含要拆解的PDF文档的对象。
  5. 设置运行时选项。

    • 创建 AssemblerOptionSpec 使用其构造函数存储运行时选项的对象。
    • 通过调用属于 AssemblerOptionSpec 对象。 例如,要指示汇编程序服务在发生错误时继续处理作业,请调用 AssemblerOptionSpec 对象 setFailOnError 方法和传递 false.
  6. 拆解PDF文档。

    调用 AssemblerServiceClient 对象 invokeDDX 方法,并传递以下必需值:

    • A com.adobe.idp.Document 表示要使用的DDX文档的对象
    • A java.util.Map 包含要拆解的PDF文档的对象
    • A com.adobe.livecycle.assembler.client.AssemblerOptionSpec 指定运行时选项(包括默认字体和作业日志级别)的对象

    invokeDDX 方法返回 com.adobe.livecycle.assembler.client.AssemblerResult 包含已拆卸PDF文档和发生的任何例外的对象。

  7. 保存已拆卸的PDF文档。

    要获取已拆卸的PDF文档,请执行以下操作:

    • 调用 AssemblerResult 对象 getDocuments 方法。 这会返回 java.util.Map 对象。
    • 循环访问 java.util.Map 对象,直到找到结果 com.adobe.idp.Document 对象。
    • 调用 com.adobe.idp.Document 对象 copyToFile 方法提取PDF文档。

另请参阅

以编程方式拆分PDF文档

快速入门(SOAP模式):使用Java API拆解PDF文档

包括AEM Forms Java库文件

设置连接属性

使用Web服务API拆解PDF文档 disassemble-a-pdf-document-using-the-web-service-api

使用汇编程序服务API(Web服务)拆解PDF文档:

  1. 包括项目文件。

    创建使用MTOM的Microsoft .NET项目。 在设置服务引用时,请确保使用以下WSDL定义: http://localhost:8080/soap/services/AssemblerService?WSDL&lc_version=9.0.1.

    note note
    NOTE
    替换 localhost 具有托管AEM Forms的服务器的IP地址。
  2. 创建PDF汇编程序客户端。

    • 创建 AssemblerServiceClient 对象。

    • 创建 AssemblerServiceClient.Endpoint.Address 对象 System.ServiceModel.EndpointAddress 构造函数。 将指定WSDL的字符串值传递到AEM Forms服务(例如, http://localhost:8080/soap/services/AssemblerService?blob=mtom)。 您无需使用 lc_version 属性。 在创建服务引用时,会使用此属性。

    • 创建 System.ServiceModel.BasicHttpBinding 对象,方法是获取 AssemblerServiceClient.Endpoint.Binding 字段。 将返回值转换为 BasicHttpBinding.

    • 设置 System.ServiceModel.BasicHttpBinding 对象 MessageEncoding 字段 WSMessageEncoding.Mtom. 此值可确保使用MTOM。

    • 通过执行以下任务,启用基本HTTP身份验证:

      • 将AEM表单用户名分配给字段 AssemblerServiceClient.ClientCredentials.UserName.UserName.
      • 为字段分配相应的密码值 AssemblerServiceClient.ClientCredentials.UserName.Password.
      • 指定常量值 HttpClientCredentialType.Basic 到字段 BasicHttpBindingSecurity.Transport.ClientCredentialType.
      • 指定常量值 BasicHttpSecurityMode.TransportCredentialOnly 到字段 BasicHttpBindingSecurity.Security.Mode.
  3. 引用现有DDX文档。

    • 创建 BLOB 对象。 的 BLOB 对象用于存储DDX文档。
    • 创建 System.IO.FileStream 对象。 传递一个字符串值,该值表示DDX文档的文件位置以及打开文件的模式。
    • 创建用于存储 System.IO.FileStream 对象。 您可以通过获取 System.IO.FileStream 对象 Length 属性。
    • 通过调用 System.IO.FileStream 对象 Read 方法及传递要读取的字节数组、起始位置及流长度。
    • 填充 BLOB 通过指定对象 MTOM 属性。
  4. 引用要拆解的PDF文档。

    • 创建 BLOB 对象。 的 BLOB 对象用于存储输入PDF文档。 此 BLOB 对象被传递到 invokeOneDocument 作为参数。
    • 创建 System.IO.FileStream 对象,方法是调用其构造函数并传递一个字符串值,该字符串值表示输入PDF文档的文件位置和打开文件的模式。
    • 创建用于存储 System.IO.FileStream 对象。 您可以通过获取 System.IO.FileStream 对象 Length 属性。
    • 通过调用 System.IO.FileStream 对象 Read 方法及传递要读取的字节数组、起始位置及流长度。
    • 填充 BLOB 通过指定对象 MTOM 字段字节数组的内容。
    • 创建 MyMapOf_xsd_string_To_xsd_anyType 对象。 此收集对象用于存储要拆解的PDF。
    • 创建 MyMapOf_xsd_string_To_xsd_anyType_Item 对象。
    • 为分配表示键名称的字符串值 MyMapOf_xsd_string_To_xsd_anyType_Item 对象 key 字段。 此值必须匹配DDX文档中指定的PDF源元素的值。
    • 分配 BLOB 将PDF文档存储到 MyMapOf_xsd_string_To_xsd_anyType_Item 对象 value 字段。
    • 添加 MyMapOf_xsd_string_To_xsd_anyType_Item 对象 MyMapOf_xsd_string_To_xsd_anyType 对象。 调用 MyMapOf_xsd_string_To_xsd_anyType 对象' Add 方法和通过 MyMapOf_xsd_string_To_xsd_anyType 对象。
  5. 设置运行时选项。

    • 创建 AssemblerOptionSpec 使用其构造函数存储运行时选项的对象。
    • 通过为属于 AssemblerOptionSpec 对象。 例如,要指示汇编程序服务在发生错误时继续处理作业,请指定 falseAssemblerOptionSpec 对象 failOnError 字段。
  6. 拆解PDF文档。

    调用 AssemblerServiceClient 对象 invokeDDX 方法并传递以下值:

    • A BLOB 表示分解PDF文档的DDX文档的对象
    • MyMapOf_xsd_string_To_xsd_anyType 包含要拆解的PDF文档的对象
    • AssemblerOptionSpec 指定运行时选项的对象

    invokeDDX 方法返回 AssemblerResult 包含作业结果和发生的任何例外的对象。

  7. 保存已拆卸的PDF文档。

    要获取新创建的PDF文档,请执行以下操作:

    • 访问 AssemblerResult 对象 documents 字段, Map 包含已拆卸的PDF文档的对象。
    • 循环访问 Map 对象来获取每个生成文档。 然后,将该阵列成员的 valueBLOB.
    • 通过访问表示PDF文档的二进制数据 BLOB 对象 MTOM 属性。 这会返回一个字节数组,您可以将其写出到PDF文件。

另请参阅

以编程方式拆分PDF文档

使用MTOM调用AEM Forms

recommendation-more-help
a6ebf046-2b8b-4543-bd46-42a0d77792da