以编程方式拆分PDF文档 programmatically-disassembling-pdf-documents
您可以通过将PDF文档传递到汇编程序服务来拆解该文档。 通常,当PDF文档最初是从许多单独的文档(如语句集合)创建时,此任务会很有用。 在下图中,文档A被分为多个生成文档,其中页面上的第一级书签标识新生成文档的开始。
要拆解PDF文档,请确保 PDFsFromBookmarks
元素位于DDX文档中。 的 PDFsFromBookmarks
元素是生成元素,只能是的子元素 DDX
元素。 它没有 result
属性,因为它可能会生成多个文档。
的 PDFsFromBookmarks
元素会为源文档中的每个1级书签生成单个文档。
在本讨论中,假定使用了以下DDX文档。
<?xml version="1.0" encoding="UTF-8"?>
<DDX xmlns="https://ns.adobe.com/DDX/1.0/">
<PDFsFromBookmarks prefix="stmt">
<PDF source="AssemblerResultPDF.pdf"/>
</PDFsFromBookmarks>
</DDX>
invokeOneDocument
操作。 但是,要拆解PDF文档,请使用 invokeDDX
操作,因为虽然一个输入PDF文档被传递到汇编程序服务,但汇编程序服务会返回一个包含一个或多个文档的集合对象。步骤摘要 summary-of-steps
要拆解PDF文档,请执行以下任务:
- 包括项目文件。
- 创建PDF汇编程序客户端。
- 引用现有DDX文档。
- 引用要拆解的PDF文档。
- 设置运行时选项。
- 拆解PDF文档。
- 保存已拆卸的PDF文档。
包含项目文件
在开发项目中包含必需的文件。 如果您使用Java创建客户端应用程序,请包含必需的JAR文件。 如果您使用的是Web服务,请确保包含代理文件。
必须将以下JAR文件添加到项目的类路径中:
- adobe-livecycle-client.jar
- adobe-usermanager-client.jar
- adobe-assembler-client.jar
- adobe-utilities.jar(在JBoss上部署AEM Forms时必需)
- jbossall-client.jar(如果在JBoss上部署了AEM Forms,则此变量为必需变量)
如果AEM Forms部署在非JBoss的受支持J2EE应用程序服务器上,则必须将adobe-utilities.jar和jbossall-client.jar替换为特定于部署了AEM Forms的J2EE应用程序服务器的JAR文件。
创建PDF汇编程序客户端
在以编程方式执行汇编程序操作之前,必须创建汇编程序服务客户端。
引用现有DDX文档
必须引用DDX文档以拆解PDF文档。 此DDX文档必须包含 PDFsFromBookmarks
元素。
引用PDF文档以拆解
要拆解PDF文档,请引用表示要拆解的PDF文档的PDF文件。 当传递到汇编程序服务时,将为文档中的每个1级书签返回单独的PDF文档。
设置运行时选项
您可以设置运行时选项,以在汇编程序服务执行作业时控制其行为。 例如,您可以设置一个选项,指示汇编程序服务在遇到错误时继续处理作业。
拆解PDF文档
在创建汇编程序服务客户端、引用DDX文档、引用要拆解的PDF文档以及设置运行时选项后,可以通过调用 invokeDDX
方法。 如果DDX文档包含用于拆解PDF文档的指令,汇编程序服务将返回集合对象内已拆解的PDF文档。
保存已拆卸的PDF文档
所有已拆卸的PDF文档都在收集对象中返回。 遍历收集对象,并将每个PDF文档另存为PDF文件。
另请参阅
使用Java API拆解PDF文档 disassemble-a-pdf-document-using-the-java-api
使用汇编程序服务API(Java)拆解PDF文档:
-
包括项目文件。
在Java项目的类路径中包含客户端JAR文件,如adobe-assembler-client.jar。
-
创建PDF汇编程序客户端。
- 创建
ServiceClientFactory
包含连接属性的对象。 - 创建
AssemblerServiceClient
对象,并使用其构造函数进行传递ServiceClientFactory
对象。
- 创建
-
引用现有DDX文档。
- 创建
java.io.FileInputStream
使用其构造函数并传递指定DDX文件位置的字符串值来表示DDX文档的对象。 - 创建
com.adobe.idp.Document
对象,并使用其构造函数进行传递java.io.FileInputStream
对象。
- 创建
-
引用要拆解的PDF文档。
-
创建
java.util.Map
用于通过使用HashMap
构造函数。 -
创建
java.io.FileInputStream
对象,并将PDF文档的位置传递到反汇编。 -
创建
com.adobe.idp.Document
对象并传递java.io.FileInputStream
包含要拆解的PDF文档的对象。 -
在
java.util.Map
通过调用对象put
方法和传递以下参数:- 表示键名称的字符串值。 此值必须匹配DDX文档中指定的PDF源元素的值。
- A
com.adobe.idp.Document
包含要拆解的PDF文档的对象。
-
-
设置运行时选项。
- 创建
AssemblerOptionSpec
使用其构造函数存储运行时选项的对象。 - 通过调用属于
AssemblerOptionSpec
对象。 例如,要指示汇编程序服务在发生错误时继续处理作业,请调用AssemblerOptionSpec
对象setFailOnError
方法和传递false
.
- 创建
-
拆解PDF文档。
调用
AssemblerServiceClient
对象invokeDDX
方法,并传递以下必需值:- A
com.adobe.idp.Document
表示要使用的DDX文档的对象 - A
java.util.Map
包含要拆解的PDF文档的对象 - A
com.adobe.livecycle.assembler.client.AssemblerOptionSpec
指定运行时选项(包括默认字体和作业日志级别)的对象
的
invokeDDX
方法返回com.adobe.livecycle.assembler.client.AssemblerResult
包含已拆卸PDF文档和发生的任何例外的对象。 - A
-
保存已拆卸的PDF文档。
要获取已拆卸的PDF文档,请执行以下操作:
- 调用
AssemblerResult
对象getDocuments
方法。 这会返回java.util.Map
对象。 - 循环访问
java.util.Map
对象,直到找到结果com.adobe.idp.Document
对象。 - 调用
com.adobe.idp.Document
对象copyToFile
方法提取PDF文档。
- 调用
另请参阅
快速入门(SOAP模式):使用Java API拆解PDF文档
使用Web服务API拆解PDF文档 disassemble-a-pdf-document-using-the-web-service-api
使用汇编程序服务API(Web服务)拆解PDF文档:
-
包括项目文件。
创建使用MTOM的Microsoft .NET项目。 在设置服务引用时,请确保使用以下WSDL定义:
http://localhost:8080/soap/services/AssemblerService?WSDL&lc_version=9.0.1
.note note NOTE 替换 localhost
具有托管AEM Forms的服务器的IP地址。 -
创建PDF汇编程序客户端。
-
创建
AssemblerServiceClient
对象。 -
创建
AssemblerServiceClient.Endpoint.Address
对象System.ServiceModel.EndpointAddress
构造函数。 将指定WSDL的字符串值传递到AEM Forms服务(例如,http://localhost:8080/soap/services/AssemblerService?blob=mtom
)。 您无需使用lc_version
属性。 在创建服务引用时,会使用此属性。 -
创建
System.ServiceModel.BasicHttpBinding
对象,方法是获取AssemblerServiceClient.Endpoint.Binding
字段。 将返回值转换为BasicHttpBinding
. -
设置
System.ServiceModel.BasicHttpBinding
对象MessageEncoding
字段WSMessageEncoding.Mtom
. 此值可确保使用MTOM。 -
通过执行以下任务,启用基本HTTP身份验证:
- 将AEM表单用户名分配给字段
AssemblerServiceClient.ClientCredentials.UserName.UserName
. - 为字段分配相应的密码值
AssemblerServiceClient.ClientCredentials.UserName.Password
. - 指定常量值
HttpClientCredentialType.Basic
到字段BasicHttpBindingSecurity.Transport.ClientCredentialType
. - 指定常量值
BasicHttpSecurityMode.TransportCredentialOnly
到字段BasicHttpBindingSecurity.Security.Mode
.
- 将AEM表单用户名分配给字段
-
-
引用现有DDX文档。
- 创建
BLOB
对象。 的BLOB
对象用于存储DDX文档。 - 创建
System.IO.FileStream
对象。 传递一个字符串值,该值表示DDX文档的文件位置以及打开文件的模式。 - 创建用于存储
System.IO.FileStream
对象。 您可以通过获取System.IO.FileStream
对象Length
属性。 - 通过调用
System.IO.FileStream
对象Read
方法及传递要读取的字节数组、起始位置及流长度。 - 填充
BLOB
通过指定对象MTOM
属性。
- 创建
-
引用要拆解的PDF文档。
- 创建
BLOB
对象。 的BLOB
对象用于存储输入PDF文档。 此BLOB
对象被传递到invokeOneDocument
作为参数。 - 创建
System.IO.FileStream
对象,方法是调用其构造函数并传递一个字符串值,该字符串值表示输入PDF文档的文件位置和打开文件的模式。 - 创建用于存储
System.IO.FileStream
对象。 您可以通过获取System.IO.FileStream
对象Length
属性。 - 通过调用
System.IO.FileStream
对象Read
方法及传递要读取的字节数组、起始位置及流长度。 - 填充
BLOB
通过指定对象MTOM
字段字节数组的内容。 - 创建
MyMapOf_xsd_string_To_xsd_anyType
对象。 此收集对象用于存储要拆解的PDF。 - 创建
MyMapOf_xsd_string_To_xsd_anyType_Item
对象。 - 为分配表示键名称的字符串值
MyMapOf_xsd_string_To_xsd_anyType_Item
对象key
字段。 此值必须匹配DDX文档中指定的PDF源元素的值。 - 分配
BLOB
将PDF文档存储到MyMapOf_xsd_string_To_xsd_anyType_Item
对象value
字段。 - 添加
MyMapOf_xsd_string_To_xsd_anyType_Item
对象MyMapOf_xsd_string_To_xsd_anyType
对象。 调用MyMapOf_xsd_string_To_xsd_anyType
对象'Add
方法和通过MyMapOf_xsd_string_To_xsd_anyType
对象。
- 创建
-
设置运行时选项。
- 创建
AssemblerOptionSpec
使用其构造函数存储运行时选项的对象。 - 通过为属于
AssemblerOptionSpec
对象。 例如,要指示汇编程序服务在发生错误时继续处理作业,请指定false
到AssemblerOptionSpec
对象failOnError
字段。
- 创建
-
拆解PDF文档。
调用
AssemblerServiceClient
对象invokeDDX
方法并传递以下值:- A
BLOB
表示分解PDF文档的DDX文档的对象 - 的
MyMapOf_xsd_string_To_xsd_anyType
包含要拆解的PDF文档的对象 - 安
AssemblerOptionSpec
指定运行时选项的对象
的
invokeDDX
方法返回AssemblerResult
包含作业结果和发生的任何例外的对象。 - A
-
保存已拆卸的PDF文档。
要获取新创建的PDF文档,请执行以下操作:
- 访问
AssemblerResult
对象documents
字段,Map
包含已拆卸的PDF文档的对象。 - 循环访问
Map
对象来获取每个生成文档。 然后,将该阵列成员的value
至BLOB
. - 通过访问表示PDF文档的二进制数据
BLOB
对象MTOM
属性。 这会返回一个字节数组,您可以将其写出到PDF文件。
- 访问
另请参阅