配置监视文件夹端点 configuring-watched-folder-endpoints

CAUTION
AEM 6.4已结束扩展支持,本文档将不再更新。 有关更多详细信息,请参阅 技术支助期. 查找支持的版本 此处.

管理员可以配置网络文件夹(称为 监视文件夹,以便当用户将文件(如PDF文件)放置到监视的文件夹中时,将调用配置的服务操作并处理该文件。 服务执行指定操作后,会将修改后的文件保存在指定的输出文件夹中。

配置监视文件夹服务 configuring-the-watched-folder-service

在配置监视文件夹端点之前,请配置监视文件夹服务。 监视文件夹服务的配置参数有两个用途:

  • 配置所有监视文件夹端点的通用属性
  • 为所有监视文件夹端点提供默认值

配置“监视文件夹”服务后,可以为目标服务添加“监视文件夹”端点。 添加端点时,可设置值,如将文件或文件夹放置在配置的监视文件夹服务的输入文件夹中时要调用的服务名称和操作名称。 有关配置已监视文件夹服务的详细信息,请参阅 监视的文件夹服务设置.

创建监视文件夹 creating-a-watched-folder

您可以通过以下两种方式创建已监视的文件夹:

  • 在为监视文件夹端点配置设置时,在“路径”框中键入父目录的完整路径,并附加要创建的监视文件夹的名称,如本例所示:
      C:\MyPDFs\MyWatchedFolder由于MyWatchedFolder文件夹不存在,AEM表单会尝试在该位置创建该文件夹。

  • 在配置监视的文件夹端点之前在文件系统上创建文件夹,然后在“路径”框中键入完整路径。

在群集环境中,将用作监视文件夹的文件夹必须在文件系统或网络上可访问、可写和共享。 在此方案中,群集的每个应用程序服务器实例都必须有权访问同一共享文件夹。

在Windows中,如果应用程序服务器作为服务运行,则必须通过以下方式之一以对共享文件夹的适当访问权限启动该应用程序:

  • 配置应用程序服务器服务登录为 参数 以具有共享监视文件夹的适当访问权限的特定用户开始。
  • 将应用程序服务器服务启动为本地系统选项配置为允许服务与桌面交互。 此选项要求共享的监视文件夹对每个人都可访问和写。

已监视文件夹链接在一起 chaining-together-watched-folders

监视文件夹可以链接在一起,以便一个监视文件夹的结果文档是下一个监视文件夹的输入文档。 每个已监视文件夹都可以调用其他服务。 通过以这种方式配置受监视的文件夹,可以调用多项服务。 例如,一个受监视文件夹可以将PDF文件转换为Adobe PostScript®,而另一个受监视文件夹可将PostScript文件转换为PDF/A格式。 要执行此操作,只需将 结果 由您的第一个端点定义的监视文件夹的文件夹,以指向 输入 第二个端点定义的监视文件夹的文件夹。

第一次转换的输出将转到\path\result。 第二次转换的输入是\path\result,第二次转换的输出将转到\path\result\result (或第二次转换的“结果文件夹”框中定义的目录)。

用户如何与已监视文件夹交互 how-users-interact-with-watched-folders

对于监视文件夹端点,用户可以通过将输入文件或文件夹从其桌面复制或拖动到监视文件夹来调用。 将按文件到达的顺序处理文件。

对于已监视文件夹端点,如果作业只需要一个输入文件,则用户可以将该文件复制到已监视文件夹的根文件夹。

如果作业包含多个输入文件,则用户必须在监视文件夹层次结构之外创建一个包含所有必需文件的文件夹。 此新文件夹应包括输入文件(如果进程需要,还可选择包含DDX文件)。 作业文件夹构建完成后,用户会将其复制到监视文件夹的输入文件夹中。

NOTE
确保应用程序服务器已删除对监视文件夹中文件的访问权限。 如果AEM表单在扫描后无法从输入文件夹中删除文件,则将无限期地调用关联的进程。

监视的文件夹输出 watched-folder-output

如果输入是文件夹,并且输出包含多个文件,则AEM Forms会创建一个与输入文件夹同名的输出文件夹,并将输出文件复制到该文件夹中。 当输出由包含键值对的文档映射(如输出进程的输出)组成时,键将用作输出文件名。

端点进程产生的输出文件名不能包含字母、数字和句点(.)以外的字符 在文件扩展名之前。 AEM Forms会将其他字符转换为其十六进制值。

客户端应用程序从监视的文件夹结果文件夹中选取结果文档。 进程错误记录在监视文件夹失败文件夹中。

监视文件夹的工作方式 how-watched-folder-works

监视文件夹模块包含以下服务:

  • 监视文件夹服务
  • provider.file_scan_service
  • provider.file_write_results_service

除了上面列出的服务外,“监视文件夹”还依赖于其他服务,包括调度作业的调度程序服务和支持目标服务异步调用的作业管理器服务。

监视文件夹如何处理调用请求 how-watched-folder-processes-an-invocation-request

监视文件夹服务可处理端点的创建、更新和删除。 管理员创建端点后,将根据指定的重复间隔或cron表达式,安排由调度程序服务触发这些端点。

此图说明了“监视文件夹”如何处理调用请求。

en_watchedfolder

使用已监视文件夹调用服务的过程如下所示:

  1. 客户端应用程序将文件或文件夹放置在监视的文件夹输入文件夹中。

  2. 当发生作业扫描间隔时,调度程序服务会调用provider.file_scan_service来处理输入文件夹中的文件或文件夹。

  3. provider.file_scan_service执行以下任务:

    • 扫描输入文件夹以查找与包含文件模式匹配的文件或文件夹,并排除指定排除文件模式的文件或文件夹。 首先选取最早的文件或文件夹。 还会选取等待时间之前的文件和文件夹。 在一次扫描中,处理的文件或文件夹数量基于批处理大小。 有关文件模式的信息,请参阅 关于文件模式. 有关设置批处理大小的信息,请参阅 监视的文件夹服务设置.
    • 选取要处理的文件或文件夹。 如果文件或文件夹未完全下载,则会在下次扫描中选取它们。 为确保文件夹已完全下载,管理员应使用排除文件模式创建一个具有名称的文件夹。 文件夹具有所有文件后,必须将其重命名为包含文件模式中指定的模式。 此步骤可确保文件夹具有调用服务所需的所有文件。 有关确保文件夹已完全下载的更多信息,请参阅 已监视文件夹的提示和技巧.
    • 在选择文件或文件夹进行处理后,将它们移到暂存文件夹。
    • 根据端点输入参数映射,将stage文件夹中的文件或文件夹转换为相应的输入。 有关输入参数映射的示例,请参阅 已监视文件夹的提示和技巧.
  4. 为端点配置的目标服务将同步或异步调用。 可使用为端点配置的用户名和密码调用目标服务。

    • 同步调用会直接调用目标服务并立即处理响应。
    • 对于异步调用,目标服务通过作业管理器服务进行调用,该服务会将请求置于队列中。 作业管理器服务反过来会调用provider.file_write_results_service来处理结果。
  5. provider.file_write_results_service处理目标服务调用的响应或失败。 成功后,输出将根据端点配置保存到结果文件夹中。 如果端点配置为在成功完成后保留结果,则provider.file_write_results_service也会保留源。

    当目标服务的调用导致失败时,provider.file_write_results_service将失败原因记录在failure.log文件中,并将该文件放在failure文件夹中。 根据为端点指定的配置参数创建失败文件夹。 当管理员为端点配置设置“Preserve On Failure(保留失败)”选项时,provider.file_write_results_service也会将源文件复制到故障文件夹中。 有关从失败文件夹恢复文件的信息,请参阅 故障点和恢复.

监视文件夹端点设置 watched-folder-endpoint-settings

使用以下设置配置监视文件夹端点。

名称: (必需)标识端点。 不要包含<字符,因为它将截断工作区中显示的名称。 如果输入URL作为端点的名称,请确保它符合RFC1738中指定的语法规则。

描述: 端点的描述。 请勿包含<字符,因为它将截断工作区中显示的描述。

路径: (必需)指定监视的文件夹位置。 在群集环境中,此设置必须指向可从群集中的每台计算机访问的共享网络文件夹。

异步: 将调用类型标识为异步或同步。 默认值为异步。 建议对于长生命周期进程使用异步,而对于临时或短生命周期进程,建议使用同步。

Cron表达式: 如果必须使用cron表达式计划监视的文件夹,请输入cron表达式。 配置此设置后,将忽略重复间隔。

重复间隔: 扫描已监视文件夹以进行输入的间隔,以秒为单位。 除非启用“限制”设置,否则“重复间隔”应比处理平均作业的时间长;否则,系统可能会变得过载。 默认值为 5。有关其他信息,请参阅批量大小说明。

重复计数: 监视文件夹扫描文件夹或目录的次数。 值为–1表示无限扫描。 默认值为–1。

限制: 选择此选项后,将限制AEM表单在任何给定时间处理的已监视文件夹作业的数量。 最大作业数由批量大小值确定。 (请参阅关于限制。)

用户名: (必需)从监视文件夹调用目标服务时使用的用户名。 默认值为SuperAdmin。

域名: (必需)用户的域。 默认值为DefaultDom。

批量: 每次扫描要选取的文件或文件夹数。 用于防止系统过载;一次扫描过多文件可能会导致崩溃。 默认值为 2。

“重复间隔”和“批量大小”设置可确定“监视文件夹”在每次扫描中接收的文件数。 监视文件夹使用石英线程池扫描输入文件夹。 线程池与其他服务共享。 如果扫描间隔较小,线程将经常扫描输入文件夹。 如果文件经常被放入监视文件夹,则扫描间隔应保持较小。 如果文件不常被删除,请使用较大的扫描间隔,以便其他服务可以使用线程。

如果删除的文件量很大,请使批处理大小变大。 例如,如果监视文件夹端点调用的服务每分钟可处理700个文件,并且用户以相同的速率将文件放入输入文件夹,则将“批处理大小”设置为350,将“重复间隔”设置为30秒将有助于“监视文件夹”性能,而不会太频繁地扫描监视文件夹。

将文件放入监视文件夹后,会在输入中列出文件,如果每秒进行扫描,会降低性能。 增加扫描间隔可以提高性能。 如果要删除的文件量较小,请相应地调整批量大小和重复间隔。 例如,如果每秒删除10个文件,请尝试将“重复间隔”设置为1秒,将“批处理大小”设置为10。

等待时间: 文件夹或文件创建后,在扫描之前等待的时间(以毫秒为单位)。 例如,如果等待时间为3,600,000毫秒(一小时),而文件是在一分钟前创建的,则此文件将在59分钟或更久之后被提取。 默认值为 0。

此设置有助于确保文件或文件夹已完全复制到输入文件夹。 例如,如果要处理大文件,并且文件需要10分钟才能下载,请将等待时间设置为10*60 *1000毫秒。 如果文件未保持10分钟,则阻止监视文件夹扫描文件。

排除文件模式: 分号 ; 已监视文件夹用来确定要扫描和选取的文件和文件夹的模式的分隔列表。 将不会扫描任何具有此模式的文件或文件夹进行处理。

当输入的文件夹包含多个文件时,此设置非常有用。 文件夹的内容可以复制到一个文件夹中,该文件夹的名称将由监视的文件夹选取。 这样可防止监视文件夹在将文件夹完全复制到输入文件夹之前提取文件夹进行处理。

您可以使用文件模式排除:

  • 具有特定文件扩展名的文件;例如,*.dat、*.xml、*.pdf。

  • 具有特定名称的文件;例如,数据。*将排除名为 data1, data2,等等。

  • 名称和扩展名中具有复合表达式的文件,如以下示例所示:

    • 数据[0-9][0-9][0-9].[dD][aA][tT]
    • *.[dD][Aa][Tt]
    • *.[Xx][Mm][Ll]

有关文件模式的更多信息,请参阅 关于文件模式.

包含文件模式: (必填)分号 ; 已监视文件夹用来确定要扫描和选取的文件夹和文件的模式的分隔列表。 例如,如果“Include File Pattern(包含文件模式)”为input*,则所有与input&ast(输入和发送)匹配的文件和文件夹;被接走。 这包括名为input1、input2等的文件和文件夹。

默认值为*和指示所有文件和文件夹。

您可以使用文件模式包括:

  • 具有特定文件扩展名的文件;例如,*.dat、*.xml、*.pdf。

  • 具有特定名称的文件;例如,数据。*将包含名为 data1, data2,等等。

  • 名称和扩展名中具有复合表达式的文件,如以下示例所示:

    • 数据[0-9][0-9][0-9].[dD][aA][tT]
    • *.[dD][Aa][Tt]
    • *.[Xx][Mm][Ll]

有关文件模式的更多信息,请参阅 关于文件模式.

结果文件夹: 保存结果的文件夹。 如果结果未显示在此文件夹中,请检查失败文件夹。 只读文件不会进行处理,并将保存在失败文件夹中。 此值可以是具有以下文件模式的绝对路径或相对路径:

  • %F =文件名前缀
  • %E =文件扩展名
  • %Y =年(满)
  • %y =年(最后两位)
  • %M =月
  • %D =每月的某天
  • %d =每年的某天
  • %H =小时(24小时制)
  • %h =小时(12小时制)
  • %m =分钟
  • %s =秒
  • %l =毫秒
  • %R =随机数(介于0和9之间)
  • %P =进程ID或作业ID

例如,如果在2009年7月17日晚上8点,并且您指定 C:/Test/WF0/failure/%Y/%M/%D/%H/,结果文件夹为 C:/Test/WF0/failure/2009/07/17/20.

如果路径不是绝对路径,而是相对路径,则将在监视的文件夹内创建文件夹。 默认值为result/%Y/%M/%D/,这是监视文件夹内的Result文件夹。 有关文件模式的更多信息,请参阅 关于文件模式.

NOTE
结果文件夹的大小越小,“监视的文件夹”性能就越好。 例如,如果监视文件夹的估计负载每小时为1000个文件,请尝试类似于 result/%Y%M%D%H 以便每小时创建新子文件夹。 如果负载较小(例如,每天1000个文件),则可以使用类似 result/%Y%M%D.

保留文件夹: 成功扫描和提取后文件的存储位置。 路径可以是绝对路径、相对路径或空目录路径。 可以使用文件模式,如“结果文件夹”中所述。 默认值为preserve/%Y/%M/%D/。

失败文件夹: 保存失败文件的文件夹。 此位置始终与监视文件夹相对。 可以使用文件模式,如“结果文件夹”中所述。

只读文件不会进行处理,并将保存在失败文件夹中。

默认值为failure/%Y/%M/%D/。

失败时保留: 在无法对服务执行操作时保留输入文件。 默认值为true。

覆盖重复的文件名: 设置为True时,将覆盖结果文件夹和保留文件夹中的文件。 当设置为False时,名称将使用带数字索引后缀的文件和文件夹。 默认值为False。

清除持续时间: (必需)结果文件夹中的文件和文件夹如果比此值旧,则会清除它们。 此值以天为单位。 此设置有助于确保结果文件夹不会变满。

值为–1天表示从不删除结果文件夹。 默认值为–1。

操作名称: (必需)可分配给监视文件夹端点的操作列表。

输入参数映射: 用于配置处理服务和操作所需的输入。 可用的设置取决于使用监视文件夹端点的服务。 以下是两种类型的输入:

文字: 监视文件夹使用在字段中输入的显示值。 支持所有基本的Java类型。 例如,如果API使用String、long、int和Boolean等输入,则字符串将转换为正确的类型并调用服务。

变量: 输入的值是已监视文件夹用来选取输入的文件模式。 例如,在加密密码服务(输入文档必须是PDF文件)中,用户可以使用*.pdf作为文件模式。 监视文件夹将选取与此模式匹配的监视文件夹中的所有文件,并为每个文件调用服务。 使用变量时,所有输入文件都将转换为文档。 仅支持使用文档作为输入类型的API。

输出参数映射: 用于配置服务和操作的输出。 可用的设置取决于使用监视文件夹端点的服务。

监视的文件夹输出可以是单个文档、文档列表或文档映射。 然后,这些输出文档将使用在“输出参数映射”中指定的模式保存在结果文件夹中。

NOTE
指定产生唯一输出文件名的名称可提高性能。 例如,假定服务返回一个输出文档,而输出参数映射将其映射到 %F.%E (输入文件的文件名和扩展名)。 在这种情况下,如果用户每分钟删除具有相同名称的文件,并将结果文件夹配置为 result/%Y/%M/%D,并且“覆盖重复文件名”设置处于关闭状态,“监视文件夹”将尝试解析重复的文件名。 解析重复文件名的过程可能会影响性能。 在这种情况下,将输出参数映射更改为 %F_%h_%m_%s_%l 要向名称中添加小时、分钟、秒和毫秒,或确保删除的文件具有唯一名称可能会提高性能。

关于文件模式 about-file-patterns

管理员可以指定可调用服务的文件类型。 可以为每个监视文件夹建立多个文件模式。 文件模式可以是以下文件属性之一:

  • 具有特定文件名扩展名的文件;例如,*.dat、*.xml、*.pdf、;

  • 具有特定名称的文件;例如,数据。*

  • 名称和扩展名中具有复合表达式的文件,如以下示例所示:

    • 数据[0-9][0-9][0-9].[dD][aA][tT]
    • *.[dD][Aa][Tt]
    • *.[Xx][Mm][Ll]

管理员可以定义要在其中存储结果的输出文件夹的文件模式。 对于输出文件夹(结果、保留和失败),管理员可以指定以下任何文件模式:

  • %Y =年(满)
  • %y =年(最后两位)
  • %M =月,
  • %D =月中某天,
  • %d =每年的某天,
  • %h =小时,
  • %m =分钟,
  • %s =秒,
  • %R = 0-9之间的随机数
  • %J =作业名称

例如,结果文件夹的路径可能是 C:\Adobe\Adobe_Experience_Manager_forms\BarcodedForms\%y\%m\%d.

输出参数映射还可以指定其他模式,例如:

  • %F =源文件名
  • %E =源文件扩展名

如果输出参数映射模式以“File.separator”(路径分隔符)结尾,则会创建一个文件夹并将内容复制到该文件夹中。 如果模式不以“File.separator”结尾,则使用该名称创建内容(结果文件或文件夹)。 有关输出参数映射的更多信息,请参阅 已监视文件夹的提示和技巧.

关于限制 about-throttling

为监视文件夹端点启用限制后,它将限制可在任何给定时间处理的监视文件夹作业的数量。 最大作业数由批量大小值确定,也可在“监视文件夹”端点中进行配置。 达到限制限制时,将不会轮询已监视文件夹输入目录中的传入文档。 文档也将保留在输入目录中,直到其他已监视的文件夹作业完成并再次尝试轮询为止。 在同步处理时,在单次轮询中处理的所有作业都将计入限制,即使这些作业在单个线程中连续处理也是如此。

NOTE
限制不随群集扩展。 启用限制后,集群作为一个整体将不会在任何给定时间处理超过“批处理大小”中指定的作业数。 此限制是群集范围的,并非群集中每个节点的特定限制。 例如,如果批量大小为2,则在一个节点处理两个作业时可以达到限制限制,而其他节点不会轮询输入目录直到完成其中一个作业为止。

节流的工作原理 how-throttling-works

监视文件夹在每个重复间隔时扫描输入文件夹,选取批量大小中指定的文件数,并为每个文件调用目标服务。 例如,如果批处理大小为4,则监视文件夹在每次扫描时将选取4个文件,创建4个调用请求,并调用目标服务。 在完成这些请求之前,如果调用“已监视文件夹”,则无论前四个作业是否完成,都会再次启动四个作业。

限制会阻止监视文件夹在前一个作业未完成时调用新作业。 已监视文件夹将检测正在进行的作业,并根据批处理大小减去正在进行的作业来处理新作业。 例如,在第二次调用中,如果已完成的作业数仅为三个,并且一个作业仍在进行中,则“监视文件夹”仅会再调用三个作业。

  • “已监视文件夹”依赖于暂存文件夹中存在的文件数,以确定正在进行的作业数。 如果文件在暂存文件夹中保持未处理,则“已监视文件夹”将不再调用任何作业。 例如,如果批量大小为4,并且3个作业停止,则“监视文件夹”将在后续调用中仅调用一个作业。 存在多种情况,可能导致暂存文件夹中的文件保持未处理状态。 作业停止后,管理员可以终止表单工作流管理页面上的进程,以便“已监视文件夹”将文件移出暂存文件夹。
  • 如果表单服务器在监视文件夹能够调用作业之前关闭,则管理员可以将文件移出暂存文件夹。 有关信息,请参阅 故障点和恢复.
  • 如果表单服务器正在运行,但当作业管理器服务回调时“监视文件夹”未运行(服务未按顺序启动时发生),则管理员可以将文件移出暂存文件夹。 有关信息,请参阅 故障点和恢复.

性能和可扩展性 performance-and-scalability

监视文件夹可在一个节点上共提供100个文件夹。 “已监视文件夹”的性能取决于表单服务器的性能。 对于异步调用,性能更取决于作业管理器队列中的系统负载和作业。

通过向群集中添加节点,可以提高监视文件夹的性能。 监视的文件夹作业通过Quartz调度程序和作业管理器服务在异步请求时跨群集节点进行分发。 所有作业都将保留在数据库中。

监视的文件夹取决于调度程序服务来调度、取消调度和重新计划作业。 其他服务(如事件管理服务、用户管理器服务和电子邮件提供程序服务)可共享调度程序服务线程池。 这会影响“已监视文件夹”的性能。 当所有服务开始使用调度程序服务线程池时,将需要调度程序服务线程池调整。

已监视群集中的文件夹 watched-folders-in-a-cluster

在群集中,“监视文件夹”取决于Quartz调度程序和作业管理器服务,以进行负载平衡和故障转移。 有关Quartz群集行为的详细信息,请参阅 石英文献.

监视文件夹在每次投票时执行以下三项主要任务:

  • 扫描文件夹
  • 调用目标服务
  • 处理结果

负载平衡和故障转移行为会根据监视文件夹是配置为同步调用还是异步调用而发生更改。

群集中的同步监视文件夹 synchronous-watched-folder-in-a-cluster

为了进行同步调用,Quartz负载平衡器将决定哪个节点将获得轮询事件。 获取轮询事件的节点将执行所有任务:扫描文件夹、调用target服务并处理结果。

en_synchwatchedfoldercluster

为了进行同步调用,当一个节点出现故障时,Quartz调度程序会向其他节点发送新的轮询事件。 在失败节点上启动的调用将丢失。 有关如何恢复与失败作业关联的文件的详细信息,请参阅 故障点和恢复.

群集中的异步监视文件夹 asynchronous-watched-folder-in-a-cluster

对于异步调用,Quartz负载平衡器将决定哪个节点将获得轮询事件。 获取轮询事件的节点将扫描输入文件夹,并通过将请求置于作业管理器服务队列中来调用目标服务。 作业管理器服务负载平衡器反过来负责确定哪个节点将处理调用请求。 即使节点A创建了调用请求,节点B也可能最终处理该请求。 或者,启动调用请求的节点也可能最终处理该请求。

en_asyncwatchedfoldercluster

对于异步调用,当一个节点出现故障时, Quartz调度程序会向其他节点发送新的轮询事件。 在失败节点上创建的调用请求将位于作业管理器服务队列中,并将发送到其他节点进行处理。 未创建调用请求的文件将保留在暂存文件夹中。 有关如何恢复与失败作业关联的文件的详细信息,请参阅 故障点和恢复.

故障点和恢复 failure-points-and-recovery

在每个轮询事件中,“监视文件夹”会锁定输入文件夹,将与包含文件模式匹配的文件移动到暂存文件夹,然后解锁输入文件夹。 需要锁定,以便两个线程不会选取同一组文件并处理它们两次。 如果重复间隔较小且批量较大,则发生这种情况的可能性会增加。 将文件移到暂存文件夹后,将解锁输入文件夹,以便其他线程可以扫描该文件夹。 此步骤有助于提供高吞吐量,因为在一个线程处理文件时,其他线程可以扫描。

将文件移到暂存文件夹后,将为每个文件创建调用请求并调用目标服务。 有时,监视文件夹无法恢复暂存文件夹中的文件:

  • 如果服务器在“监视文件夹”可以创建调用请求之前关闭,则暂存文件夹中的文件将保留在暂存文件夹中,且无法恢复。
  • 如果“监视文件夹”已成功为stage文件夹中的每个文件创建调用请求,并且服务器崩溃,则基于调用类型有两种行为:

同步: 如果“已监视文件夹”配置为同步调用服务,则暂存文件夹中的所有文件在暂存文件夹中都将保留未处理。

异步: 在这种情况下,“已监视文件夹”依赖于作业管理器服务。 如果作业管理器服务调用回监视文件夹,则根据调用结果将暂存文件夹中的文件移动到保留或失败文件夹中。 如果作业管理器服务未回调“已监视文件夹”,则这些文件将在暂存文件夹中保持未处理状态。 当作业管理器回调时,监视文件夹未运行时,会发生这种情况。

恢复暂存文件夹中未处理的源文件 recovering-unprocessed-source-files-in-the-stage-folder

当“监视文件夹”无法处理暂存文件夹中的源文件时,您可以恢复未处理的文件。

  1. 重新启动应用程序服务器或节点。

  2. (可选)停止监视文件夹处理新的输入文件。 如果跳过此步骤,将很难确定哪些文件在暂存文件夹中未处理。 要阻止监视文件夹处理新的输入文件,请执行以下任务之一:

    • 在Applications and Services中,将监视文件夹端点的Include File Pattern(包含文件模式)参数更改为与任何新输入文件都不匹配的参数(例如,输入 NOMATCH)。
    • 暂停创建新输入文件的进程。

    等待AEM表单恢复并处理所有文件。 大多数文件都应该恢复,任何新的输入文件都应正确处理。 等待监视文件夹恢复和处理文件的时长取决于要调用的操作长度和要恢复的文件数量。

  3. 确定无法处理的文件。 如果您等待了适当的时间并完成了上一步,并且暂存文件夹中仍有未处理的文件,请转到下一步。

    note note
    NOTE
    您可以查看暂存目录中文件的日期和时间戳。 根据文件数量和正常处理时间,您可以确定哪些文件的旧版本足以被视为卡住。
  4. 将未处理的文件从暂存目录复制到输入目录。

  5. 如果阻止监视文件夹在步骤2中处理新的输入文件,请将“包含文件模式”更改为其上一个值,或重新启用您禁用的进程。

已监视文件夹的安全注意事项 security-considerations-for-watched-folders

每个监视文件夹都配置了用户名和密码。 调用服务时会使用这些凭据。 已监视文件夹依赖于以下事实:共享文件夹受基础安全文件系统保护,以便只有已监视文件夹的所有者才能访问共享文件夹。

已监视文件夹的提示和技巧 tips-and-tricks-for-watched-folders

以下是配置已监视文件夹端点时的一些提示和技巧:

  • 如果在Windows上有一个正在处理图像文件的监视文件夹,请为“Include File Pattern(包含文件模式)”或“Exclude File Pattern(排除文件模式)”选项指定值,以防止Windows自动生成的Thumbs.db文件被监视文件夹轮询。

  • 如果指定了cron表达式,则会忽略重复间隔。 cron表达式的使用基于Quartz开源作业调度系统1.4.0版。

  • 批量大小是指在监视文件夹的每次扫描中将提取的文件或文件夹数量。 如果将批处理大小设置为两个,并将十个文件或文件夹放置在监视的文件夹输入文件夹中,则每次扫描中只会选取两个文件或文件夹。 在下次扫描(将在重复间隔中指定的时间后进行)中,接下来的两个文件将被选取。

  • 对于文件模式,管理员可以指定正则表达式,并添加对通配符模式的支持,以指定文件模式。 已监视文件夹修改正则表达式以支持通配符模式,如*。*或*.pdf。 正则表达式不支持这些通配符模式。

  • “监视文件夹”扫描输入文件夹以查找输入内容,并且在源文件或文件夹开始处理该文件或文件夹之前不知道源文件或文件夹是否已完全复制到输入文件夹。 要确保在选取文件或文件夹之前将源文件或文件夹完全复制到监视文件夹的输入文件夹中,请执行以下任务:

    • 使用等待时间,即“监视文件夹”从上次修改时间后等待的时间(以毫秒为单位)。 如果要处理大文件,请使用此功能。 例如,如果下载文件需要10分钟,请将等待时间指定为10(&A);60(&A);1000毫秒。 如果文件不是10分钟以前的旧文件,则会阻止“已监视文件夹”选取该文件。
    • 使用排除文件模式并包含文件模式。 例如,如果排除文件模式为 ex* 包含文件模式为 in*,“监视文件夹”将选取以“in”开头的文件,而不会选取以“ex”开头的文件。 要复制大型文件或文件夹,请首先重命名文件或文件夹,以使名称以“ex”开头。 将名为“ex”的文件或文件夹完全复制到监视的文件夹后,将其重命名为“in&ast;”。
  • 使用清除持续时间来保持结果文件夹干净。 已监视文件夹会清除清除持续时间中提及的持续时间之前的所有文件。 持续时间以天为单位。

  • 添加监视文件夹端点时,在选择操作名称后,将填充输入参数映射。 对于操作的每个输入,产生一个输入参数映射字段。 以下是输入参数映射的示例:

    • 对于 com.adobe.idp.Document 输入:如果服务操作具有类型的输入 Document,管理员可以将映射类型指定为 Variable. 监视文件夹将根据为输入参数指定的文件模式从监视文件夹的输入文件夹中选取输入内容。 如果管理员指定 *.pdf 作为参数,将选取每个扩展名为.pdf的文件,并将其转换为 com.adobe.idp.Document,以及调用的服务。
    • 对于 java.util.Map 输入:如果服务操作具有类型的输入 Map,管理员可以将映射类型指定为 Variable 并输入具有类似 *.pdf. 例如,一项服务需要一个2的映射 com.adobe.idp.Document 表示输入文件夹中两个文件(如1.pdf和2.pdf)的对象。 监视文件夹将创建一个映射,其中,键为文件名,值为 com.adobe.idp.Document.
    • 对于 java.util.List 输入:如果服务操作的输入类型为List,则管理员可以将映射类型指定为 Variable 并输入具有类似 *.pdf. 当PDF文件放入输入文件夹后,“监视文件夹”将创建 com.adobe.idp.Document 表示这些文件并调用目标服务的对象。
    • 对于 java.lang.String:管理员有两个选项。 首先,管理员可以将映射类型指定为 Literal 并输入映射值作为字符串,例如 hello. 监视文件夹将使用字符串调用服务 hello. 其次,管理员可以将映射类型指定为 Variable 并输入具有类似 *.txt. 在后一种情况下,扩展名为.txt的文件将被读作被强制作为字符串以调用服务的文档。
    • Java基元类型:管理员可将映射类型指定为 Literal 和提供值。 已监视文件夹将使用指定的值调用服务。
  • 已监视文件夹可用于处理文档。 支持的输出为 com.adobe.idp.Document, org.w3c.Document, org.w3c.Node,以及这些类型的列表和映射。 任何其他类型都将导致失败文件夹中出现失败输出。

  • 如果结果不在结果文件夹中,请验证失败文件夹以查看是否发生了故障。

  • 在异步模式下使用时,“监视文件夹”效果最佳。 在此模式下,“监视文件夹”将调用请求放入队列并回调。 然后,将异步处理队列。 未设置异步选项时,“监视文件夹”会同步调用目标服务,进程引擎会等待服务完成并生成请求结果。 如果目标服务需要较长时间才能处理请求,则“已监视文件夹”可能会出现超时错误。

  • 创建用于导入和导出操作的监视文件夹不允许文件扩展名抽象。 使用监视文件夹调用表单数据集成服务时,输出文件的文件扩展名类型可能与文档对象类型的预期输出格式不匹配。 例如,如果用于调用导出操作的监视文件夹的输入文件是包含数据的XFA表单,则输出应为XDP数据文件。 要获取文件扩展名正确的输出文件,可以在输出参数映射中指定它。 在此示例中,您可以使用%F.xdp进行输出参数映射。

  • 已监视的文件夹可能会先处理输入文件,然后再将它们完全复制到文件夹。 文件锁定在UNIX上不是强制的,因为它在Windows上。 因此,当文件被复制到监视文件夹时,监视文件夹可能会将文件移动到暂存环境,而无需等待文件副本完成。 此行为仅导致处理部分输入文件。 目前有两种解决方法:

    • 解决方法1

      1. 指定“排除文件模式”的模式,如temp*.ps。
      2. 将以temp(例如temp1.ps)开头的文件复制到监视的文件夹。
      3. 将文件完全复制到监视文件夹后,重命名文件,使其与为“Include File Pattern”(包含文件模式)指定的模式相对应。 随后,已监视文件夹会将已完成的文件移至暂存位置。
    • 解决方法2

      如果您知道将文件复制到已监视文件夹将花费的最长时间,请指定等待时间(以秒为单位)。 随后,已监视文件夹会等待指定的时长,然后才将文件移至暂存环境。

      对于Windows上的文件,这不是问题,因为当一个线程正在写入时,Windows会锁定文件。 但是,这是Windows上的文件夹存在的问题。 对于文件夹,必须按照解决方法1中的步骤操作。

  • 如果“监视文件夹”的“保留文件夹名称”端点属性设置为空目录路径,则暂存目录不会按应清理的方式清除。 目录仍包含已处理的文件和临时文件夹。

已监视文件夹的特定于服务的建议 service-specific-recommendations-for-watched-folders

对于所有服务,您应调整已监视文件夹的批处理大小和重复间隔,以便“已监视文件夹”选取新文件和文件夹进行处理的速率不超过AEM表单服务器可处理的作业速率。 实际使用的参数可能因配置的监视文件夹数量、使用监视文件夹的服务以及处理器上作业的密集程度而异。

生成PDF服务推荐 generate-pdf-service-recommendations

  • “生成PDF”服务一次只能转换一个文件,以用于这些文件类型:Microsoft Word、Microsoft Excel、Microsoft PowerPoint、Microsoft Project、AutoCAD、Adobe Photoshop®、Adobe FrameMaker®和AdobePageMaker®。 这些是长期存在的工作;因此,请确保将批量大小保持在较低的设置。 如果群集中有更多节点,还应增加重复间隔。
  • 对于PostScript(PS)、封装的PostScript(EPS)和图像文件类型,“生成PDF”服务可以并行处理多个文件。 您应根据服务器容量和群集中节点数,仔细调整会话Bean池大小(该大小控制将并行完成的转化次数)。 然后,将批处理大小增加到与您尝试转换的文件类型的会话Bean池大小相等的数字。 轮询频率应由群集中节点数量决定;但是,由于“生成PDF”服务会非常快地处理这些类型的作业,因此您可以将重复间隔配置为低值,如5或10。
  • 即使“生成PDF”服务一次只能转换一个OpenOffice文件,转换速度也相当快。 上述PS、EPS和图像转换逻辑也适用于OpenOffice转换。
  • 为了在集群中实现均匀的负载分配,请保持小批量大小并增加重复间隔。

条形码表单服务建议 barcoded-forms-service-recommendations

  • 要在处理条形码表单(小文件)时获得最佳性能,请输入 10 (对于批大小和 2 (重复间隔)。

  • 当许多文件放在输入文件夹中时,会出现以下错误: thumbs.db 可能会发生。 因此,建议将包含文件的“包含文件模式”设置为为输入变量指定的相同值(例如, *.tiff)。 这会阻止监视文件夹处理数据库文件。

  • 批量大小值 5 和重复间隔 2 通常就足够了,因为条形码Forms服务通常需要大约5秒才能处理一个条形码。

  • 监视文件夹不会等待进程引擎完成作业,然后它才会选取新文件或文件夹。 它会继续扫描已监视的文件夹并调用目标服务。 此行为可能会使引擎过载,导致资源问题和超时。 确保使用重复间隔和批处理大小来限制已监视文件夹的输入。 如果有更多监视文件夹,则可以增加重复间隔并减小批处理大小,或者对端点启用限制。 有关限制的信息,请参阅 关于限制.

  • 监视文件夹模拟在用户名和域名中指定的用户。 如果直接调用或进程短暂,则“已监视文件夹”将作为此用户调用服务。 对于长期的进程,该进程将通过System上下文来调用。 管理员可以为监视文件夹设置操作系统策略,以确定允许或拒绝访问的用户。

  • 使用文件模式来组织结果、失败和保留文件夹。 (请参阅 关于文件模式.)

  • 监视文件夹依赖于Quartz调度程序来扫描监视的文件夹。 石英调度程序具有用于扫描它们的线程池。 如果已监视文件夹的重复间隔极低(< 5秒)且批处理大小较高(> 2),则可能会出现争用情况。 当出现此情况时,两个石英线程会选取一个文件:

    • 其中一个线程成功找到文件并使用该文件调用目标服务。
    • 第二个线程会看到文件,但在尝试确定文件是否有效(读取或写入文件)时失败,这会导致错误失败,指示文件由于为只读而无法处理。 只有在重复间隔较小且批处理大小较大时,才会发生这种情况。
recommendation-more-help
a6ebf046-2b8b-4543-bd46-42a0d77792da