Text parser

Text parser tool を使用して、他の Adobe Workfront Fusion シナリオモジュールで使用するテキストを解析できます。 Text parser には接続は必要ありません。

アクセス要件

展開すると、この記事の機能のアクセス要件が表示されます。

この記事で説明している機能を使用するには、次のアクセス権が必要です。

table 0-row-2 1-row-2 2-row-2 3-row-2 layout-auto html-authored no-header
Adobe Workfront パッケージ 任意
Adobe Workfront プラン

新規:標準

または

現在:仕事以上

Adobe Workfront Fusion ライセンス** Workfront Fusion のライセンス要件はありません。
製品

新規:

  • Prime Workfront パッケージを選択する:Adobe Workfront Fusion を購入する必要があります。
  • Ultimate Workfront パッケージ:Workfront Fusion が含まれています。

または

現在:Adobe Workfront Fusion を購入する必要があります。

このテーブルの情報について詳しくは、 ドキュメントのアクセス要件を参照してください。

Adobe Workfront Fusion ライセンスについて詳しくは、Adobe Workfront Fusion ライセンスを参照してください。

テキストパーサー API 情報

テキストパーサーコネクターでは、以下を使用します。

API タグ
v2

Text parser モジュールとそのフィールド

Text parser モジュールを設定する際、Adobe Workfront Fusion に以下のフィールドが表示されます。モジュール内の太字のタイトルは、必須フィールドを示します。

フィールドまたは関数の上にマップボタンが表示されている場合は、このボタンを使用すると、そのフィールドの変数や関数を設定できます。詳しくは、 モジュール間で情報をマッピングするを参照してください。

マップ切り替え

変換サービス

Get Elements from HTML

必要な要素を HTML コードから取得します。

Continue the execution of the route even if the module finds no matches
結果が返されない場合にモジュールがシナリオを停止しないようにするには、このオプションを有効にします。
Element type

HTML コードから取得する要素のタイプを選択します。

  • Image
  • Link
  • iFrame element(s)
HTML
指定した要素タイプを取得する HTML コードを入力またはマッピングします。

Get Elements from text

指定されたパターンに基づいてテキストから要素を解析します。

Input text
解析するテキストを入力またはマッピングします。
Pattern
テキストから解析する要素を反映するパターンを選択します。
Ignore Duplicate Occurrences
テキスト要素の重複発生を無視する場合は、このチェックボックスをオンにします。

HTML to Text

HTML
プレーンテキストに変換する HTML コードを入力します。
Line break
新規行(改行)のタイプを選択します。
Uppercase headings
見出しタグ(<h2> </h2> など)で囲まれたテキストを大文字テキストに変換する場合は、このオプションを有効にします。

Match Pattern

Match pattern モジュールを使用すると、指定されたテキストから検索パターンに一致する文字列要素を見つけて抽出できます。 このモジュールは正規表現(regex または regexp と表記される場合もあります)を使用します。

正規表現とは、各文字が特別な意味を持つメタ文字、またはリテラルの意味を持つ正規文字のいずれかである文字のシーケンスです。これらの文字とメタ文字は、テキストの検索に使用できるパターンを識別します。例えば、名前を検索する場合、大文字で始まる 2 つの連続した単語で構成されるパターンを検索する正規表現を設定できます。正規表現は、テキストを検索および操作するための強力なツールです。

正規表現についての詳しい説明は、この記事の範囲外です。次のリソースをお勧めします。

  • メタ文字の完全なリストについては、MDN web ドキュメントの正規表現を参照してください。
  • 正規表現の作成方法を説明するチュートリアルについては、RegexOne をお勧めします。
  • 正規表現を試したい方には、正規表現 101 web サイトをお勧めします。左パネルで ECMAScript(JavaScript)FLAVOR を選択します。
Pattern

正規表現のパターンを入力します。

例:[+-]?(\d+(\.\d+)?|\.\d+)([eE][+-]?\d+)? で指定されたテキスト内のすべての数字を抽出します。

メモ:

パターンでは、少なくとも 1 つのキャプチャグループが括弧内に含まれている必要があります()。パターンにキャプチャグループが含まれていない場合、出力バンドルは空になります。

Global match
テキスト内のすべての一致を取得するには、このオプションを有効にします。一致はそれぞれ、個別のバンドルに出力されます。このオプションが無効になっている場合、モジュールは最初のエントリのみを取得します。
Case sensitive
このモジュールでテキストの大文字と小文字を区別して扱うには、このオプションを有効にします。
Multiline
このオプションを有効にすると、開始メタ文字と終了メタ文字(^ および $)が、入力文字列全体の先頭または末尾だけでなく、各行の先頭または末尾と一致するようになります。
Singleline
このオプションを有効にすると、ピリオド (.)が改行文字(\n)と一致します。
Continue the execution of the route even if the module returns no results
結果が返されない場合にモジュールがシナリオを停止しないようにするには、このオプションを有効にします。
Text
パターンと一致させるテキストを入力またはマッピングします。

Replace

指定した値または正規表現について入力したテキストを検索し、結果を新しい値に置き換えます。

Pattern
検索語句を入力します。また、正規表現を使用することもできます。正規表現について詳しくは、Match Pattern モジュールを参照してください。
New value
検索語句を置き換える値を入力します。
Global match
テキスト内のすべての一致を取得するには、このオプションを有効にします。一致はそれぞれ、個別のバンドルに出力されます。このオプションが無効になっている場合、モジュールは最初のエントリのみを取得します。
Case sensitive
このモジュールでテキストの大文字と小文字を区別して扱うには、このオプションを有効にします。
Multiline
このオプションを有効にすると、開始メタ文字と終了メタ文字(^ および $)が、入力文字列全体の先頭または末尾だけでなく、各行の先頭または末尾と一致するようになります。
Singleline
このオプションを有効にすると、ピリオド (.)が改行文字(\n)と一致します。
Text
検索するテキストを入力します。

データスクレーピング

データスクレーピング(web スクレーピング、データ抽出、web 収集とも呼ばれます)とは、web サイトからデータを収集し、ローカルのデータベースまたはスプレッドシートに保存するプロセスです。Web サイトからデータを削除する場合で、かつ正規表現に慣れていない場合は、データスクレーピングツールを使用できます。

データ収集ツールが REST API を提供する場合は、アドビのユニバーサルエクスペリ 🔗 HTTP ンスモジュールおよび Webhook モジュールを使用して このツールに接続できます。

テキストパーサーのトラブルシューティング

出力するテキストパーサーを取得できない場合は、この情報を使用します。

recommendation-more-help

例:

ファイルのファイル形式「filename.docx」をパースする必要があり、ファイル名の拡張子は DOCX から CSV までPDFによって異なります。

この場合に使用できる式は ..+ です。

この正規表現は通常、完全一致を返します。

ただし、テキストパーサーにこの式を実装しても、一致しません。

一致なし

この理由は、「i」が一致あたりの一致数のみを示すので、この場合は 2 回一致があるので、「i」の後に数値「1」と「2」が続きます。このユースケースの場合、2 番目に一致した値のみをフィルターで照合または渡す必要がある場合は、数値で表される値を指定できます。

次に一致

解析する部分に括弧を追加する必要のある一致値を取得するには(例えば、「filename.docx」から「docx」のみを抽出する)、このケースシナリオで使用する正規表現式に従って、括弧を \ に適用する必要があります。(.+)

これにより、DOCX が取り込まれ、グループに配置され、「.」が残ります。それ以外

一致を取得

次の図に示す出力では、キャプチャするグループは任意の文字(行末文字を除く)に一致します。

出力

正規表現も組み込んだもう 1 つの回避策は、replace 関数を使用することです

{{replace("abcdefghijklmno pqr stuvw xyz.docx"; "/.\./"; ".")}}

次に、abcdefghijklmno pqr stuvw xyz.docx を実際のファイル名変数に置き換えます。

7e1891ad-4d59-4355-88ab-a2e62ed7d1a3