Text parser
Text parser tool を使用して、他の Adobe Workfront Fusion シナリオモジュールで使用するテキストを解析できます。 Text parser には接続は必要ありません。
アクセス要件
この記事で説明している機能を使用するには、次のアクセス権が必要です。
table 0-row-2 1-row-2 2-row-2 3-row-2 layout-auto html-authored no-header | |
---|---|
Adobe Workfront パッケージ | 任意 |
Adobe Workfront プラン |
新規:標準 または 現在:仕事以上 |
Adobe Workfront Fusion ライセンス** | Workfront Fusion のライセンス要件はありません。 |
製品 |
新規:
または 現在:Adobe Workfront Fusion を購入する必要があります。 |
このテーブルの情報について詳しくは、 ドキュメントのアクセス要件を参照してください。
Adobe Workfront Fusion ライセンスについて詳しくは、Adobe Workfront Fusion ライセンスを参照してください。
テキストパーサー API 情報
テキストパーサーコネクターでは、以下を使用します。
Text parser モジュールとそのフィールド
Text parser モジュールを設定する際、Adobe Workfront Fusion に以下のフィールドが表示されます。モジュール内の太字のタイトルは、必須フィールドを示します。
フィールドまたは関数の上にマップボタンが表示されている場合は、このボタンを使用すると、そのフィールドの変数や関数を設定できます。詳しくは、 モジュール間で情報をマッピングするを参照してください。
変換サービス
Get Elements from HTML
必要な要素を HTML コードから取得します。
Get Elements from text
指定されたパターンに基づいてテキストから要素を解析します。
HTML to Text
Match Pattern
Match pattern モジュールを使用すると、指定されたテキストから検索パターンに一致する文字列要素を見つけて抽出できます。 このモジュールは正規表現(regex または regexp と表記される場合もあります)を使用します。
正規表現とは、各文字が特別な意味を持つメタ文字、またはリテラルの意味を持つ正規文字のいずれかである文字のシーケンスです。これらの文字とメタ文字は、テキストの検索に使用できるパターンを識別します。例えば、名前を検索する場合、大文字で始まる 2 つの連続した単語で構成されるパターンを検索する正規表現を設定できます。正規表現は、テキストを検索および操作するための強力なツールです。
正規表現についての詳しい説明は、この記事の範囲外です。次のリソースをお勧めします。
Replace
指定した値または正規表現について入力したテキストを検索し、結果を新しい値に置き換えます。
データスクレーピング
データスクレーピング(web スクレーピング、データ抽出、web 収集とも呼ばれます)とは、web サイトからデータを収集し、ローカルのデータベースまたはスプレッドシートに保存するプロセスです。Web サイトからデータを削除する場合で、かつ正規表現に慣れていない場合は、データスクレーピングツールを使用できます。
データ収集ツールが REST API を提供する場合は、アドビのユニバーサルエクスペリ 🔗 HTTP ンスモジュールおよび Webhook モジュールを使用して このツールに接続できます。
テキストパーサーのトラブルシューティング
出力するテキストパーサーを取得できない場合は、この情報を使用します。
例:
ファイルのファイル形式「filename.docx」をパースする必要があり、ファイル名の拡張子は DOCX から CSV までPDFによって異なります。
この場合に使用できる式は ..+ です。
この正規表現は通常、完全一致を返します。
ただし、テキストパーサーにこの式を実装しても、一致しません。
この理由は、「i」が一致あたりの一致数のみを示すので、この場合は 2 回一致があるので、「i」の後に数値「1」と「2」が続きます。このユースケースの場合、2 番目に一致した値のみをフィルターで照合または渡す必要がある場合は、数値で表される値を指定できます。
解析する部分に括弧を追加する必要のある一致値を取得するには(例えば、「filename.docx」から「docx」のみを抽出する)、このケースシナリオで使用する正規表現式に従って、括弧を \ に適用する必要があります。(.+)
これにより、DOCX が取り込まれ、グループに配置され、「.」が残ります。それ以外
次の図に示す出力では、キャプチャするグループは任意の文字(行末文字を除く)に一致します。
正規表現も組み込んだもう 1 つの回避策は、replace 関数を使用することです
{{replace("abcdefghijklmno pqr stuvw xyz.docx"; "/.\./"; ".")}}
次に、abcdefghijklmno pqr stuvw xyz.docx
を実際のファイル名変数に置き換えます。