UIでのクラウドストレージバッチコネクタのデータフローの設定

データフローとは、ソースからデータセットにデータを取得し、取り込むスケジュール済みのタスク Platform です。 このチュートリアルでは、クラウドストレージアカウントを使用して新しいデータフローを設定する手順を説明します。

はじめに

このチュートリアルは、Adobe Experience Platform の次のコンポーネントを実際に利用および理解しているユーザーを対象としています。

さらに、このチュートリアルでは、クラウドストレージアカウントを確立している必要があります。 UIで異なるクラウドストレージアカウントを作成するためのチュートリアルのリストは、 source connectorsの概要に記載されています

サポートされているファイル形式

Experience Platform は、外部ストレージから取り込む次のファイル形式をサポートしています。

  • 区切り文字区切り値(DSV):DSV形式のデータ・ファイルのサポートは、現在、コンマ区切り値に制限されています。 DSV形式のファイル内のフィールド・ヘッダーの値は、英数字とアンダースコアのみで構成する必要があります。 一般的なDSVファイルは、今後サポートされる予定です。
  • JavaScript Object Notation (JSON):JSON形式のデータファイルは、XDMに準拠している必要があります。
  • Apache Parquet:パーケット形式のデータファイルは、XDMに準拠している必要があります。

データの選択

クラウドストレージアカウントを作成すると、 データの選択 手順が表示され、クラウドストレージ階層を調べるためのインタラクティブインターフェイスが提供されます。

  • インターフェイスの左半分はディレクトリブラウザーで、サーバーのファイルとディレクトリが表示されます。
  • インターフェイスの右半分を使用すると、互換性のあるファイルから最大100行のデータをプレビューできます。

リストに表示されているフォルダーを選択すると、フォルダー階層を深いフォルダーに移動できます。 互換性のあるファイルまたはフォルダを選択すると、[ データ形式の選択 ]ドロップダウンが表示され、プレビューウィンドウにデータを表示する形式を選択できます。

プレビューーウィンドウが設定されたら、「 次へ 」を選択して、選択したフォルダー内のすべてのファイルをアップロードできます。 特定のファイルにアップロードする場合は、「 次へ」を選択する前に、リストからそのファイルを選択します。

インジェストパーケまたはJSONファイル

クラウドストレージアカウントは、JSONファイルとParkeyファイルもサポートしています。 パーケファイルはXDMに準拠している必要がありますが、JSONファイルはXDMに準拠している必要はありません。 JSONファイルまたはParketファイルを取り込むには、ディレクトリブラウザーから適切なファイル形式を選択し、適切なインターフェイスから互換性のあるデータ形式を適用します。

データ形式がJSONの場合は、ファイル内のデータに関する情報を示すプレビューが表示されます。 プレビュー画面で、「 XDM準拠 」ドロップダウンを使用して、JSONがXDM準拠かどうかを選択できます。

次へ 」を選択して次に進みます。

重要

区切り文字やJSONファイルタイプとは異なり、Parket形式のファイルはプレビューできません。

データフィールドのXDMスキーマへのマッピング

マッピング 」の手順が表示され、ソースデータをデータセットにマッピングするインタラクティブなインターフェイスが提供され Platform ます。 Parketで書式設定されるソースファイルはXDMに準拠しており、手動でマッピングを設定する必要はありません。一方、CSVファイルでは、マッピングを明示的に設定する必要はありますが、マッピングするソースデータフィールドを選択できます。 JSONファイルは、XDM準拠としてマークされている場合、手動設定は必要ありません。 ただし、XDM準拠とマークされていない場合は、マッピングを明示的に設定する必要があります。

取り込む受信データのデータセットを選択します。 既存のデータセットを使用することも、新しいデータセットを作成することもできます。

既存のデータセットを使用する

既存のデータセットにデータを取り込むには、 既存のデータセット、データセットアイコンの順に選択します。

The Select dataset dialog appears. 使用するデータセットを見つけて選択し、「 続行」をクリックします。

新しいデータセットの使用

データを新しいデータセットに取り込むには、「 新しいデータセット 」を選択し、表示されるフィールドにデータセットの名前と説明を入力します。 スキーマを追加するには、 スキーマの選択 ダイアログボックスで既存のスキーマ名を入力します。 または、 スキーマのアドバンス検索を選択して、適切なスキーマを検索することもできます

この手順では、データセットを有効にし、エンティティの属性 Real-time Customer Profile と行動を総合的に表示できます。 すべての有効なデータセットのデータはに含まれ、データフローを保存する際 Profile に変更が適用されます。

ターゲットデータセットを有効にするには、 プロファイルデータセット ボタンを切り替え Profileます。

The Select schema dialog appears. 新しいデータセットに適用するスキーマを選択し、「 完了」を選択します。

必要に応じて、フィールドを直接マップするか、マッパー関数を使用してソースデータを変換し、計算値や計算値を抽出することができます。 データマッピングおよびマッパーの機能について詳しくは、CSVデータのXDMスキーマフィールドへの マッピングに関するチュートリアルを参照してください

JSONファイルの場合は、フィールドを他のフィールドに直接マッピングするだけでなく、オブジェクトを他のオブジェクトや配列に直接マッピングすることもできます。

異なるタイプ間でマップすることはできません。 例えば、オブジェクトを配列にマップしたり、フィールドをオブジェクトにマップしたりすることはできません。

ヒント

Platform 選択したターゲットスキーマまたはデータセットに基づいて、自動マップされたフィールドに高度な推奨機能を提供します。 使用事例に合わせて手動でマッピングルールを調整できます。

選択したデータセットから最大100行のサンプルデータのマッピング結果を表示するには、 プレビューデータ (Data Select Data)を選択します。

マッピング結果を検証する際に必要な重要な情報なので、プレビュー時に、ID列が最初のフィールドとして優先付けされます。

ソースデータがマッピングされたら、「 閉じる」を選択します。

インジェストのスケジュール設定

[ スケジュール ]ステップが表示され、設定済みのマッピングを使用して選択したソースデータを自動的に取り込むように取り込みスケジュールを設定できます。 次の表に、スケジュール設定用の様々な設定可能フィールドの概要を示します。

フィールド 説明
頻度 選択可能な周波数 Onceには、、、、、、、、、、が含ま MinuteHour Day Weekます。
間隔 選択した頻度の間隔を設定する整数。
開始時間 最初の取り込みがいつ行われるかを示すUTCタイムスタンプ。
埋め戻し 最初に取り込まれるデータを決定するboolean値です。 [ バックフィル ]を有効にすると、指定したパスにある現在のファイルは、最初にスケジュールされた取り込み中にすべて取り込まれます。 [ バックフィル ]を無効にすると、最初の取り込み実行から開始時間の間に読み込まれたファイルのみが取り込まれます。 開始時間より前に読み込まれたファイルは取り込まれません。

データフローは、スケジュールに基づいてデータを自動的に取り込むように設計されています。 開始するには、取り込み頻度を選択します。 次に、2つのフローの実行間隔を指定する間隔を設定します。 間隔の値は、0以外の整数で、15以上に設定する必要があります。

取り込みの開始時間を設定するには、開始時間ボックスに表示される日時を調整します。 または、カレンダーアイコンを選択して、開始時間の値を編集することもできます。 開始時刻は、現在の時刻(UTC)以上である必要があります。

スケジュールの値を指定し、「 次へ」を選択します。

1回のみの取り込みデータフローの設定

1回のみの取り込みを設定するには、頻度ドロップダウン矢印を選択し、「 1回」を選択します。 1回限りの頻度で取り込むためのデータフローセットに対する編集は、開始時間が将来的に残る限り継続して行うことができます。 開始時間が経過すると、1回限りの頻度の値は編集できなくなります。 1回限りの取り込みデータフローを設定する場合 、Intervalと Backfill は表示されません。

スケジュールに適切な値を入力したら、「 次へ」を選択します。

データフローの詳細の指定

[ Dataflow detail ]ステップが表示され、新しいデータフローに名前を付け、簡単に説明を付けることができます。

このプロセス中に、 部分的な取り込みエラー診断も有効にできます。 「 部分的な取り込み 」を有効にすると、エラーを含むデータを取り込むことができ、設定可能な特定のしきい値まで取り込むことができます。 エラー 診断を有効にすると 、誤ったデータに関する詳細情報が別々にバッチ処理されます。 詳しくは、 部分的なバッチインジェストの概要を参照してください

データフローの値を指定し、「 Next」を選択します。

データフローの確認

レビュー 」ステップが表示され、新しいデータフローを作成前に確認できます。 詳細は次のカテゴリに分類されます。

  • 接続:ソースの種類、選択したソースファイルの関連パス、およびそのソースファイル内の列数が表示されます。
  • データセットとマップのフィールドの割り当て:ソースデータが取り込まれるデータセット(データセットに従うスキーマなど)を示します。
  • スケジュール:取り込みスケジュールの有効期間、頻度、間隔を表示します。

データフローをレビューしたら、 「Finish 」をクリックし、データフローを作成するまでの時間を設定します。

データフローの監視

データフローを作成したら、データフローを介して取り込まれるデータを監視し、取り込み率、成功、エラーに関する情報を確認できます。 データフローの監視方法の詳細については、「UIでのアカウントとデータフローの 監視に関するチュートリアル」を参照してください。

データフローの削除

不要になったデータフローや誤って作成されたデータフローは、 データフロー ・ワークスペースで使用可能な 削除 機能を使用して削除できます。 データフローの削除方法の詳細については、UIでのデータフローの 削除に関するチュートリアルを参照してください

次の手順

このチュートリアルに従うと、外部のクラウドストレージからデータを取り込むためのデータフローが正しく作成され、データセットの監視に関する洞察が得られます。 データフローの作成について詳しくは、以下のビデオを参照して学習を補うことができます。 また、入力データは、やなどの下流の Platform サービスで使用でき Real-time Customer Profile るようになり Data Science Workspaceました。 詳しくは、次のドキュメントを参照してください。

警告

次のビデオに示す Platform UIは古いです。 最新のUIのスクリーンショットと機能については、上記のドキュメントを参照してください。

付録

以下の節では、ソースコネクタを使用する場合の追加情報について説明します。

データフローの無効化

データフローが作成されると、そのデータはすぐにアクティブになり、指定されたスケジュールに従ってデータを取り込みます。 アクティブなデータフローは、次の手順に従っていつでも無効にできます。

ソース 」ワークスペース内で、「 参照 」タブをクリックします。 次に、無効にするアクティブなデータフローに関連付けられているアカウントの名前をクリックします。

ソースアクティビティ 」ページが表示されます。 リストからアクティブなデータフローを選択し、画面の右側に 「Properties 」列を開きます。この列には「 Enabled 」トグル・ボタンが含まれています。 切り替えボタンをクリックして、データフローを無効にします。 同じ切り替えを使用して、データフローを無効にした後で再び有効にできます。

母集団の受信データを有効にし Profile ます

ソースコネクタから受信するデータは、データの富化と埋め込みに使用でき Real-time Customer Profile ます。 データの入力について詳しくは、 Real-time Customer Profileプロファイルの入力に関するチュートリアルを参照してください

このページ