UI でクラウドストレージソースからバッチデータを取り込むように、データフローを設定します

このチュートリアルでは、クラウドストレージソースからAdobe Experience Platformにバッチデータを取り込むためにデータフローを設定する手順について説明します。

はじめに

NOTE
クラウドストレージからバッチデータを取り込むデータフローを作成するには、認証済みのクラウドストレージソースへのアクセス権が既にある必要があります。 アクセス権がない場合は、 ソースの概要に移動して、アカウントを作成できるクラウドストレージソースのリストを確認してください。

このチュートリアルは、 Experience Platform の次のコンポーネントを実際に利用および理解しているユーザーを対象としています。

サポートされているファイル形式

バッチデータのクラウドストレージソースでは、取り込み用に次のファイル形式をサポートしています。

  • 区切り文字区切り値(DSV):任意の単一文字の値を、DSV 形式のデータファイルの区切り文字として使用できます。
  • JavaScript Object Notation (JSON): JSON 形式のデータファイルは XDM に準拠している必要があります。
  • Apache Parquet: Parquet 形式のデータファイルは XDM に準拠している必要があります。
  • 圧縮ファイル:JSON および区切り文字付きファイルは、bzip2gzipdeflatezipDeflatetarGzip および tar のように圧縮できます。

データの追加

クラウドストレージアカウントを作成すると、データの追加 手順が表示され、クラウドストレージのファイル階層を調べ、Platform に取り込むフォルダーまたは特定のファイルを選択するためのインターフェイスが表示されます。

  • インターフェイスの左側はディレクトリブラウザーで、クラウドストレージファイルの階層が表示されています。
  • インターフェイスの右側の部分では、互換性のあるフォルダーまたはファイルから最大 100 行のデータをプレビューできます。

ルートフォルダーを選択して、フォルダー階層にアクセスします。 ここから 1 つのフォルダーを選択して、フォルダー内のすべてのファイルを再帰的に取り込むことができます。 フォルダー全体を取り込む場合、そのフォルダー内のすべてのファイルでデータ形式とスキーマが同じであることを確認する必要があります。

フォルダーを選択すると、右側のインターフェイスが更新され、選択したフォルダー内の最初のファイルの内容と構造のプレビューが表示されます。

この手順の間に、続行する前にデータに対していくつかの設定を行うことができます。 まず、データ形式 を選択し、表示されるドロップダウンパネルでファイルに適したデータ形式を選択します。

次の表に、サポートされるファイルタイプに適したデータ形式を示します。

ファイルタイプ
データ形式
CSV
​ 区切り ​
JSON
JSON
PARQUET
XDM Parquet

列区切り記号を選択

データ形式を設定した後、区切り文字付きファイルを取り込む際に列の区切り文字を設定できます。 区切り文字 オプションを選択してから、ドロップダウンメニューから区切り文字を選択します。 メニューには、コンマ(,)、タブ(\t)、パイプ(|)など、区切り文字に最も頻繁に使用されるオプションが表示されます。

カスタムの区切り文字を使用する場合は、「カスタム」を選択し、ポップアップ入力バーに任意の 1 文字の区切り文字を入力します。

圧縮ファイルの取り込み

圧縮タイプを指定して、圧縮された JSON ファイルや区切り文字付きのファイルを取り込むこともできます。

​ データを選択 ​ 手順で、取り込む圧縮ファイルを選択し、適切なファイルタイプと XDM に準拠しているかどうかを選択します。 次に、圧縮タイプ を選択し、ソースデータに適した圧縮ファイルタイプを選択します。

特定のファイルを Platform に取り込むには、フォルダーを選択してから、取り込むファイルを選択します。 この手順では、ファイル名の横にあるプレビューアイコンを使用して、特定のフォルダー内の他のファイルのファイル内容をプレビューすることもできます。

終了したら、「次へ」を選択します。

データフローの詳細を入力

データフロー詳細ページでは、既存のデータセットと新しいデータセットのどちらを使用するかを選択できます。このプロセスの間に、データがプロファイルに取り込まれるように設定し、​ エラー診断 ​、​ 部分取り込み ​、​ アラート ​ などの設定を有効にすることもできます。

既存のデータセットを使用する

データを既存のデータセットに取り込むには、既存のデータセット ​を選択します。「詳細検索」オプションを使用するか、ドロップダウンメニューで既存のデータセットのリストをスクロールすると、既存のデータセットを取得できます。データセットを選択したら、データフローの名前と説明を入力します。

新しいデータセットの使用

データを新しいデータセットに取り込むには、「新しいデータセット」を選択して、出力データセット名とオプションの説明を入力します。次に、「詳細検索」オプションを使用するか、ドロップダウンメニューで既存のスキーマのリストをスクロールして、マッピングするスキーマを選択します。スキーマを選択したら、データフローの名前と説明を指定します。

プロファイルおよびエラー診断の有効化

次に、プロファイルデータセット 切り替えスイッチを選択して、プロファイルに対してデータセットを有効にします。 これにより、エンティティの属性と動作の全体像を把握できます。すべてのプロファイル対応データセットのデータはプロファイルに含まれ、変更はデータフローを保存するときに適用されます。

エラー診断は、データフローで発生するエラーレコードに対して、詳細なエラーメッセージ生成を有効にします。部分取り込みでは、手動で定義した特定のしきい値に到達するまで、エラーを含むデータを取り込むことができます。詳しくは、バッチ取り込みの概要を参照してください。

アラートの有効化

アラートを有効にすると、データフローのステータスに関する通知を受け取ることができます。リストからアラートを選択して、データフローのステータスに関する通知を受け取るよう登録します。アラートについて詳しくは、UI を使用したソースアラートの購読についてのガイドを参照してください。

データフローへの詳細の入力を終えたら「次へ 」を選択します。

XDM スキーマへのデータフィールドのマッピング

マッピング手順が表示され、ソーススキーマのソースフィールドを、ターゲットスキーマの適切なターゲット XDM フィールドにマッピングするためのインターフェイスが提供されます。

Platform は、選択したターゲットスキーマまたはデータセットに基づいて、自動マッピングされたフィールドに対してインテリジェントなレコメンデーションを提供します。 マッピングルールは、ユースケースに合わせて手動で調整できます。 必要に応じて、フィールドを直接マッピングするか、データ準備機能を使用してソースデータを変換して計算値を導き出すかを選択できます。マッパーインターフェイスと計算フィールドの使用に関する包括的な手順については、 データ準備 UI ガイドを参照してください。

ソースデータが正常にマッピングされたら、「次へ」を選択します。

取り込み実行のスケジュール

IMPORTANT
FTP ソースを使用する際に、1 回限りの取得でデータフローをスケジュールすることを強くお勧めします。

​ スケジュール ​ 手順が表示され、設定されたマッピングを使用して選択したソースデータを自動的に取り込むための取り込みスケジュールを設定できます。 デフォルトでは、スケジュールは Once に設定されています。 取り込み頻度を調整するには、「頻度 を選択し、ドロップダウンメニューからオプションを選択します。

TIP
1 回限りの取り込み中は、インターバルとバックフィルは表示されません。

スケジュール設定

取り込み頻度を MinuteHourDayWeek のいずれかに設定した場合は、取り込みごとに設定された時間枠を確立する間隔を設定する必要があります。 例えば、取り込み頻度を Day に設定し、間隔を 15 に設定すると、データフローは 15 日ごとにデータを取り込むようにスケジュールされます。

この手順の間に、バックフィル を有効にし、データの増分取り込みの列を定義することもできます。 バックフィルは履歴データの取り込みに使用しますが、増分取り込みのために定義した列を使用すると、新しいデータを既存のデータと区別することができます。

スケジュール設定について詳しくは、次の表を参照してください。

スケジュール設定
説明
頻度

頻度を設定して、データフローの実行頻度を示します。 頻度は次のように設定できます。

  • 1 回:頻度を once に設定して、1 回限りの取り込みを作成します。 1 回限りの取り込みデータフローを作成する場合、間隔とバックフィルの設定は使用できません。 デフォルトでは、スケジュールの頻度は 1 回に設定されています。
  • :頻度を minute に設定して、1 分ごとにデータを取り込むようにデータフローをスケジュールします。
  • 時間:頻度を hour に設定して、1 時間ごとにデータを取り込むようにデータフローをスケジュールします。
  • :頻度を day に設定して、1 日にデータを取り込むようにデータフローをスケジュールします。
  • :頻度を week に設定して、データフローが週ごとにデータを取り込むようにスケジュールします。
間隔

頻度を選択したら、間隔設定を指定して、各取り込み間の時間枠を確立できます。 例えば、頻度を日に設定し、間隔を 15 に設定すると、データフローは 15 日ごとに実行されます。 間隔をゼロに設定することはできません。 各頻度で許容される最小のインターバル値は次のとおりです。

  • 1 回:なし
  • : 15
  • 時間: 1
  • : 1
  • : 1
開始時間
見込み実行のタイムスタンプ(UTC タイムゾーンで表示)。
バックフィル
バックフィルは、最初に取り込むデータを決定します。 バックフィルが有効になっている場合、指定されたパス内の現在のすべてのファイルが、最初にスケジュールされた取り込み時に取り込まれます。 バックフィルが無効になっている場合は、最初の取り込みの実行から開始時刻の間に読み込まれたファイルのみが取り込まれます。 開始時間より前に読み込まれたファイルは取り込まれません。
NOTE
バッチ取り込みの場合、その後のデータフローでは、ソースから取り込まれるファイルが​ 最終変更日 ​のタイムスタンプに基づいて選択されます。つまり、バッチデータフローでは、新しいファイルまたは最後のフローの実行以降に変更されたファイルをソースから選択します。 さらに、スケジュールされたフロー実行時間より前にクラウドストレージアカウントに完全にアップロードされていないファイルは取り込み用に取得されない可能性があるので、ファイルのアップロードとスケジュールされたフロー実行の間に十分な時間があることを確認する必要があります。

取り込みスケジュールの設定が完了したら、「次へ」を選択します。

データフローのレビュー

レビュー ​手順が表示され、新しいデータフローを作成する前に確認できます。詳細は、次のカテゴリに分類されます。

  • 接続:ソースのタイプ、選択したソースファイルの関連パスおよびそのソースファイル内の列の数を表示します。
  • データセットの割り当てとフィールドのマッピング:ソースデータがどのデータセットに取り込まれるかを、そのデータセットが準拠するスキーマを含めて表示します。
  • スケジュール:取り込みスケジュールのアクティブな期間、頻度、間隔を表示します。

データフローをレビューしたら、「終了」をクリックし、データフローが作成されるまでしばらく待ちます。

次の手順

このチュートリアルでは、外部クラウドストレージからデータを取り込むためのデータフローを正常に作成し、データセットの監視に関するインサイトを得ました。 データフローの作成について詳しくは、以下のビデオを参照して、理解を補ってください。 さらに、Real-Time Customer Profile や Data Science Workspace などのダウンストリームの Platform サービスで受信データを使用できるようになりました。 詳しくは、次のドキュメントを参照してください。

WARNING
次のビデオに示す Platform UI は旧式のものです。最新の UI のスクリーンショットと機能については、上記のドキュメントを参照してください。

付録

次の節では、ソースコネクタの操作に関する追加情報を示します。

データフローの監視

データフローを作成したら、そのデータフローを通じて取り込まれるデータを監視し、取り込み率、成功、エラーに関する情報を表示できます。 データフローのモニタリング方法について詳しくは、UI でのアカウントとデータフローのモニタリングのチュートリアルを参照してください。

データフローの更新

データフローのスケジュール、マッピング、一般情報の設定を更新するには、UI でのソースデータフローの更新に関するチュートリアルを参照してください。

データフローの削除

不要になったデータフローや誤って作成されたデータフローは、データフロー ​ワークスペース内にある​ 削除 ​機能で削除できます。データフローの削除方法について詳しくは、UI でのデータフローの削除のチュートリアルを参照してください。

recommendation-more-help
337b99bb-92fb-42ae-b6b7-c7042161d089