UI のデータベースソースを使用したデータフローの作成
データフローは、ソースからAdobe Experience Platformのデータセットにデータを取得して取り込む、スケジュールされたタスクです。 このチュートリアルでは、Experience Platform UI を使用してデータベースソースのデータフローを作成する手順を説明します。
-
データフローを作成するには、データベースソースに対する認証済みアカウントが必要です。 UI で様々なデータベースソースアカウントを作成するためのチュートリアルのリストは、 ソースの概要 を参照してください。
-
Experience Platformでデータを取り込むには、すべてのテーブルベースのバッチソースのタイムゾーンを UTC に設定する必要があります。 Snowflake source に対してサポートされているタイムスタンプは、UTC 時間を指定した TIMESTAMP_NTZ のみです。
はじめに
このチュートリアルは、 Experience Platform の次のコンポーネントを実際に利用および理解しているユーザーを対象としています。
-
ソース :Experience Platformを使用すると、データを様々なソースから取得しながら、Experience Platform サービスを使用して受信データの構造化、ラベル付け、拡張を行うことができます。
-
Experience Data Model (XDM) システム:Experience Platform が顧客体験データの整理に使用する標準化されたフレームワーク。
- スキーマ構成の基本:スキーマ構成の主要な原則やベストプラクティスなど、XDM スキーマの基本的な構成要素について学びます。
- スキーマエディターのチュートリアル:スキーマエディター UI を使用してカスタムスキーマを作成する方法を説明します。
-
Real-Time Customer Profile:複数のソースからの集計データに基づいて、統合されたリアルタイムの顧客プロファイルを提供します。
-
Data Prep:データエンジニアが Experience Data Model (XDM)との間でデータのマッピング、変換、検証をおこなえるようにします。
データの追加
データベースソースアカウントを作成すると、Add data の手順が表示され、データベースソースアカウントのテーブル階層を調べるためのインターフェイスが提供されます。
- インターフェイスの左半分はブラウザーで、アカウントに含まれるデータテーブルのリストが表示されます。 このインターフェイスには、使用するソースデータをすばやく識別できる検索オプションも含まれています。
- インターフェイスの右半分はプレビューパネルであり、最大 100 行のデータをプレビューできます。
ソースデータが見つかったら、テーブルを選択してから「Next」を選択します。
データフローの詳細を入力
Dataflow detail ページでは、既存のデータセットと新しいデータセットのどちらを使用するかを選択できます。 このプロセスでは、Profile dataset、Error diagnostics、Partial ingestion および Alerts の設定も指定できます。
既存のデータセットを使用する
データを既存のデータセットに取り込むには、Existing dataset を選択します。 既存のデータセットは、「Advanced search」オプションを使用するか、ドロップダウンメニュー内の既存のデータセットのリストをスクロールして取得することができます。 データセットを選択したら、データフローの名前と説明を入力します。
新しいデータセットの使用
データを新しいデータセットに取り込むには、「New dataset」を選択して、出力データセット名とオプションの説明を入力します。 次に、「Advanced search」オプションを使用するか、ドロップダウンメニュー内の既存のスキーマのリストをスクロールすることで、マッピングするスキーマを選択します。 スキーマを選択したら、データフローの名前と説明を指定します。
Profile とエラー診断の有効化
次に、「Profile dataset」切り替えスイッチを選択して、Profile のデータセットを有効にします。 これにより、エンティティの属性と動作の全体像を把握できます。Profile が有効化されたすべてのデータセットのデータは Profile に含まれ、変更はデータフローを保存するときに適用されます。
Error diagnostics を使用すると、データフローで発生するエラーレコードに対して、詳細なエラーメッセージ生成が可能になります。また、手動で定義した特定のしきい値に到達するまで、エラーを含むデータを取り込むこと Partial ingestion できます。 詳しくは、バッチ取り込みの概要を参照してください。
アラートの有効化
アラートを有効にすると、データフローのステータスに関する通知を受け取ることができます。リストからアラートを選択して、データフローのステータスに関する通知を受け取るよう登録します。アラートについて詳しくは、UI を使用したソースアラートの購読についてのガイドを参照してください。
データフローへの詳細の入力を終えたら「Next」を選択します。
XDM スキーマへのデータフィールドのマッピング
Mapping の手順が表示され、ソーススキーマのソースフィールドを、ターゲットスキーマの適切なターゲット XDM フィールドにマッピングするためのインターフェイスが提供されます。
Experience Platformは、選択したターゲットスキーマまたはデータセットに基づいて、自動マッピングされたフィールドに対してインテリジェントなレコメンデーションを提供します。 マッピングルールは、ユースケースに合わせて手動で調整できます。 必要に応じて、フィールドを直接マッピングするか、データ準備機能を使用してソースデータを変換して計算値を導き出すかを選択できます。マッパーインターフェイスと計算フィールドの使用に関する包括的な手順については、 データ準備 UI ガイド を参照してください。
チェンジ・データ・キャプチャに使用される _change_request_type などの制御列は、取り込み時に読み取られますが、ターゲット・スキーマには格納されません。
リレーショナルスキーマは、プライマリキーマッピングと外部キーマッピングを使用したデータセット間の関係もサポートしています。
詳しくは、Data Mirrorの概要および リレーショナルスキーマ テクニカルリファレンス を参照してください。
ソースデータが正常にマッピングされたら、「Next」を選択します。
取り込み実行のスケジュール
Scheduling の手順が表示され、設定されたマッピングを使用して選択したソースデータを自動的に取り込むための取り込みスケジュールを設定できます。 デフォルトでは、スケジュールは Once に設定されています。 取り込み頻度を調整するには、「Frequency」を選択し、ドロップダウンメニューからオプションを選択します。
取り込み頻度を Minute、Hour、Day、Week のいずれかに設定した場合は、取り込みごとに設定された時間枠を確立する間隔を設定する必要があります。 例えば、取り込み頻度を Day に設定し、間隔を 15 に設定すると、データフローは 15 日ごとにデータを取り込むようにスケジュールされます。
この手順の間に、バックフィル を有効にし、データの増分取り込みの列を定義することもできます。 バックフィルは履歴データの取り込みに使用しますが、増分取り込みのために定義した列を使用すると、新しいデータを既存のデータと区別することができます。
スケジュール設定について詳しくは、次の表を参照してください。
頻度を設定して、データフローの実行頻度を示します。 頻度は次のように設定できます。
- 1 回:頻度を
onceに設定して、1 回限りの取り込みを作成します。 1 回限りの取り込みデータフローを作成する場合、間隔とバックフィルの設定は使用できません。 デフォルトでは、スケジュールの頻度は 1 回に設定されています。 - 分:頻度を
minuteに設定して、1 分ごとにデータを取り込むようにデータフローをスケジュールします。 - 時間:頻度を
hourに設定して、1 時間ごとにデータを取り込むようにデータフローをスケジュールします。 - 日:頻度を
dayに設定して、1 日にデータを取り込むようにデータフローをスケジュールします。 - 週:頻度を
weekに設定して、データフローが週ごとにデータを取り込むようにスケジュールします。 詳しくは、[ 週次取り込みスケジュールについて ] (#weekly)の節を参照してください。
頻度を選択したら、間隔設定を指定して、各取り込み間の時間枠を確立できます。 例えば、頻度を日に設定し、間隔を 15 に設定すると、データフローは 15 日ごとに実行されます。 間隔をゼロに設定することはできません。 各頻度で許容される最小のインターバル値は次のとおりです。
- 1 回:なし
- 分: 15
- 時間: 1
- 日: 1
- 週: 1
週次取り込みスケジュールについて weekly
データフローを毎週のスケジュールで実行するように設定した場合、データフローは次のいずれかのシナリオに基づいて実行されます。
- データソースが作成されていても、まだデータが取り込まれていない場合、最初の週別データフローはソース作成日から 7 日後に実行されます。 この 7 日間の間隔は、スケジュールをいつ設定したかに関係なく、常にソースの作成時から開始します。 最初の実行の後、データフローは、設定されたスケジュールに従って、毎週実行されます。
- ソースからのデータが以前に取り込まれ、再び週次の取り込み用にスケジュールした場合、次のデータフローは、最後に成功した取り込みから 7 日後に実行されます。
データフローのレビュー
Review の手順が表示され、新しいデータフローを作成前に確認できます。 詳細は、次のカテゴリに分類されます。
- Connection:ソースのタイプ、選択したソースファイルの関連パスおよびそのソースファイル内の列の数を表示します。
- Assign dataset & map fields:ソースデータの取り込み先のデータセットを、関連するスキーマと共に表示します。 リレーショナルスキーマを使用している場合は、プライマリキーやバージョン ID などの必須フィールドが正しくマッピングされていることを確認します。 また、チェンジ・データ・キャプチャ・コントロール列が正しく構成されていることを確認します。 リレーショナルスキーマを使用したデータセットは、複数のデータモデルをサポートしており、 変更データキャプチャワークフロー を有効にします。
- Scheduling:取り込みスケジュールのアクティブな期間、頻度、間隔を表示します。
データフローをレビューしたら、「Finish」を選択し、データフローが作成されるまでしばらく待ちます。
データフローの監視
データフローを作成したら、そのデータフローを通じて取り込まれるデータをモニターすると、取り込み速度、成功、エラーに関する情報を確認できます。データフローのモニタリング方法について詳しくは、UI でのアカウントとデータフローのモニタリング のチュートリアルを参照してください。
データフローの削除
不要になったデータフローや誤って作成されたデータフローは、Delete ワークスペース内にある Dataflows 関数を使用して削除できます。 データフローの削除方法について詳しくは、UI でのデータフローの削除のチュートリアルを参照してください。
次の手順
このチュートリアルでは、データベースソースからExperience Platformにデータを取り込むためのデータフローを正常に作成しました。 Real-Time Customer Profile や Data Science Workspace など、ダウンストリームの Experience Platform サービスで受信データを使用できるようになりました。詳しくは、次のドキュメントを参照してください。