UIでのクラウドストレージバッチ接続のデータフローの設定

データフローは、ソースからPlatformデータセットにデータを取得して取り込むスケジュール済みタスクです。 このチュートリアルでは、クラウドストレージアカウントを使用して新しいデータフローを設定する手順を説明します。

はじめに

このチュートリアルは、Adobe Experience Platform の次のコンポーネントを実際に利用および理解しているユーザーを対象としています。

さらに、このチュートリアルでは、クラウドストレージアカウントを確立している必要があります。 UIで様々なクラウドストレージアカウントを作成するためのチュートリアルのリストは、ソースコネクタの概要を参照してください。

サポートされているファイル形式

Experience Platform は、次のファイル形式を外部ストレージから取り込むことができます。

  • 区切り文字区切り値(DSV):DSV形式のデータ・ファイルの区切り文字として、任意の1文字の値を使用できます。
  • JavaScript Object Notation (JSON):JSON形式のデータファイルは、XDMに準拠している必要があります。
  • Apache Parquet:Parquet形式のデータファイルは、XDMに準拠している必要があります。
  • 圧縮ファイル:JSONおよび区切り文字付きファイルは、次のように圧縮できます。bzip2gzipdeflatezipDeflatetarGzip、およびtarです。

データの選択

クラウドストレージアカウントを作成した後、「データの選択」手順が表示され、クラウドストレージファイル階層を調べるためのインターフェイスが表示されます。

  • インターフェイスの左側には、クラウドストレージファイルとディレクトリが表示されるディレクトリブラウザーが表示されます。
  • インターフェイスの右側では、互換性のあるファイルから最大100行のデータをプレビューできます。

インターフェイス

リストに表示されたフォルダーを選択すると、フォルダー階層を移動して、より深いフォルダーに移動できます。 1つのフォルダーを選択して、そのフォルダー内のすべてのファイルを再帰的に取り込むことができます。 フォルダー全体を取り込む場合は、フォルダー内のすべてのファイルが同じスキーマを共有している必要があります。

互換性のあるファイルまたはフォルダーを選択したら、「データフォーマットを選択」ドロップダウンメニューから、対応するデータフォーマットを選択します。

次の表に、サポートされているファイルタイプに適したデータ形式を示します。

ファイルタイプ データフォーマット
CSV 区切り
JSON JSON
Parquet XDM Parquet

JSON​を選択し、プレビューインターフェイスが設定されるまで数秒待ちます。

select-data

メモ

区切り文字付きおよびJSONファイルタイプとは異なり、Parquet形式のファイルはプレビューできません。

プレビューインターフェイスを使用すると、ファイルの内容と構造を検査できます。 デフォルトでは、プレビューインターフェイスには、選択したフォルダー内の最初のファイルが表示されます。

別のファイルをプレビューするには、検査するファイル名の横にあるプレビューアイコンを選択します。

default-preview

フォルダー内のファイルの内容と構造を調べたら、「次へ」を選択して、フォルダー内のすべてのファイルを再帰的に取り込みます。

select-folder

特定のファイルを選択する場合は、取り込むファイルを選択し、「次へ」を選択します。

select-file

区切り文字ファイルのカスタム区切り文字の設定

区切り文字ファイルを取り込む際に、カスタム区切り文字を設定できます。 「区切り文字」オプションを選択し、ドロップダウンメニューから区切り文字を選択します。 このメニューには、コンマ(,)、タブ(\t)、パイプ(|)など、区切り文字で最も頻繁に使用されるオプションが表示されます。 カスタムの区切り文字を使用する場合は、「カスタム」を選択し、ポップアップ入力バーに任意の1文字の区切り文字を入力します。

データ形式を選択して区切り文字を設定したら、「次へ」を選択します。

圧縮ファイルの取り込み

圧縮タイプを指定することで、圧縮JSONまたは区切りファイルを取り込むことができます。

データを選択の手順で、取り込む圧縮ファイルを選択し、適切なファイルタイプと、XDMに準拠しているかどうかを選択します。 次に、「 圧縮タイプ 」を選択し、ソースデータに適した圧縮ファイルタイプを選択します。

圧縮ファイルタイプを特定したら、「次へ」を選択して次に進みます。

XDMスキーマへのデータフィールドのマッピング

マッピング​手順が表示され、ソースデータをPlatformデータセットにマッピングするインタラクティブなインターフェイスが提供されます。 ParquetでフォーマットされたソースファイルはXDMに準拠し、手動でマッピングを設定する必要はありません。CSVファイルでは、マッピングを明示的に設定する必要がありますが、マッピングするソースデータフィールドを選択できます。 JSONファイルは、XDMに準拠しているとマークされている場合、手動設定は必要ありません。 ただし、XDM準拠としてマークされていない場合は、マッピングを明示的に設定する必要があります。

取り込む受信データのデータセットを選択します。 既存のデータセットを使用するか、新しく作成できます。

既存のデータセットを使用する

データを既存のデータセットに取り込むには、Existing dataset​を選択し、データセットアイコンを選択します。

データセットの選択​ダイアログが表示されます。 使用するデータセットを見つけ、選択して、「続行」をクリックします。

新しいデータセットの使用

データを新しいデータセットに取り込むには、New dataset​を選択し、提供されたフィールドにデータセットの名前と説明を入力します。 スキーマを追加するには、スキーマを選択​ダイアログボックスに既存のスキーマ名を入力します。 または、「スキーマ詳細検索」を選択して、適切なスキーマを検索できます。

この手順の間に、Real-time Customer Profileのデータセットを有効にし、エンティティの属性と動作の全体的な表示を作成できます。 有効なすべてのデータセットのデータはProfileに含まれ、データフローを保存すると変更が適用されます。

プロファイルデータセット」ボタンを切り替えて、Profileのターゲットデータセットを有効にします。

スキーマの選択​ダイアログが表示されます。 新しいデータセットに適用するスキーマを選択し、「完了」を選択します。

必要に応じて、フィールドを直接マッピングするか、データ準備関数を使用してソースデータを変換し、計算済み値または計算済み値を導き出すことができます。 マッパー関数と計算フィールドの詳細については、『データ準備関数ガイド』または『計算フィールドガイド』を参照してください。

JSONファイルの場合は、フィールドを他のフィールドに直接マッピングするだけでなく、オブジェクトを他のオブジェクトや配列に直接マッピングすることもできます。

異なるタイプにまたがってマッピングすることはできません。 例えば、オブジェクトを配列やフィールドにマップすることはできません。

ヒント

Platform は、選択したターゲットスキーマまたはデータセットに基づいて、自動マッピングされたフィールドに対するインテリジェントな推奨事項を提供します。使用例に合わせてマッピングルールを手動で調整できます。

データのプレビュー」を選択すると、選択したデータセットから最大100行のサンプルデータのマッピング結果が表示されます。

プレビュー時、ID列は、マッピング結果を検証する際に必要な重要な情報なので、最初のフィールドとして優先順位付けされます。

ソースデータがマッピングされたら、「閉じる」を選択します。

取得の実行のスケジュール

スケジュール​手順が表示され、設定済みのマッピングを使用して選択したソースデータを自動的に取り込むように取り込みスケジュールを設定できます。 次の表に、スケジュール用の様々な設定可能フィールドの概要を示します。

フィールド 説明
頻度 選択可能な周波数は、OnceMinuteHourDayWeekです。
間隔 選択した頻度の間隔を設定する整数。
開始時間 最初の取り込みがいつ設定されるかを示すUTCタイムスタンプ。
バックフィル 最初に取り込まれるデータを決定するboolean値です。 バックフィル​が有効になっている場合、指定されたパス内の現在のファイルは、最初にスケジュールされた取り込みの間にすべて取り込まれます。 バックフィル​が無効になっている場合は、最初の取り込み実行から開始時刻までの間に読み込まれたファイルのみが取り込まれます。 開始時刻より前に読み込まれたファイルは取り込まれません。

データフローは、スケジュールに従ってデータを自動的に取り込むように設計されています。 まず、取得頻度を選択します。 次に、2つのフロー実行の間隔を指定する間隔を設定します。 間隔の値はゼロ以外の整数で、15以上に設定する必要があります。

取り込みの開始時間を設定するには、開始時間ボックスに表示される日時を調整します。 または、カレンダーアイコンを選択して開始時間の値を編集できます。 開始時間は、現在の時刻(UTC)以上にする必要があります。

スケジュールの値を指定し、「次へ」を選択します。

1回限りの取得データフローの設定

1回限りの取り込みを設定するには、「頻度」ドロップダウン矢印を選択し、「1回」を選択します。 1回限りの頻度の取り込み用にデータフローセットを引き続き編集できます。これにより、開始時間が将来の期間に留まる限りです。 開始時間が過ぎると、1回限りの頻度の値は編集できなくなります。 ​1回限りの ​取得データフローを設定すると、インターバランドバックフィルが表示されない。

重要

FTPコネクタを使用する場合は、1回の取り込みでデータフローをスケジュールすることを強くお勧めします。

スケジュールに適切な値を指定したら、「次へ」を選択します。

データフローの詳細の入力

データフローの詳細​手順が表示され、新しいデータフローに名前を付け、簡単な説明を入力できます。

このプロセスの間に、部分取得​および​エラー診断​を有効にすることもできます。 部分取得​を有効にすると、エラーを含むデータを、設定可能な特定のしきい値まで取り込むことができます。 エラー診断​を有効にすると、別々にバッチ処理される誤ったデータの詳細が表示されます。 詳しくは、「バッチ取得の部分の概要」を参照してください。

データフローの値を指定し、「次へ」を選択します。

データフローの確認

レビュー」手順が表示され、新しいデータフローを作成前に確認できます。 詳細は、次のカテゴリにグループ化されます。

  • 接続:ソースのタイプ、選択したソースファイルの関連パス、およびそのソースファイル内の列の数を表示します。
  • データセットとマップのフィールドの割り当て:データセットが準拠するスキーマなど、ソースデータの取り込み先のデータセットを示します。
  • スケジュール:取り込みスケジュールのアクティブな期間、頻度、間隔が表示されます。

データフローをレビューしたら、「完了」をクリックし、データフローの作成にしばらく時間をかけます。

データフローの監視

データフローを作成したら、データフローを介して取り込まれるデータを監視して、取り込み率、成功、エラーに関する情報を確認できます。 データフローの監視方法の詳細については、UIでのアカウントとデータフローの監視に関するチュートリアルを参照してください。

データフローの削除

不要になったデータフローや誤って作成されたデータフローは、Dataflows​ワークスペースの​Delete​関数を使用して削除できます。 データフローの削除方法の詳細については、UIでのデータフローの削除に関するチュートリアルを参照してください。

次の手順

このチュートリアルに従うことで、データフローを作成し、外部クラウドストレージからデータを取り込み、データセットの監視に関するインサイトを得ることができました。 データフローの作成について詳しくは、以下のビデオを参照して学習を補完してください。 さらに、受信データは、Real-time Customer ProfileやData Science Workspaceなど、ダウンストリームのPlatformサービスで使用できるようになりました。 詳しくは、次のドキュメントを参照してください。

警告

次のビデオに示す Platform UI は古くなっています。最新のUIスクリーンショットと機能については、上記のドキュメントを参照してください。

付録

以下の節では、ソースコネクタの操作に関する追加情報を示します。

データフローの無効化

データフローを作成すると、そのデータフローは直ちにアクティブになり、指定されたスケジュールに従ってデータを取り込みます。 以下の手順に従うことで、アクティブなデータフローをいつでも無効にできます。

ソース​ワークスペース内で、「参照」タブをクリックします。 次に、無効にするアクティブなデータフローに関連付けられているアカウントの名前をクリックします。

ソースアクティビティ​ページが表示されます。 リストからアクティブなデータフローを選択し、画面の右側にある「Properties」列を開きます。この列には、「Enabled」切り替えボタンが含まれています。 切り替えボタンをクリックして、データフローを無効にします。 同じ切り替えを使用して、データフローを無効にした後で再度有効にすることができます。

Profile母集団の受信データをアクティブ化

ソースコネクタからの受信データは、Real-time Customer Profileデータのエンリッチメントと入力に使用できます。 Real-time Customer Profileデータの入力について詳しくは、プロファイル母集団に関するチュートリアルを参照してください。

このページ