データセットの書き出し
この記事では、Customer Journey Analytics Export datasets を使用して次の データ書き出しのユースケース を実装する方法について説明します。
- データバックアップ
はじめに
Experience Platform Export datasets を使用したデータの書き出しを使用すると、Customer Journey Analytics データビューから任意のクラウドストレージの宛先にデータを書き出すことができます。
詳細情報
Experience Platformのデータレイクからクラウドストレージの宛先に、未加工データセットを書き出すことができます。 この書き出しは、データセット書き出し宛先と呼ばれるExperience Platformの宛先の用語で使用されます。 詳しくは、 クラウドストレージの宛先へのデータセットの書き出し を参照してください。
次のクラウドストレージの宛先がサポートされています。
EXPERIENCE PLATFORM UI
Experience Platform UI を使用して、データセットの書き出しをスケジュールできます。 この節では、関連する手順について説明します。
宛先を選択
データセットの書き出し先となるクラウドストレージの宛先を決定したら、 宛先を選択 します。 優先クラウドストレージの宛先をまだ設定していない場合は、 新しい宛先接続を作成する 必要があります。
宛先の設定の一環として、次の項目を定義できます。
- ファイルタイプ(JSON または Parquet)
- 結果のファイルが圧縮されるかどうか、および
- マニフェストファイルを含めるかどうか。
データセットを選択
宛先を選択したら、次の データセットを選択 手順で、データセットのリストからデータセットを選択する必要があります。 複数のスケジュール済みクエリを作成し、データセットを同じクラウドストレージ宛先に送信する場合、対応するデータセットを選択できます。 詳しくは データセットの選択 を参照してください。
データセット書き出しのスケジュール設定
最後に、スケジュール設定 手順の一部としてデータセットの書き出しをスケジュールします。 その手順では、スケジュールと、データセットの書き出しを増分で行うかどうかを定義できます。 詳しくは データセットの書き出しをスケジュール を参照してください。
最終手順
確認 選択し、正しければ、クラウドストレージの宛先へのデータセットの書き出しを開始します。
まず、データの書き出しが正常に行われたことを 検証 する必要があります。 データセットを書き出す際、Experience Platformは、宛先で定義されたストレージの場所に 1 つまたは複数の .json
ファイルまたは .parquet
ファイルを作成します。 設定した書き出しスケジュールに従って、新しいファイルがストレージの場所に格納されます。 Experience Platformは、選択された宛先の一部として指定されたストレージの場所にフォルダー構造を作成し、書き出されたファイルを格納します。 folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM
のパターンに従って、書き出しのたびに新しいフォルダーが作成されます。 デフォルトのファイル名はランダムに生成され、書き出されたファイルの名前は必ず一意になります。
フローサービス API
または、API を使用してデータセットの書き出しを書き出し、スケジュールすることもできます。 含まれる手順は、Flow Service API を使用したデータセットの書き出し に記載されています。
基本を学ぶ
データセットを書き出すには、 必要な権限 があることを確認します。 また、データセットの送信先がデータセットの書き出しをサポートしていることを確認します。 次に、API 呼び出しで使用する 必須ヘッダーとオプションヘッダーの値を収集する 必要があります。 また、データセットを書き出す 宛先の接続仕様 ID とフロー仕様 ID を識別する必要もあります。
適格なデータセットの取得
書き出し用に 適格なデータセットのリストを取得 し、データセットが GET /connectionSpecs/{id}/configs
API を使用してそのリストに含まれているかどうかを確認できます。
ソース接続を作成
次に、クラウドストレージの宛先に書き出す、一意の ID を使用したデータセットの ソース接続を作成 する必要があります。 POST /sourceConnections
API を使用します。
宛先に対する認証(ベース接続の作成)
🔗 API を使用して認証を行い、クラウドストレージの宛先に資格情報を安全に保存するには、POST /targetConection
ベース接続を作成 する必要があります。
エクスポートパラメーターの指定
次に、🔗 API を使用してデータセットの POST /targetConection
書き出しパラメーターを保存する追加のターゲット接続の作成 を行う必要があります。 これらの書き出しパラメーターには、場所、ファイル形式、圧縮などが含まれます。
データフローの設定
最後に、 データフローの設定 を行い、POST /flows
API を使用してデータセットがクラウドストレージの宛先に書き出されるようにします。 この手順では、scheduleParams
パラメーターを使用して、書き出しのスケジュールを定義できます。
データフローの検証
データフローの正常な実行を確認 するには、GET /runs
API を使用して、データフロー ID をクエリパラメーターとして指定します。 このデータフロー ID は、データフローを設定したときに返される識別子です。
検証 成功したデータ書き出し。 データセットを書き出す際、Experience Platformは、宛先で定義されたストレージの場所に 1 つまたは複数の .json
ファイルまたは .parquet
ファイルを作成します。 設定した書き出しスケジュールに従って、新しいファイルがストレージの場所に格納されます。 Experience Platformは、選択された宛先の一部として指定されたストレージの場所にフォルダー構造を作成し、書き出されたファイルを格納します。 folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM
のパターンに従って、書き出しのたびに新しいフォルダーが作成されます。 デフォルトのファイル名はランダムに生成され、書き出されたファイルの名前は必ず一意になります。