データセットをクラウドストレージの宛先にエクスポートする
endTimeAdobeでは、2024年11月1日より前に作成されたすべてのデータセット書き出しデータフローに対して、2025年9月1日のデフォルトの終了日も導入されました。ここでは、Experience Platform UIを使用して、 データセット をAdobe Experience PlatformからAmazon S3、SFTPの場所、またはGoogle Cloud Storageなどの任意のクラウドストレージの場所に書き出すために必要なワークフローについて説明します。
Experience Platform APIを使用して、データセットを書き出すこともできます。 詳しくは、 データセットの書き出しAPI チュートリアル を参照してください。
書き出しに使用できるデータセット datasets-to-export
書き出すことができるデータセットは、Experience Platform アプリケーション (Real-Time CDP、Adobe Journey Optimizer)、階層(PrimeまたはUltimate)、および購入したアドオン (例:Data Distiller)によって異なります。
アプリケーション、製品層、購入したアドオンに応じて、書き出すことができるデータセットの種類を次の表で確認してください。
- ソース、Web SDK、モバイルSDK、Analytics Data Connector、Audience Managerを通じてデータを取得または収集した後、Experience Platform UIで作成されたプロファイルおよびエクスペリエンスイベントデータセット。
- システム生成プロファイル スナップショット データセット。
ビデオチュートリアル video-tutorial
このページで説明されているワークフローのエンドツーエンドの説明、データセットの書き出し機能を使用する利点、推奨されるユースケースについて、次のビデオをご覧ください。
サポートされる宛先 supported-destinations
現在、スクリーンショットで強調表示され、以下に示すクラウドストレージの宛先にデータセットを書き出すことができます。
オーディエンスをアクティベートしたり、データセットを書き出したりするタイミング when-to-activate-audiences-or-activate-datasets
Experience Platform カタログの一部のファイルベースの宛先では、オーディエンスのアクティベーションとデータセットの書き出しの両方をサポートしています。
- データを活用して、オーディエンスの興味関心や適格性ごとにグループ化したプロファイルを作成したい場合は、オーディエンスのアクティベーションを検討しましょう。
- また、オーディエンスの関心や選定別にグループ化または構造化されていない未加工のデータセットを書き出そうとしている場合は、データセットの書き出しを検討します。 これらのデータは、レポートやデータサイエンスのワークフローなど、さまざまなユースケースで活用できます。 たとえば、管理者、データエンジニア、アナリストであれば、Experience Platformからデータをエクスポートして、データウェアハウスと同期したり、BI分析ツールや外部のクラウド ML ツールで使用したり、システムに保存して長期的なストレージのニーズに対応したりできます。
このドキュメントには、データセットの書き出しに必要な情報がすべて含まれています。オーディエンスをクラウドストレージまたはメールマーケティング宛先にアクティベートする場合は、 オーディエンスデータをバッチプロファイル書き出し宛先にアクティベート をお読みください。
前提条件 prerequisites
データセットを書き出すには、次の前提条件に注意してください。
- データセットをクラウドストレージ宛先に書き出すには、正常に宛先に接続されている必要があります。まだ接続していない場合は、宛先カタログに移動し、サポートされている宛先を参照し、使用する宛先を設定します。
- リアルタイム顧客プロファイルで使用するには、プロファイルデータセットを有効にする必要があります。 このオプションを有効にする方法について詳細を読む。
必要な権限 permissions
データセットをエクスポートするには、View Destinations、View DatasetsおよびManage and Activate Dataset Destinations アクセス制御権限が必要です。 必要な権限を取得するには、アクセス制御の概要を参照するか、製品管理者に問い合わせてください。
データセットの書き出しに必要な権限があることと、宛先でデータセットの書き出しがサポートされていることを確認するには、宛先カタログを参照します。 宛先に Activate またはExport datasets コントロールがある場合は、適切な権限を持っています。
宛先の選択 select-destination
データセットを書き出すことができる宛先を選択するには、次の手順に従います。
-
Connections > Destinationsに移動し、「Catalog」タブを選択します。
-
データセットの書き出し先に対応するカードで Activate または Export datasets を選択します。
-
Data type Datasetsを選択し、データセットの書き出し先となる宛先接続を選択してから、Nextを選択します。
- Select datasets ビューが表示されます。 次の節に進んで、書き出すデータセットを選択します。
データセットの選択 select-datasets
データセット名の左側にあるチェックボックスを使用して、宛先に書き出すデータセットを選択し、Nextを選択します。
データセット書き出しのスケジュール設定 scheduling
Scheduling ステップを使用して、以下を行います。
- データセットの書き出しに、開始日と終了日、および書き出し頻度を設定します。
- 書き出されたデータセットファイルで、データセットの完全なメンバーシップを書き出す必要があるか、書き出し時に各メンバーシップに対する増分の変更のみを行うかを設定します。
- データセットを書き出すストレージの場所のフォルダーパスをカスタマイズします。 詳しくは、書き出しフォルダーのパスを編集する方法を参照してください。
ページのEdit schedule コントロールを使用して、書き出しの書き出し頻度を編集したり、完全ファイルと増分ファイルのどちらを書き出すかを選択したりします。
Export incremental files オプションはデフォルトで選択されています。 これにより、データセットの完全なスナップショットを表す1つまたは複数のファイルの書き出しがトリガーされます。 後続のファイルは、前回の書き出し以降のデータセットへの増分ファイルです。 Export full filesを選択することもできます。 この場合、データセットの1回限りの完全な書き出しの頻度 Once を選択します。
-
Frequency セレクターを使用して、書き出し頻度を選択します。
- Daily:指定した時刻に、1日1回、毎日1回、増分ファイル書き出しをスケジュールします。
- Hourly: 3、6、8、または12時間ごとに増分ファイルの書き出しをスケジュールします。
-
Time セレクターを使用して、書き出しを行う時刻をUTC形式で選択します。
-
Date セレクターを使用して、書き出しを実行する間隔を選択します。
-
Saveを選択してスケジュールを保存し、Review ステップに進みます。
フォルダーパスの編集 edit-folder-path
Edit folder pathを選択して、書き出されたデータセットが格納される保存場所のフォルダー構造をカスタマイズします。
使用可能なマクロをいくつか使用して、目的のフォルダー名をカスタマイズできます。 マクロをダブルクリックしてフォルダーパスに追加し、マクロ間で/を使用してフォルダーを分離します。
カスタムフォルダーモーダルウィンドウで選択した
目的のマクロを選択すると、ストレージの場所に作成されるフォルダー構造のプレビューが表示されます。 フォルダー構造内の最初のレベルは、Folder path宛先に接続してデータセットを書き出したときに指定したを表します。
複数のデータセットを管理するためのベストプラクティス best-practices-multiple-datasets
複数のデータセットを書き出す場合は、次のベストプラクティスを考慮してください。
- 同じスケジュール要件:同じ書き出しスケジュール(頻度、タイプ)を必要とするデータセットを単一のデータフローにグループ化して、管理を容易にします。
- 異なるスケジュール要件:異なる書き出しスケジュールまたは書き出しタイプ(増分と完全)を必要とするデータセットに対して、個別のデータフローを作成します。 これにより、各データセットが特定のニーズに従って書き出されます。
- 変更する前に確認する:既存のデータフローのスケジュールを変更する前に、そのデータフローを通じて既に書き出されているデータセットを確認して、書き出し動作に意図しない変更を加えないようにします。
- 設定を文書化する:特に異なる宛先で複数の書き出しスケジュールを管理する場合は、どのデータセットがどのデータフローにあるのかを追跡します。
レビュー review
Review ページで、選択内容の概要を表示できます。 Cancelを選択してフローを分割し、Backを選択して設定を変更するか、Finishを選択して選択を確定し、データセットの宛先へのエクスポートを開始します。
データセットの正常な書き出しの確認 verify
データセットを書き出す場合、Experience Platformは、指定したストレージの場所に1つまたは複数の.jsonまたは.parquet個のファイルを作成します。 指定した書き出しスケジュールに従って、新しいファイルがストレージの場所に格納されることを期待します。
Experience Platform は、指定されたストレージの場所にフォルダー構造を作成し、書き出されたデータセットファイルを格納します。 デフォルトのフォルダー書き出しパターンは次の通りですが、フォルダー構造を好みのマクロで カスタマイズできます。
folder-name-you-provided – は、Folder path宛先に接続してデータセットをエクスポートしたときに指定したを表します。folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM
デフォルトのファイル名はランダムに生成され、書き出されたファイルの名前は必ず一意になります。
サンプルデータセットファイル sample-files
これらのファイルがストレージの場所に存在すれば、書き出しは成功しています。書き出されたファイルの構造を理解するには、サンプルの .parquet ファイルまたは .json ファイルをダウンロードできます。
圧縮されたデータセットファイル compressed-dataset-files
宛先への接続ワークフローで、次に示すように、圧縮する書き出されたデータセット ファイルを選択できます。
圧縮した場合、2つのファイルタイプ間のファイル形式の違いに注意してください。
- 圧縮されたJSON ファイルを書き出す場合、書き出されるファイル形式は
json.gzです。 書き出されたJSONの形式はNDJSONで、ビッグデータエコシステムの標準的な交換形式です。 Adobeでは、書き出されたファイルを読み取るために、NDJSON互換クライアントを使用することをお勧めします。 - 圧縮されたparquet ファイルを書き出す場合、書き出されたファイル形式は
gz.parquetです
JSON ファイルへの書き出しは、圧縮モードでのみサポートされます。 Parquet ファイルへの書き出しは、圧縮モードと非圧縮モードでサポートされています。
宛先からのデータセットの削除 remove-dataset
既存のデータフローからデータセットを削除するには、次の手順に従います。
-
Experience Platform UIに移動し、左側のナビゲーションバーから Destinations を選択します。 上部ヘッダーから「Browse」を選択して、既存の宛先データフローを表示します。
note tip TIP 左上のフィルターアイコン を選択して、並べ替えパネルを開きます。並べ替えパネルには、すべての宛先のリストが表示されます。 リストから複数の宛先を選択して、選択した宛先に関連付けられた特定のデータフローを表示できます。
-
Activation data列から、データセット コントロールを選択して、この書き出しデータフローにマッピングされたすべてのデータセットを表示します。
-
宛先のActivation data ページが表示されます。 データセットリストの左側にあるチェックボックスを使用して、削除するデータセットを選択し、右側のパネルで「Remove datasets」を選択して、データセットの削除の確認ダイアログをトリガーします。
-
確認ダイアログで「Remove」を選択して、データセットを宛先への書き出しからすぐに削除します。
データセット書き出しの使用権限 licensing-entitlement
1年間にExperience Platform アプリケーションごとに書き出すことができるデータの量については、製品説明ドキュメントを参照してください。 例えば、Real-Time CDP製品説明ここを表示できます。
異なるアプリケーションのデータ書き出し権限は追加されないことに注意してください。 例えば、Real-Time CDP UltimateとAdobe Journey Optimizer Ultimateを購入した場合、プロファイル書き出し使用権限は、商品説明に従って、2つの使用権限のうち大きい方になります。 ボリュームエンタイトルメントは、ライセンス済みプロファイルの合計数を取得し、Real-Time CDP Primeの場合は500 KB、Ultimateの場合は700 KBを掛けて、使用権限のあるデータの量を判断することで計算されます。Real-Time CDP
一方、Data Distillerなどのアドオンを購入した場合、権限を持つデータ書き出し制限は、製品層とアドオンの合計を表します。
ライセンス使用状況ダッシュボード で、プロファイルの書き出しを契約上の制限に照らし合わせて表示および追跡できます。
既知の制限事項 known-limitations
データセット書き出しの一般公開リリースでは、次の制限に注意してください。
- Experience Platformでは、小さなデータセットでも複数のファイルを書き出すことができます。 データセットの書き出しは、システム間の統合のために設計され、パフォーマンスのために最適化されているため、書き出されるファイルの数はカスタマイズできません。
- 書き出されたファイル名は、現在カスタマイズできません。
- 宛先に書き出されるデータセットの削除は、現在、UI で禁止されていません。 宛先に書き出されるデータセットは削除しないでください。 データセットを削除する場合は、まず、宛先データフローからデータセットを削除します。
- データセット書き出しのモニタリング指標は、現在、プロファイル書き出しの数値と混在しているので、実際の書き出し数値を反映していません。
- タイムスタンプが365日を超えるデータは、データセットの書き出しから除外されます。 詳細については、スケジュールされたデータセットの書き出しに関する ガードレール を参照してください
よくある質問 faq
フォルダーのパスとして/に保存するだけで、フォルダーなしでファイルを生成できますか? また、フォルダーのパスが必要ない場合、フォルダーまたは場所に重複する名前のファイルはどのように生成されますか?
/を使用することもできます。 Adobeでは、異なるデータセットに属するシステム生成ファイル名が同じフォルダー内に混在するため、複数のデータセットを書き出す宛先には使用しないことをお勧めします。マニフェストファイルをあるフォルダーに、データファイルを別のフォルダーにルーティングできますか?
ファイル配信の順序やタイミングを制御できますか?
マニフェスト ファイルに使用できる形式は何ですか?
マニフェスト ファイルにAPIを使用できますか?
マニフェスト ファイルに追加の詳細(レコード数)を追加できますか? その場合、どうですか?
flowRun エンティティを介して使用できます(API経由でクエリ可能)。 詳しくは、宛先監視を参照してください。データファイルはどのように分割されますか? 1つのファイルあたりのレコード数は?
しきい値(ファイルあたりのレコード数)を設定できますか?
最初の送信が不正な場合、データセットを再送信するにはどうすればよいですか?
同じデータフロー内の異なるデータセットに対して、異なる書き出しスケジュールを設定できますか?