データセットをクラウドストレージの宛先にエクスポートする

AVAILABILITY
この機能は、Real-Time CDP PrimeまたはUltimate パッケージ、Adobe Journey Optimizer、またはCustomer Journey Analyticsを購入したお客様が利用できます。 詳しくは、アドビ担当者にお問い合わせください。
IMPORTANT
アクション項目: Experience Platformの2024年9月2日リリースでは、データセットの書き出しデータフローの日付をに設定するオプションが導入されました。 endTimeAdobeでは、2024年11月1日​より前に作成されたすべてのデータセット書き出しデータフローに対して、2025年9月1日のデフォルトの終了日も導入されました。
これらのデータフローのいずれかで、データフローの終了日を終了日より前に手動で更新する必要があります。そうしないと、書き出しはその日に停止します。 Experience Platform UIを使用して、2025年9月1日に停止するように設定されているデータフローを表示します。
データセット書き出しデータフローの終了日を編集する方法については、​ スケジュール設定の節を参照してください。

ここでは、Experience Platform UIを使用して、​ データセット ​をAdobe Experience PlatformからAmazon S3、SFTPの場所、またはGoogle Cloud Storageなどの任意のクラウドストレージの場所に書き出すために必要なワークフローについて説明します。

Experience Platform APIを使用して、データセットを書き出すこともできます。 詳しくは、​ データセットの書き出しAPI チュートリアル ​を参照してください。

書き出しに使用できるデータセット datasets-to-export

書き出すことができるデータセットは、Experience Platform アプリケーション (Real-Time CDP、Adobe Journey Optimizer)、階層(PrimeまたはUltimate)、および購入したアドオン (例:Data Distiller)によって異なります。

アプリケーション、製品層、購入したアドオンに応じて、書き出すことができるデータセットの種類を次の表で確認してください。

アプリケーション/アドオン
階層
書き出しに使用できるデータセット
Real-Time CDP
Prime
ソース、Web SDK、モバイルSDK、Analytics Data Connector、Audience Managerを通じてデータを取得または収集した後、Experience Platform UIで作成されたプロファイルおよびエクスペリエンスイベントデータセット。
Ultimate
Adobe Journey Optimizer
Prime
Adobe Journey Optimizer ドキュメントを参照してください。
Ultimate
Adobe Journey Optimizer ドキュメントを参照してください。
Customer Journey Analytics
すべて
ソース、Web SDK、モバイルSDK、Analytics Data Connector、Audience Managerを通じてデータを取得または収集した後、Experience Platform UIで作成されたプロファイルおよびエクスペリエンスイベントデータセット。
Data Distiller
Data Distiller (アドオン)
クエリサービスを通じて作成された派生データセット:

ビデオチュートリアル video-tutorial

このページで説明されているワークフローのエンドツーエンドの説明、データセットの書き出し機能を使用する利点、推奨されるユースケースについて、次のビデオをご覧ください。

サポートされる宛先 supported-destinations

現在、スクリーンショットで強調表示され、以下に示すクラウドストレージの宛先にデータセットを書き出すことができます。

宛先カタログページ。どの宛先がデータセットの書き出しをサポートしているかが表示されます。

オーディエンスをアクティベートしたり、データセットを書き出したりするタイミング when-to-activate-audiences-or-activate-datasets

Experience Platform カタログの一部のファイルベースの宛先では、オーディエンスのアクティベーションとデータセットの書き出しの両方をサポートしています。

  • データを活用して、オーディエンスの興味関心や適格性ごとにグループ化したプロファイルを作成したい場合は、オーディエンスのアクティベーションを検討しましょう。
  • また、オーディエンスの関心や選定別にグループ化または構造化されていない未加工のデータセットを書き出そうとしている場合は、データセットの書き出しを検討します。 これらのデータは、レポートやデータサイエンスのワークフローなど、さまざまなユースケースで活用できます。 たとえば、管理者、データエンジニア、アナリストであれば、Experience Platformからデータをエクスポートして、データウェアハウスと同期したり、BI分析ツールや外部のクラウド ML ツールで使用したり、システムに保存して長期的なストレージのニーズに対応したりできます。

このドキュメントには、データセットの書き出しに必要な情報がすべて含まれています。オーディエンス​をクラウドストレージまたはメールマーケティング宛先にアクティベートする場合は、​ オーディエンスデータをバッチプロファイル書き出し宛先にアクティベート ​をお読みください。

前提条件 prerequisites

データセットを書き出すには、次の前提条件に注意してください。

  • データセットをクラウドストレージ宛先に書き出すには、正常に宛先に接続されている必要があります。まだ接続していない場合は、宛先カタログに移動し、サポートされている宛先を参照し、使用する宛先を設定します。
  • リアルタイム顧客プロファイルで使用するには、プロファイルデータセットを有効にする必要があります。 このオプションを有効にする方法について詳細を読む。

必要な権限 permissions

データセットをエクスポートするには、View DestinationsView Datasets​および​Manage and Activate Dataset Destinations ​ アクセス制御権限が必要です。 必要な権限を取得するには、アクセス制御の概要を参照するか、製品管理者に問い合わせてください。

データセットの書き出しに必要な権限があることと、宛先でデータセットの書き出しがサポートされていることを確認するには、宛先カタログを参照します。 宛先に​ Activate ​または​Export datasets コントロールがある場合は、適切な権限を持っています。

宛先の選択 select-destination

データセットを書き出すことができる宛先を選択するには、次の手順に従います。

  1. Connections > Destinations​に移動し、「Catalog」タブを選択します。

    カタログコントロールがハイライト表示された「宛先カタログ」タブ

  2. データセットの書き出し先に対応するカードで​ Activate ​または​ Export datasets ​を選択します。

    「アクティブ化」コントロールがハイライト表示された「宛先カタログ」タブ

  3. Data type Datasets​を選択し、データセットの書き出し先となる宛先接続を選択してから、Next​を選択します。

TIP
データセットを書き出す新しい宛先を設定する場合は、Configure new destination​を選択して、宛先に接続 ワークフローをトリガーします。

「データセット」コントロールがハイライト表示された宛先のアクティベーションワークフロー

  1. Select datasets ビューが表示されます。 次の節に進んで、書き出すデータセットを選択します。

データセットの選択 select-datasets

データセット名の左側にあるチェックボックスを使用して、宛先に書き出すデータセットを選択し、Next​を選択します。

書き出すデータセットを選択できる「データセットを選択」ステップが表示されているデータセット書き出しワークフロー

NOTE
ここで選択したすべてのデータセットは、同じ書き出しスケジュールを共有します。 異なる書き出しスケジュールが必要な場合(一部のデータセットの増分書き出しや、他のデータセットの1回限りの完全な書き出しなど)、スケジュールタイプごとに個別のデータフローを作成します。

データセット書き出しのスケジュール設定 scheduling

IMPORTANT
スケジュールは、データフロー​内のすべてのデータセットに適用されます
書き出しスケジュールを設定または変更すると、現在設定しているデータフローを通じて書き出されているすべてのデータセット に適用されます。​同じデータフロー内で個々のデータセットに異なるスケジュールを設定することはできません。
異なるデータセットに対して異なる書き出しスケジュールが必要な場合は、スケジュールタイプごとに別々のデータフロー(別々の宛先接続)を作成する必要があります。
例: データセット Aを増分的にエクスポートしており、データセット Bを1回限りの完全なエクスポート スケジュールで追加した場合、データセット Aも1回限りの完全なエクスポート スケジュールに更新されます。

Scheduling ステップを使用して、以下を行います。

  • データセットの書き出しに、開始日と終了日、および書き出し頻度を設定します。
  • 書き出されたデータセットファイルで、データセットの完全なメンバーシップを書き出す必要があるか、書き出し時に各メンバーシップに対する増分の変更のみを行うかを設定します。
  • データセットを書き出すストレージの場所のフォルダーパスをカスタマイズします。 詳しくは、書き出しフォルダーのパスを編集する方法を参照してください

ページの​Edit schedule コントロールを使用して、書き出しの書き出し頻度を編集したり、完全ファイルと増分ファイルのどちらを書き出すかを選択したりします。

WARNING
ここでスケジュールを変更すると、このデータフロー内のすべてのデータセットの書き出し動作が更新されます。 このデータフローに複数のデータセットが含まれる場合、これらはすべて、この変更の影響を受けます。

スケジュール管理の編集は、スケジュール設定ステップでハイライト表示されています。

Export incremental files オプションはデフォルトで選択されています。 これにより、データセットの完全なスナップショットを表す1つまたは複数のファイルの書き出しがトリガーされます。 後続のファイルは、前回の書き出し以降のデータセットへの増分ファイルです。 Export full files​を選択することもできます。 この場合、データセットの1回限りの完全な書き出しの頻度​ Once ​を選択します。

IMPORTANT
最初の増分ファイル書き出しには、データセット内の既存のすべてのデータが含まれ、バックフィルとして機能します。 書き出しには、1つまたは複数のファイルを含めることができます。

「スケジュール設定」ステップが表示されているデータセット書き出しワークフロー

  1. Frequency セレクターを使用して、書き出し頻度を選択します。

    • Daily:指定した時刻に、1日1回、毎日1回、増分ファイル書き出しをスケジュールします。
    • Hourly: 3、6、8、または12時間ごとに増分ファイルの書き出しをスケジュールします。
  2. Time セレクターを使用して、書き出しを行う時刻をUTC形式で選択します。

  3. Date セレクターを使用して、書き出しを実行する間隔を選択します。

  4. Save​を選択してスケジュールを保存し、Review ステップに進みます。

NOTE
データセット書き出しの場合、ファイル名には事前に設定されたデフォルトの形式が使用され、これを変更することはできません。 書き出されたファイルの詳細と例については、データセットの正常な書き出しの確認の節を参照してください。

フォルダーパスの編集 edit-folder-path

Edit folder path​を選択して、書き出されたデータセットが格納される保存場所のフォルダー構造をカスタマイズします。

スケジュール手順でハイライト表示されたフォルダーのパス制御の編集

使用可能なマクロをいくつか使用して、目的のフォルダー名をカスタマイズできます。 マクロをダブルクリックしてフォルダーパスに追加し、マクロ間で/を使用してフォルダーを分離します。

カスタムフォルダーモーダルウィンドウで選択した マクロがハイライト表示されます。

目的のマクロを選択すると、ストレージの場所に作成されるフォルダー構造のプレビューが表示されます。 フォルダー構造内の最初のレベルは、Folder path​宛先に接続してデータセットを書き出したときに指定したを表します。

カスタムフォルダーモーダルウィンドウでフォルダーパスのプレビューが強調表示されます。

複数のデータセットを管理するためのベストプラクティス best-practices-multiple-datasets

複数のデータセットを書き出す場合は、次のベストプラクティスを考慮してください。

  • 同じスケジュール要件:同じ書き出しスケジュール(頻度、タイプ)を必要とするデータセットを単一のデータフローにグループ化して、管理を容易にします。
  • 異なるスケジュール要件:異なる書き出しスケジュールまたは書き出しタイプ(増分と完全)を必要とするデータセットに対して、個別のデータフローを作成します。 これにより、各データセットが特定のニーズに従って書き出されます。
  • 変更する前に確認する:既存のデータフローのスケジュールを変更する前に、そのデータフローを通じて既に書き出されているデータセットを確認して、書き出し動作に意図しない変更を加えないようにします。
  • 設定を文書化する:特に異なる宛先で複数の書き出しスケジュールを管理する場合は、どのデータセットがどのデータフローにあるのかを追跡します。

レビュー review

Review ページで、選択内容の概要を表示できます。 Cancel​を選択してフローを分割し、Back​を選択して設定を変更するか、Finish​を選択して選択を確定し、データセットの宛先へのエクスポートを開始します。

レビューステップを表示するデータセット書き出しワークフロー

データセットの正常な書き出しの確認 verify

データセットを書き出す場合、Experience Platformは、指定したストレージの場所に1つまたは複数の.jsonまたは.parquet個のファイルを作成します。 指定した書き出しスケジュールに従って、新しいファイルがストレージの場所に格納されることを期待します。

Experience Platform は、指定されたストレージの場所にフォルダー構造を作成し、書き出されたデータセットファイルを格納します。 デフォルトのフォルダー書き出しパターンは次の通りですが、フォルダー構造を好みのマクロで​ カスタマイズできます

TIP
このフォルダー構造の最初のレベル - folder-name-you-provided – は、Folder path​宛先に接続してデータセットをエクスポートしたときに指定したを表します。

folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM

デフォルトのファイル名はランダムに生成され、書き出されたファイルの名前は必ず一意になります。

サンプルデータセットファイル sample-files

これらのファイルがストレージの場所に存在すれば、書き出しは成功しています。書き出されたファイルの構造を理解するには、サンプルの .parquet ファイルまたは .json ファイルをダウンロードできます。

圧縮されたデータセットファイル compressed-dataset-files

宛先への接続ワークフローで、次に示すように、圧縮する書き出されたデータセット ファイルを選択できます。

データセットを書き出す宛先に接続する際のファイルの種類と圧縮の選択。

圧縮した場合、2つのファイルタイプ間のファイル形式の違いに注意してください。

  • 圧縮されたJSON ファイルを書き出す場合、書き出されるファイル形式はjson.gzです。 書き出されたJSONの形式はNDJSONで、ビッグデータエコシステムの標準的な交換形式です。 Adobeでは、書き出されたファイルを読み取るために、NDJSON互換クライアントを使用することをお勧めします。
  • 圧縮されたparquet ファイルを書き出す場合、書き出されたファイル形式はgz.parquetです

JSON ファイルへの書き出しは、圧縮モードでのみ​サポートされます。 Parquet ファイルへの書き出しは、圧縮モードと非圧縮モードでサポートされています。

宛先からのデータセットの削除 remove-dataset

既存のデータフローからデータセットを削除するには、次の手順に従います。

  1. Experience Platform UIに移動し、左側のナビゲーションバーから​ Destinations ​を選択します。 上部ヘッダーから「Browse」を選択して、既存の宛先データフローを表示します。

    宛先接続が表示され残りの部分がぼかされた宛先参照ビュー

    note tip
    TIP
    左上のフィルターアイコン フィルターアイコン を選択して、並べ替えパネルを開きます。並べ替えパネルには、すべての宛先のリストが表示されます。 リストから複数の宛先を選択して、選択した宛先に関連付けられた特定のデータフローを表示できます。
  2. Activation data​列から、データセット コントロールを選択して、この書き出しデータフローにマッピングされたすべてのデータセットを表示します。

    アクティベーションデータ列で強調表示されている使用可能なデータセットナビゲーションオプション

  3. 宛先の​Activation data ページが表示されます。 データセットリストの左側にあるチェックボックスを使用して、削除するデータセットを選択し、右側のパネルで「Remove datasets」を選択して、データセットの削除の確認ダイアログをトリガーします。

    右側のパネルに「データセットの削除」コントロールが表示されているデータセットを削除ダイアログ

  4. 確認ダイアログで「Remove」を選択して、データセットを宛先への書き出しからすぐに削除します。

    データフローからのデータセットの削除を確認するオプションを表示するダイアログ

データセット書き出しの使用権限 licensing-entitlement

1年間にExperience Platform アプリケーションごとに書き出すことができるデータの量については、製品説明ドキュメントを参照してください。 例えば、Real-Time CDP製品説明ここを表示できます。

異なるアプリケーションのデータ書き出し権限は追加されないことに注意してください。 例えば、Real-Time CDP UltimateとAdobe Journey Optimizer Ultimateを購入した場合、プロファイル書き出し使用権限は、商品説明に従って、2つの使用権限のうち大きい方になります。 ボリュームエンタイトルメントは、ライセンス済みプロファイルの合計数を取得し、Real-Time CDP Primeの場合は500 KB、Ultimateの場合は700 KBを掛けて、使用権限のあるデータの量を判断することで計算されます。Real-Time CDP

一方、Data Distillerなどのアドオンを購入した場合、権限を持つデータ書き出し制限は、製品層とアドオンの合計を表します。

​ ライセンス使用状況ダッシュボード ​で、プロファイルの書き出しを契約上の制限に照らし合わせて表示および追跡できます。

既知の制限事項 known-limitations

データセット書き出しの一般公開リリースでは、次の制限に注意してください。

  • Experience Platformでは、小さなデータセットでも複数のファイルを書き出すことができます。 データセットの書き出しは、システム間の統合のために設計され、パフォーマンスのために最適化されているため、書き出されるファイルの数はカスタマイズできません。
  • 書き出されたファイル名は、現在カスタマイズできません。
  • 宛先に書き出されるデータセットの削除は、現在、UI で禁止されていません。 宛先に書き出されるデータセットは削除しないでください。 データセットを削除する場合は、まず、宛先データフローからデータセットを削除します。
  • データセット書き出しのモニタリング指標は、現在、プロファイル書き出しの数値と混在しているので、実際の書き出し数値を反映していません。
  • タイムスタンプが365日を超えるデータは、データセットの書き出しから除外されます。 詳細については、スケジュールされたデータセットの書き出しに関する​ ガードレール ​を参照してください

よくある質問 faq

フォルダーのパスとして/に保存するだけで、フォルダーなしでファイルを生成できますか? また、フォルダーのパスが必要ない場合、フォルダーまたは場所に重複する名前のファイルはどのように生成されますか?

回答
2024年9月リリース以降、フォルダー名をカスタマイズし、同じフォルダー内のすべてのデータセットのファイルの書き出しに/を使用することもできます。 Adobeでは、異なるデータセットに属するシステム生成ファイル名が同じフォルダー内に混在するため、複数のデータセットを書き出す宛先には使用しないことをお勧めします。

マニフェストファイルをあるフォルダーに、データファイルを別のフォルダーにルーティングできますか?

回答
いいえ。マニフェストファイルを別の場所にコピーする機能はありません。

ファイル配信の順序やタイミングを制御できますか?

回答
書き出しのスケジュールを設定するオプションがあります。 ファイルのコピーを遅延または順序付けするオプションはありません。 それらは生成されるとすぐに、ストレージの場所にコピーされます。

マニフェスト ファイルに使用できる形式は何ですか?

回答
マニフェストファイルは.json形式です。

マニフェスト ファイルにAPIを使用できますか?

回答
マニフェストファイルに使用できるAPIはありませんが、書き出しを構成するファイルのリストが含まれています。

マニフェスト ファイルに追加の詳細(レコード数)を追加できますか? その場合、どうですか?

回答
マニフェストファイルに追加情報を追加する可能性はありません。 レコード数は、flowRun エンティティを介して使用できます(API経由でクエリ可能)。 詳しくは、宛先監視を参照してください。

データファイルはどのように分割されますか? 1つのファイルあたりのレコード数は?

回答
データファイルは、Experience Platform データレイクのデフォルトのパーティションごとに分割されます。 データセットが大きいほど、パーティションの数が多くなります。 デフォルトのパーティション設定は、読み取り用に最適化されているため、ユーザーは設定できません。

しきい値(ファイルあたりのレコード数)を設定できますか?

回答
いいえ、不可能です。

最初の送信が不正な場合、データセットを再送信するにはどうすればよいですか?

回答
再試行は、ほとんどのタイプのシステムエラーに対して自動的に実行されます。

同じデータフロー内の異なるデータセットに対して、異なる書き出しスケジュールを設定できますか?

回答
いいえ。単一のデータフロー内のすべてのデータセットは、同じ書き出しスケジュールを共有します。 異なるデータセットに対して異なる書き出しスケジュールが必要な場合は、スケジュールタイプごとに個別のデータフロー(宛先接続)を作成する必要があります。 例えば、データセット Aを毎日増分エクスポートし、データセット Bを1回限りの完全エクスポートとしてエクスポートする場合は、2つの別々のデータフローを作成する必要があります。
recommendation-more-help
7f4d1967-bf93-4dba-9789-bb6b505339d6