データセットをストレージ宛先クラウド書き出し
endTime
日付を設定するオプションが導入されました。 また、Adobeでは、(2024 年 9 月リリースより前に 作成されたすべてのデータセット書き出しデータフローのデフォルト終了日が 2025 年 5 月 1 日(PT に導入されました。この記事では、Adobe Experience Platform Experience Platform UI を使用して、目的のクラウドストレージの場所(Amazon S3、SFTP の場所、Google Cloud Storage など)に データセットを書き出すために必要なワークフローについて説明します。
Experience Platform API を使用してデータセットを書き出すこともできます。 詳しくは、 データセット API の書き出しチュートリアルを参照してください。
書き出すことができるデータセット datasets-to-export
書き出すことができるデータセットは、Experience Platform アプリケーション(Real-Time CDP、Adobe Journey Optimizer)、層(PrimeまたはUltimate)、購入したアドオン(例:Data Distiller)によって異なります。
次の表を使用して、アプリケーション、製品層、購入したアドオンに応じて、書き出すことができるデータセットのタイプを理解します。
- ソース、Web SDK、Mobile SDK、Analytics Data Connector およびAudience Managerを使用してデータを取り込みまたは収集した後、Experience Platform UI で作成されたプロファイルおよびエクスペリエンスイベントデータセット。
- システム生成プロファイルスナップショットデータセット。
ビデオチュートリアル video-tutorial
このページで説明されているワークフローのエンドツーエンドの説明、データセットの書き出し機能を使用するメリット、推奨されるユースケースについては、以下のビデオをご覧ください。
サポートされる宛先 supported-destinations
現在、スクリーンショットでハイライト表示され、以下に示されているクラウドストレージの宛先にデータセットを書き出すことができます。
オーディエンスをアクティブにするタイミングまたはデータセットをエクスポートするタイミング when-to-activate-audiences-or-activate-datasets
Experience Platform カタログ内の一部のファイルベースの宛先では、オーディエンス アクティベーション と データセット の両方のエクスポートがサポートされています。
- オーディエンス興味や資格でグループ化したプロファイルにデータを構造化する場合は、オーディエンスのアクティブ化を検討してください。
- また、オーディエンスの関心や選定別にグループ化または構造化されていない未加工のデータセットを書き出そうとしている場合は、データセットの書き出しを検討します。 このデータは、レポート、データサイエンスワークフロー、およびその他の多くのユースケースに使用できます。 たとえば、管理者、データ エンジニア、またはアナリストは、Experience Platform からデータをエクスポートして、データウェアハウスと同期したり、BI 分析 ツール、外部 クラウド ML ツールで使用したり、長期的なストレージニーズに合わせてシステムでストアしたりできます。
このドキュメントには、データセットの書き出しに必要な情報がすべて含まれています。クラウドストレージ宛先またはメールマーケティング宛先に対して オーディエンス をアクティブ化する場合は、 バッチプロファイル書き出し宛先に対するオーディエンスデータのアクティブ化を参照してください。
前提条件 prerequisites
データセットをクラウドストレージ宛先に書き出すには、正常に宛先に接続されている必要があります。まだ接続していない場合は、宛先カタログに移動し、サポートされている宛先を参照し、使用する宛先を設定します。
必要な権限 permissions
データセットを書き出すには、宛先の表示、データセットの表示 および データセットの宛先の管理とアクティブ化 アクセス制御権限が必要です。 必要な権限を取得するには、アクセス制御の概要を参照するか、製品管理者に問い合わせてください。
データセットの書き出しに必要な権限があることと、宛先でデータセットの書き出しがサポートされていることを確認するには、宛先カタログを参照します。 宛先に「アクティブ化」または「データセットを書き出し」コントロールがある場合、適切な権限を持っています。
宛先の選択 select-destination
データセットを書き出すことができる宛先を選択するには、次の手順に従います。
-
接続/宛先 に移動し、「カタログ」タブを選択します。
-
データセットを書き出す宛先に対応するカードで、「アクティブ化」または「データセットを書き出し」を選択します。
-
「データタイプデータセット」を選択し、データセットを書き出す宛先接続を選択して、「次へ」を選択します。
- データセットを選択 ビューが表示されます。 次の節に進んで、書き出すデータセットを選択します。
データセットの選択 select-datasets
データセット名の左側にあるチェックボックスを使用して、宛先に書き出すデータセットを選択し、「次へ」を選択します。
データセット書き出しのスケジュール設定 scheduling
スケジュール設定 ステップを使用して、次の操作を行います。
- 開始日と終了日、およびデータセット書き出しの書き出しケイデンスを設定します。
- 書き出したデータセットファイルで、データセットの完全なメンバーシップを書き出すか、書き出し発生のたびにメンバーシップに対する増分変更のみを書き出すかを設定します。
- データセットを書き出すストレージの場所のフォルダーパスをカスタマイズします。 詳しくは、書き出しフォルダーパスの編集 方法を参照してください。
ページの スケジュールを編集 コントロールを使用して、書き出しの書き出しケイデンスを編集し、完全ファイルと増分ファイルのどちらを書き出すかを選択します。
「増分ファイルの書き出し」オプションは、デフォルトで選択されています。 これにより、データセットの完全なスナップショットを表す 1 つまたは複数のファイルの書き出しがトリガーされます。 以降のファイルは、前回の書き出し以降のデータセットへの増分追加です。 「完全なファイルを書き出し を選択することもでき す。 この場合、データセットの 1 回限りの完全書き出しの頻度 1 回 を選択します。
-
「頻度」セレクターを使用して、書き出しの頻度を選択します。
- 毎日:増分ファイルの書き出しを、毎日 1 回、指定した時刻にスケジュールします。
- 毎時:増分ファイルの書き出しを、3 時間、6 時間、8 時間または 12 時間ごとにスケジュールします。
-
時間 セレクターを使用して、ファイルが書き出される時刻を UTC 形式で指定します。
-
日付 セレクターを使用して、書き出しが行われる間隔を選択します。
-
「保存」を選択して、スケジュールを保存し、レビュー ステップに進みます。
フォルダーパスの編集 edit-folder-path
フォルダーパスを編集 を選択して、書き出されたデータセットが格納されるストレージの場所のフォルダー構造をカスタマイズします。
使用可能な複数のマクロを使用して、目的のフォルダー名をカスタマイズできます。 マクロをダブルクリックしてフォルダーパスに追加し、マクロ間で /
を使用してフォルダーを区切ります。
目的のマクロを選択すると、ストレージの場所に作成されるフォルダー構造のプレビューを確認できます。 フォルダー構造の最初のレベルは、データセットを書き出すために 宛先に接続 した際に指定した フォルダーパスを表します。
レビュー review
「レビュー」ページには、選択内容の概要が表示されます。「キャンセル」を選択してフローを中断するか、「戻る」を選択して設定を変更する、または「完了」を選択して選択内容を確定し、宛先へのデータセットの書き出しを開始します。
データセットの正常な書き出しの確認 verify
データセットを書き出す際、Experience Platformは、指定されたストレージの場所に 1 つまたは複数の .json
ファイルまたは .parquet
ファイルを作成します。 指定した書き出しスケジュールに従って、新しいファイルがストレージの場所に格納されます。
Experience Platform は、指定されたストレージの場所にフォルダー構造を作成し、書き出されたデータセットファイルを格納します。 デフォルトのフォルダー書き出しパターンを以下に示しますが、 好みのマクロを使用してフォルダー構造をカスタマイズすることができます。
folder-name-you-provided
)は、データセットを書き出すために ]宛先に接続 [ したときに指定した フォルダーパス を表します。folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM
デフォルトのファイル名はランダムに生成され、書き出されたファイルの名前は必ず一意になります。
サンプルデータセットファイル sample-files
これらのファイルがストレージの場所に存在すれば、書き出しは成功しています。書き出されたファイルの構造を理解するには、サンプルの .parquet ファイルまたは .json ファイルをダウンロードできます。
圧縮データセットファイル compressed-dataset-files
宛先ワークフローに接続では、以下に示すように、圧縮するエクスポートされたデータセットファイルを選択できます。
2 つのファイルタイプを圧縮した場合、ファイル形式に違いがあることに注意してください。
- 圧縮 JSON ファイルをエクスポートする場合、エクスポートされたファイル形式は
json.gz
されます。 エクスポートされたJSONの形式は、ビッグデータエコシステムの標準的な交換形式であるNDJSONです。 Adobe Systems では、NDJSON 互換クライアントを使用してエクスポートされたファイルを読み取ることをお勧めします。 - 圧縮された Parquet ファイルを書き出す場合、書き出されるファイル形式は次のようになります。
gz.parquet
JSON ファイルへのエクスポートがサポートされます 圧縮モードのみ。 Parquet ファイルへの書き出しは、圧縮および非圧縮モードでサポートされます。
宛先からのデータセットの削除 remove-dataset
既存のデータフローからデータセットを削除するには、次の手順に従います。
-
Experience Platform UI にログインし、左側のナビゲーションバーから「宛先」を選択します。上部のヘッダーから「参照」を選択して、既存の宛先データフローを表示します。
note tip TIP 左上のフィルターアイコン -
アクティベーションデータ 列から、データセットコントロールを選択して、この書き出しデータフローにマッピングされているすべてのデータセットを表示します。
-
宛先の アクティベーションデータ ページが表示されます。 データセットリストの左側にあるチェックボックスを使用して削除するデータセットを選択し、右側のパネルで「データセットを削除」を選択してデータセット削除の確認ダイアログをトリガーします。
-
確認ダイアログで、「削除」を選択すると、宛先への書き出しからデータセットが直ちに削除されます。
データセット書き出し権限 licensing-entitlement
1 年にエクスポートできるExperience Platform アプリケーションのデータの量については、製品説明ドキュメントを参照してください。 例えば、Real-Time CDPの製品説明を こちらで確認できます。
様々なアプリケーションのデータ書き出し権限は追加的ではないことに注意してください。 例えば、Real-Time CDP UltimateとAdobe Journey Optimizer Ultimateを購入した場合、製品の説明に従って、プロファイルの書き出し権限は 2 つの権限のうち大きい方になります。 ボリューム使用権限は、ライセンス済みプロファイルの合計数を取得し、Real-Time CDP Ultimateの場合は 500 KB、Real-Time CDP Primeの場合は 700 KB を乗じて、使用資格のあるデータのボリュームを判断することで計算されます。
一方、Data Distillerなどのアドオンを購入した場合、データ書き出し制限は、製品層とアドオンの合計を表します。
ライセンス使用状況ダッシュボードで、契約上の制限に照らしてプロファイルの書き出しを表示および追跡できます。
既知の制限事項 known-limitations
データセット書き出しの一般リリースについては、次の制限事項に注意してください。
- Experience Platformでは、小さなデータセットでも、複数のファイルを書き出す場合があります。 データセットの書き出しは、システム間の統合を目的として設計され、パフォーマンスに最適化されているため、書き出されるファイルの数をカスタマイズすることはできません。
- 書き出すファイルの名前は現在、カスタマイズできません。
- API を使用して作成したデータセットは、現在、書き出しには使用できません。
- 宛先に書き出されるデータセットの削除は、現在、UI で禁止されていません。 宛先に書き出されるデータセットは削除しないでください。 データセットを削除する場合は、まず、宛先データフローからデータセットを削除します。
- データセット書き出しの監視指標は、現在、プロファイル書き出しの数値と混在しているので、実際の書き出し数値を反映していません。
- タイムスタンプが 365 日より古いデータは、データセットの書き出しから除外されます。 詳しくは、 スケジュールされたデータセット書き出しのガードレールを参照してください
よくある質問 faq
フォルダーパスとして /
に保存するだけの場合、フォルダーのないファイルを生成することはできますか? また、フォルダーパスが不要な場合、名前が重複するファイルはどのようにフォルダーまたは場所に生成されますか?
/
を使用して同じフォルダー内のすべてのデータセットのファイルを書き出すこともできます。 異なるデータセットに属するシステム生成ファイル名が同じフォルダーに混在するので、Adobeは複数のデータセットを書き出す宛先に対してはこの方法を推奨しません。マニフェストファイルを 1 つのフォルダーに、データファイルを別のフォルダーにルーティングできますか?
ファイル配信のシーケンスやタイミングを制御することはできますか?
マニフェストファイルにはどのような形式がありますか?
マニフェストファイルに対して API は使用できますか?
マニフェストファイル(レコード数)に詳細を追加することはできますか? その場合、方法を教えてください。
flowRun
エンティティを介して使用できます(API 経由でクエリ可能)。 詳しくは、宛先の監視を参照してください。データファイルはどのように分割されますか? ファイルあたりのレコード数
しきい値(ファイルあたりのレコード数)を設定できますか?
最初の送信が不良であるイベントでデータセットを再送信するにはどうすればよいですか?