クラウドストレージの宛先へのデータセットの書き出し
- この機能は、Real-Time CDP Prime または Ultimate パッケージ、Adobe Journey OptimizerまたはCustomer Journey Analyticsを購入したお客様が利用できます。 詳しくは、Adobe担当者にお問い合わせください。
この記事では、Experience PlatformUI を使用して、Adobe Experience Platformから目的のクラウドストレージの場所(Amazon S3、SFTP の場所、Google Cloud Storage など)に データセットを書き出すために必要なワークフローについて説明します。
Experience PlatformAPI を使用してデータセットを書き出すこともできます。 詳しくは、 データセット API の書き出しチュートリアルを参照してください。
書き出すことができるデータセット datasets-to-export
書き出すことができるデータセットは、Experience Platformアプリケーション(Real-Time CDP、Adobe Journey Optimizer)、層(Prime または Ultimate)、購入したアドオン(例:Data Distiller)によって異なります。
次の表を使用して、アプリケーション、製品層、購入したアドオンに応じて、書き出すことができるデータセットのタイプを理解します。
- ソース、Web SDK、Mobile SDK、Analytics Data Connector およびAudience Managerからデータを取り込んだり収集した後、Experience PlatformUI で作成されたプロファイルおよびエクスペリエンスイベントデータセット。
- システム生成プロファイルスナップショットデータセット。
ビデオチュートリアル video-tutorial
このページで説明されているワークフローのエンドツーエンドの説明、データセットの書き出し機能を使用するメリット、推奨されるユースケースについては、以下のビデオをご覧ください。
サポートされる宛先 supported-destinations
現在、スクリーンショットでハイライト表示され、以下に示されているクラウドストレージの宛先にデータセットを書き出すことができます。
オーディエンスをアクティブ化するか、データセットを書き出すタイミング when-to-activate-audiences-or-activate-datasets
Experience Platformカタログ内の一部のファイルベース宛先では、オーディエンスのアクティベーションとデータセットの書き出しの両方をサポートしています。
- データを、オーディエンスの関心または選定別にグループ化されたプロファイルに構造化する場合は、オーディエンスのアクティブ化を検討してください。
- また、オーディエンスの関心や選定別にグループ化または構造化されていない未加工のデータセットを書き出そうとしている場合は、データセットの書き出しを検討します。 このデータは、レポート、データサイエンスワークフロー、その他の多くのユースケースに使用できます。 例えば、管理者、データエンジニアまたはアナリストは、Experience Platformからデータをエクスポートしてデータウェアハウスと同期したり、BI 分析ツールや外部 Cloud ML ツールで使用したり、システムに保存して長期的なストレージのニーズに対応したりできます。
このドキュメントには、データセットの書き出しに必要な情報がすべて含まれています。クラウドストレージ宛先またはメールマーケティング宛先に対して オーディエンス をアクティブ化する場合は、 バッチプロファイル書き出し宛先に対するオーディエンスデータのアクティブ化を参照してください。
前提条件 prerequisites
データセットをクラウドストレージ宛先に書き出すには、正常に宛先に接続されている必要があります。まだ接続していない場合は、宛先カタログに移動し、サポートされている宛先を参照し、使用する宛先を設定します。
必要な権限 permissions
データセットを書き出すには、宛先の表示、データセットの表示 および データセットの宛先の管理とアクティブ化 アクセス制御権限が必要です。 必要な権限を取得するには、アクセス制御の概要を参照するか、製品管理者に問い合わせてください。
データセットの書き出しに必要な権限があることと、宛先でデータセットの書き出しがサポートされていることを確認するには、宛先カタログを参照します。 宛先に「アクティブ化」または「データセットを書き出し」コントロールがある場合、適切な権限を持っています。
宛先の選択 select-destination
データセットを書き出すことができる宛先を選択するには、次の手順に従います。
-
接続/宛先 に移動し、「カタログ」タブを選択します。
-
データセットを書き出す宛先に対応するカードで、「アクティブ化」または「データセットを書き出し」を選択します。
-
「データタイプデータセット」を選択し、データセットを書き出す宛先接続を選択して、「次へ」を選択します。
- データセットを選択 ビューが表示されます。 次の節に進んで、書き出すデータセットを選択します。
データセットの選択 select-datasets
データセット名の左側にあるチェックボックスを使用して、宛先に書き出すデータセットを選択し、「次へ」を選択します。
データセット書き出しのスケジュール設定 scheduling
スケジュール設定 ステップを使用して、次の操作を行います。
- 開始日と終了日、およびデータセット書き出しの書き出しケイデンスを設定します。
- 書き出したデータセットファイルで、データセットの完全なメンバーシップを書き出すか、書き出し発生のたびにメンバーシップに対する増分変更のみを書き出すかを設定します。
- データセットを書き出すストレージの場所のフォルダーパスをカスタマイズします。 詳しくは、書き出しフォルダーパスの編集 方法を参照してください。
ページの スケジュールを編集 コントロールを使用して、書き出しの書き出しケイデンスを編集し、完全ファイルと増分ファイルのどちらを書き出すかを選択します。
「増分ファイルの書き出し」オプションは、デフォルトで選択されています。 これにより、データセットの完全なスナップショットを表す 1 つまたは複数のファイルの書き出しがトリガーされます。 以降のファイルは、前回の書き出し以降のデータセットへの増分追加です。 「完全なファイルを書き出し を選択することもでき す。 この場合、データセットの 1 回限りの完全書き出しの頻度 1 回 を選択します。
-
「頻度」セレクターを使用して、書き出しの頻度を選択します。
- 毎日:増分ファイルの書き出しを、毎日 1 回、指定した時刻にスケジュールします。
- 毎時:増分ファイルの書き出しを、3 時間、6 時間、8 時間または 12 時間ごとにスケジュールします。
-
時間 セレクターを使用して、ファイルが書き出される時刻を UTC 形式で指定します。
-
日付 セレクターを使用して、書き出しが行われる間隔を選択します。
-
「保存」を選択して、スケジュールを保存し、レビュー ステップに進みます。
フォルダーパスの編集 edit-folder-path
フォルダーパスを編集 を選択して、書き出されたデータセットが格納されるストレージの場所のフォルダー構造をカスタマイズします。
使用可能な複数のマクロを使用して、目的のフォルダー名をカスタマイズできます。 マクロをダブルクリックしてフォルダーパスに追加し、マクロ間で /
を使用してフォルダーを区切ります。
目的のマクロを選択すると、ストレージの場所に作成されるフォルダー構造のプレビューを確認できます。 フォルダー構造の最初のレベルは、データセットを書き出すために 宛先に接続 した際に指定した フォルダーパスを表します。
レビュー review
「レビュー」ページには、選択内容の概要が表示されます。「キャンセル」を選択してフローを中断するか、「戻る」を選択して設定を変更する、または「完了」を選択して選択内容を確定し、宛先へのデータセットの書き出しを開始します。
データセットの正常な書き出しの確認 verify
データセットを書き出す際、Experience Platformは、指定されたストレージの場所に 1 つまたは複数の .json
ファイルまたは .parquet
ファイルを作成します。 指定した書き出しスケジュールに従って、新しいファイルがストレージの場所に格納されます。
Experience Platform は、指定されたストレージの場所にフォルダー構造を作成し、書き出されたデータセットファイルを格納します。 デフォルトのフォルダー書き出しパターンを以下に示しますが、 好みのマクロを使用してフォルダー構造をカスタマイズすることができます。
folder-name-you-provided
)は、データセットを書き出すために ]宛先に接続 [ したときに指定した フォルダーパス を表します。folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM
デフォルトのファイル名はランダムに生成され、書き出されたファイルの名前は必ず一意になります。
サンプルデータセットファイル sample-files
これらのファイルがストレージの場所に存在すれば、書き出しは成功しています。書き出されたファイルの構造を理解するには、サンプルの .parquet ファイルまたは .json ファイルをダウンロードできます。
圧縮されたデータセットファイル compressed-dataset-files
宛先に接続ワークフローでは、以下に示すように、圧縮する書き出されたデータセットファイルを選択できます。
2 つのファイルタイプを圧縮した場合、ファイル形式に違いがあることに注意してください。
- 圧縮された JSON ファイルを書き出す場合、書き出されるファイルの形式は
json.gz
です - 圧縮 Parquet ファイルをエクスポートする場合、エクスポートされるファイル形式は
gz.parquet
です
JSON ファイルへの書き出しはサポートされています 圧縮モードのみ。 Parquet ファイルへの書き出しは、圧縮および非圧縮モードでサポートされます。
宛先からのデータセットの削除 remove-dataset
既存のデータフローからデータセットを削除するには、次の手順に従います。
-
Experience Platform UI にログインし、左側のナビゲーションバーから「宛先」を選択します。上部のヘッダーから「参照」を選択して、既存の宛先データフローを表示します。
note tip TIP 左上のフィルターアイコン を選択して、並べ替えパネルを開きます。並べ替えパネルには、すべての宛先のリストが表示されます。 リストから複数の宛先を選択して、選択した宛先に関連付けられた特定のデータフローを表示できます。 -
アクティベーションデータ 列から、データセットコントロールを選択して、この書き出しデータフローにマッピングされているすべてのデータセットを表示します。
-
宛先の アクティベーションデータ ページが表示されます。 データセットリストの左側にあるチェックボックスを使用して削除するデータセットを選択し、右側のパネルで「データセットを削除」を選択してデータセット削除の確認ダイアログをトリガーします。
-
確認ダイアログで、「削除」を選択すると、宛先への書き出しからデータセットが直ちに削除されます。
データセット書き出し権限 licensing-entitlement
Experience Platformの説明文書を参照して、1 年にエクスポートできるデータの量を確認してください。 例えば、Real-Time CDPの製品説明を こちらで確認できます。
様々なアプリケーションのデータ書き出し権限は追加的ではないことに注意してください。 例えば、Real-Time CDP Ultimate とAdobe Journey Optimizer Ultimate を購入した場合、製品の説明に従って、プロファイルの書き出し権限は 2 つの権限のうち大きい方になります。 ボリューム使用権限は、ライセンス済みプロファイルの合計数を取得し、Real-Time CDP Prime の場合は 500 KB、Real-Time CDP Ultimate の場合は 700 KB を乗じて、使用資格のあるデータのボリュームを判断することで計算されます。
一方、Data Distillerなどのアドオンを購入した場合、データ書き出し制限は、製品層とアドオンの合計を表します。
ライセンス使用状況ダッシュボードで、契約上の制限に照らしてプロファイルの書き出しを表示および追跡できます。
既知の制限事項 known-limitations
データセット書き出しの一般リリースについては、次の制限事項に注意してください。
- 現在、増分ファイルの書き出しのみ可能で、データセット書き出しでは終了日を選択できません。
- Experience Platformでは、小さなデータセットでも、複数のファイルを書き出す場合があります。 データセットの書き出しは、システム間の統合を目的として設計され、パフォーマンスに最適化されているため、書き出されるファイルの数をカスタマイズすることはできません。
- 書き出すファイルの名前は現在、カスタマイズできません。
- API を使用して作成したデータセットは、現在、書き出しには使用できません。
- 宛先に書き出されるデータセットの削除は、現在、UI で禁止されていません。 宛先に書き出されるデータセットは削除しないでください。 データセットを削除する場合は、まず、宛先データフローからデータセットを削除します。
- データセット書き出しの監視指標は、現在、プロファイル書き出しの数値と混在しているので、実際の書き出し数値を反映していません。
- タイムスタンプが 365 日より古いデータは、データセットの書き出しから除外されます。 詳しくは、 スケジュールされたデータセット書き出しのガードレールを参照してください
よくある質問 faq
フォルダーパスとして /
に保存するだけの場合、フォルダーのないファイルを生成することはできますか? また、フォルダーパスが不要な場合、名前が重複するファイルはどのようにフォルダーまたは場所に生成されますか?
+++
2024 年 9 月のリリース以降、フォルダー名をカスタマイズし、/
を使用して同じフォルダー内のすべてのデータセットのファイルを書き出すこともできます。 異なるデータセットに属するシステム生成ファイル名が同じフォルダーに混在するので、Adobeは複数のデータセットを書き出す宛先に対してはこの方法をお勧めしません。
+++
マニフェストファイルを 1 つのフォルダーに、データファイルを別のフォルダーにルーティングできますか?
+++
いいえ。マニフェストファイルを別の場所にコピーする機能はありません。
+++
ファイル配信のシーケンスやタイミングを制御することはできますか?
+++
書き出しをスケジュールするためのオプションがあります。 ファイルのコピーを遅延または順序付けするオプションはありません。 作成されたらすぐに、ストレージの場所にコピーされます。
+++
マニフェストファイルにはどのような形式がありますか?
+++
マニフェストファイルは.json 形式です。
+++
マニフェストファイルに対して API は使用できますか?
+++
マニフェストファイルに使用できる API はありませんが、書き出しを構成するファイルのリストが含まれています。
+++
マニフェストファイル(レコード数)に詳細を追加することはできますか? その場合、方法を教えてください。
+++
マニフェストファイルに情報を追加する可能性はありません。 レコード数は、flowRun
エンティティを介して使用できます(API 経由でクエリ可能)。 詳しくは、宛先の監視を参照してください。
+++
データファイルはどのように分割されますか? ファイルあたりのレコード数
+++
データファイルは、Experience Platformデータレイクのデフォルトのパーティションごとに分割されます。 データセットが大きいほど、パーティション数は多くなります。 デフォルトのパーティション化は、読み取り用に最適化されているので、ユーザーは設定できません。
+++
しきい値(ファイルあたりのレコード数)を設定できますか?
+++
いいえ、できません。
+++
最初の送信が無効な場合、データセットを再送信するにはどうすればよいですか?
+++
ほとんどのタイプのシステムエラーでは、再試行は自動的に行われます。
+++