(限定リリース)データセットのサンプル

重要

データセットサンプル機能は現在、限定的なリリースになっており、すべてのお客様が利用できるわけではありません。

Adobe Experience Platformクエリサービスは、クエリ処理機能の一部として、サンプルデータセットを提供します。 サンプルデータセットは、既存のサンプルから均一なランダムサンプルを使用して作成されます Azure Data Lake Storage (ADLS) データセット。元のレコードの割合のみを使用します。 この割合は、サンプリングレートと呼ばれます。 精度と処理時間のバランスを制御するためにサンプリングレートを調整すると、クエリの精度を犠牲にして、処理時間を大幅に短縮し、ビッグデータに関する探索的なクエリを実行できます。

データセットに対する集計操作に正確な回答が必要ないユーザーが多いので、近似回答を返すための近似クエリを発行する方が、大規模なデータセットに関する調査クエリでより効率的です。 サンプルデータセットには元のデータセットのデータの割合のみが含まれているので、クエリの精度を取り引いて応答時間を短縮できます。 読み取り時に、クエリサービスでスキャンする行数は、データセット全体をクエリする場合よりも少なく、より迅速に結果を生成する必要があります。

クエリサービスでは、概算クエリ処理のためのサンプルの管理に役立つように、データセットサンプルに対して次の操作をサポートしています。

はじめに

上記の概算クエリ処理機能を使用するには、セッションフラグをに設定する必要があります。 true. クエリエディターまたは PSQL クライアントのコマンドラインから、 SET aqp=true; コマンドを使用します。

メモ

Platform にログインするたびに、セッションフラグを有効にする必要があります。

「SET aqp=true;」コマンドがハイライト表示されたクエリエディタ。

均一なランダムデータセットのサンプルを作成する

以下を使用: ANALYZE TABLE コマンドにデータセット名を付けて、そのデータセットから均一なランダムサンプルを作成します。

サンプルレートは、元のデータセットから取得したレコードの割合です。 サンプルレートは、 TABLESAMPLE SAMPLERATE キーワード。 この例では、値 5.0 はサンプルレート 50%と等しくなります。 値が 2.5 の場合は 25%と等しくなります。

重要

システムでは、各データセットに対して最大で 5 つのサンプルを使用できます。 6 番目のサンプルデータセットを作成しようとすると、画面に、サンプルの制限に達したことを示すエラーメッセージが表示されます。

ANALYZE TABLE example_dataset_name TABLESAMPLE SAMPLERATE 5.0;

サンプルのリストの表示

以下を使用: sample_meta() 関数を使用して、ADLS テーブルに関連付けられたサンプルのリストを表示します。

SELECT sample_meta('example_dataset_name')

データセットサンプルのリストは、次の例の形式で表示されます。

                  sample_table_name                  |    sample_dataset_id     |    parent_dataset_id     | sample_type | sampling_rate | sample_num_rows |       created
-----------------------------------------------------+--------------------------+--------------------------+-------------+---------------+-----------------+---------------------
 x5e5cd8ea0a83c418a8ef0928_uniform_4_0_percent_ughk7 | 62ff19853d338f1c07b18965 | 5e5cd8ea0a83c418a8ef0928 | uniform     |           4.0 |             391 | 19/08/2022 05:03:01
(1 row)

サンプルデータセットのクエリ

以下を使用: {EXAMPLE_DATASET_NAME} を使用して、サンプルテーブルを直接クエリします。 または、 WITHAPPROXIMATE キーワードをクエリの最後に追加すると、クエリサービスは最も新しく作成されたサンプルを自動的に使用します。

SELECT * FROM example_dataset_name WITHAPPROXIMATE;

データセットサンプルの削除

削除操作を使用すると、データセットサンプルの最大数が 5 個に達した場合に、新しいサンプルを作成できます。

DROP TABLE SAMPLE x5e5cd8ea0a83c418a8ef0928_uniform_2_0_percent_bnhmc;
メモ

元の ADLS データセットから複数のサンプルデータセットを取得した場合、元のデータセットがドロップされると、関連するすべてのサンプルも削除されます。

このページ