ドキュメント Experience Platform データサイエンスワークスペースガイド

Adobe Experience Platform SDKを使用したモデルのオーサリング

Last update: Thu Oct 30 2025 00:00:00 GMT+0000 (Coordinated Universal Time)

トピック：
データサイエンスワークスペース

作成対象：

ユーザー
開発者

NOTE

Data Science Workspaceは購入できなくなりました。

このドキュメントは、Data Science Workspaceの以前の使用権限を持つ既存のお客様を対象としています。

このチュートリアルでは、Python と R の両方で data_access_sdk_python を新しい Python platform_sdk に変換する方法について説明します。このチュートリアルでは、次の操作について説明します。

認証の構築
データの基本読み取り
データの基本的な書き込み

認証の構築 build-authentication

認証は Adobe Experience Platform への呼び出しに必要で、API キー、組織 ID、ユーザートークン、サービストークンで構成されています。

Python

Jupyter ノートブックを使用している場合は、次のコードを使用して、client_context を構築してください。

client_context = PLATFORM_SDK_CLIENT_CONTEXT

Jupyter Notebook を使用していない場合や、組織を変更する必要がある場合は、以下のコードサンプルを使用してください。

from platform_sdk.client_context import ClientContext
client_context = ClientContext(api_key={API_KEY},
              org_id={ORG_ID},
              user_token={USER_TOKEN},
              service_token={SERVICE_TOKEN})

R

Jupyter ノートブックを使用している場合は、次のコードを使用して、client_context を構築してください。

library(reticulate)
use_python("/usr/local/bin/ipython")
psdk <- import("platform_sdk")

py_run_file("../.ipython/profile_default/startup/platform_sdk_context.py")
client_context <- py$PLATFORM_SDK_CLIENT_CONTEXT

Jupyter Notebook を使用していない場合や、組織を変更する必要がある場合は、次のコードサンプルを使用してください。

library(reticulate)
use_python("/usr/local/bin/ipython")
psdk <- import("platform_sdk")
client_context <- psdk$client_context$ClientContext(api_key={API_KEY},
              org_id={ORG_ID},
              user_token={USER_TOKEN},
              service_token={SERVICE_TOKEN})

データの基本読み取り basic-reading-of-data

新しい Experience Platform SDKでは、最大の読み取りサイズは 32 GB で、最大の読み取り時間は 10 分です。

読み取り時間が長すぎる場合は、次のいずれかのフィルターオプションを使用してみてください。

オフセットと制限によるデータのフィルタリング
日付によるデータのフィルタリング
列によるデータのフィルタリング
並べ替えられた結果を取得しています

NOTE

組織は client_context 内で設定されます。

Python

Python でデータを読み込むには、以下のコード例を使用してください。

from platform_sdk.dataset_reader import DatasetReader
dataset_reader = DatasetReader(client_context, "{DATASET_ID}")
df = dataset_reader.limit(100).read()
df.head()

R

R でデータを読み取るには、以下のコード例を使用してください。

DatasetReader <- psdk$dataset_reader$DatasetReader
dataset_reader <- DatasetReader(client_context, "{DATASET_ID}")
df <- dataset_reader$read()
df

オフセットと制限によるフィルター filter-by-offset-and-limit

バッチ ID によるフィルタリングはサポートされなくなったので、データの読み取りの範囲を絞るには、offset と limit を使用する必要があります。

Python

df = dataset_reader.limit(100).offset(1).read()
df.head

R

df <- dataset_reader$limit(100L)$offset(1L)$read()
df

日付によるフィルター filter-by-date

日付フィルターの精度が、日別に設定されるのではなく、タイムスタンプによって定義されるようになりました。

Python

df = dataset_reader.where(\
    dataset_reader['timestamp'].gt('2019-04-10 15:00:00').\
    And(dataset_reader['timestamp'].lt('2019-04-10 17:00:00'))\
).read()
df.head()

R

df2 <- dataset_reader$where(
    dataset_reader['timestamp']$gt('2018-12-10 15:00:00')$
    And(dataset_reader['timestamp']$lt('2019-04-10 17:00:00'))
)$read()
df2

新しい Experience Platform SDKは、次の操作をサポートします。

操作

関数

次と等しい（=）

eq()

より大きい（>）

gt()

次よりも大きいか等しい（>=）

ge()

より小さい（<）

lt()

次よりも小さいか等しい（<=）

le()

および（&）

And()

または（|）

Or()

選択した列によるフィルター filter-by-selected-columns

データの読み取りをさらに絞り込むために、列名でフィルターすることもできます。

Python

df = dataset_reader.select(['column-a','column-b']).read()

R

df <- dataset_reader$select(c('column-a','column-b'))$read()

並べ替え結果の取得 get-sorted-results

受け取った結果は、それぞれ、ターゲットデータセットの指定した列と、その順序（昇順または降順）で並べ替えることができます。

次の例では、データフレームが「column-a」で昇順に並べ替えられています。次に、「column-a」に同じ値を持つ行は「column-b」で降順に並べ替えられます。

Python

df = dataset_reader.sort([('column-a', 'asc'), ('column-b', 'desc')])

R

df <- dataset_reader$sort(c(('column-a', 'asc'), ('column-b', 'desc')))$read()

データの基本的な書き込み basic-writing-of-data

NOTE

組織は client_context 内で設定されます。

Python と R でデータを書き込むには、次の例を使用します。

Python

from platform_sdk.models import Dataset
from platform_sdk.dataset_writer import DatasetWriter

dataset = Dataset(client_context).get_by_id("{DATASET_ID}")
dataset_writer = DatasetWriter(client_context, dataset)
write_tracker = dataset_writer.write({PANDA_DATAFRAME}, file_format='json')

R

dataset <- psdk$models$Dataset(client_context)$get_by_id("{DATASET_ID}")
dataset_writer <- psdk$dataset_writer$DatasetWriter(client_context, dataset)
write_tracker <- dataset_writer$write({PANDA_DATAFRAME}, file_format='json')

次の手順

platform_sdk データローダを設定すると、データは準備され、train データセットと val データセットに分割されます。データの準備と機能エンジニアリングについて詳しくは、ノートブックを使用したレシピの作成に関するチュートリアルのデータの準備と機能エンジニアリング JupyterLab の節を参照してください。

recommendation-more-help

cc79fe26-64da-411e-a6b9-5b650f53e4e9