Panoramica API per l’acquisizione in batch

L’API di acquisizione dati di Adobe Experience Platform consente di acquisire dati in Platform come file batch. I dati da acquisire possono essere dati di profilo provenienti da un file flat (ad esempio un file Parquet) o dati conformi a uno schema noto nel Registro di sistema Experience Data Model (XDM).

Il Riferimento API di acquisizione dati fornisce informazioni aggiuntive su queste chiamate API.

Il diagramma seguente illustra il processo di acquisizione batch:

Introduzione

Gli endpoint API utilizzati in questa guida fanno parte dell’ API di acquisizione dati. Prima di continuare, controlla la guida introduttiva per i collegamenti alla relativa documentazione, una guida per la lettura delle chiamate API di esempio in questo documento e informazioni importanti sulle intestazioni necessarie per effettuare chiamate a qualsiasi API di Experience Platform.

Data Ingestion prerequisiti

  • I dati da caricare devono essere in formato Parquet o JSON.
  • Un set di dati creato in Catalog services.
  • Il contenuto del file Parquet deve corrispondere a un sottoinsieme dello schema del set di dati in cui viene caricato.
  • Richiedi il token di accesso univoco dopo l’autenticazione.

Best practice per l’acquisizione in batch

  • La dimensione consigliata del batch è compresa tra 256 MB e 100 GB.
  • Ogni batch deve contenere al massimo 1500 file.

Vincoli di inserimento in batch

L’inserimento dei dati in batch presenta alcuni vincoli:

  • Numero massimo di file per batch: 1500
  • Dimensione massima del batch: 100 GB
  • Numero massimo di proprietà o campi per riga: 10000
  • Numero massimo di batch al minuto per utente: 138
NOTA

Per caricare un file di dimensioni superiori a 512 MB, è necessario suddividerlo in blocchi più piccoli. Le istruzioni per caricare un file di grandi dimensioni si trovano nella sezione caricamento di file di grandi dimensioni del documento.

Tipi

Durante l’acquisizione dei dati, è importante comprendere il funzionamento degli schemi Experience Data Model (XDM). Per ulteriori informazioni sulla mappatura dei tipi di campo XDM su formati diversi, consulta la Guida per gli sviluppatori del Registro di sistema dello schema.

È possibile acquisire i dati in modo flessibile: se un tipo non corrisponde a quello presente nello schema di destinazione, i dati verranno convertiti nel tipo di destinazione espresso. Se non è in grado di farlo, il batch non verrà completato con un valore TypeCompatibilityException.

Ad esempio, né JSON né CSV hanno un tipo date o date-time. Di conseguenza, questi valori sono espressi utilizzando ISO 8061 stringhe formattate ("2018-07-10T15:05:59.000-08:00") o Unix Tempo formattato in millisecondi (15312639 59000) e vengono convertiti al momento dell’acquisizione al tipo XDM di destinazione.

La tabella seguente mostra le conversioni supportate durante l’acquisizione dei dati.

In entrata (riga) rispetto a Target (col) Stringa Byte Breve Intero Lunga Doppio Data Data e ora Oggetto Mappa
Stringa X X X X X X X X
Byte X X X X X X
Breve X X X X X X
Intero X X X X X X
Lunga X X X X X X X X
Doppio X X X X X X
Data X
Data e ora X
Oggetto X X
Mappa X X
NOTA

I booleani e gli array non possono essere convertiti in altri tipi.

Mediante l’API

L’ API Data Ingestion ti consente di acquisire dati come batch (un’unità di dati costituita da uno o più file da acquisire come singola unità) in Experience Platform in tre passaggi fondamentali:

  1. Crea un nuovo batch.
  2. Carica i file in un set di dati specifico che corrisponde allo schema XDM dei dati.
  3. Segnala la fine del batch.

Creare un batch

Prima di poter aggiungere dati a un set di dati, questi devono essere collegati a un batch che verrà successivamente caricato in un set di dati specifico.

POST /batches

Richiesta

curl -X POST "https://platform.adobe.io/data/foundation/import/batches" \
  -H "Content-Type: application/json" \
  -H "x-gw-ims-org-id: {IMS_ORG}" \
  -H "x-sandbox-name: {SANDBOX_NAME}" \
  -H "Authorization: Bearer {ACCESS_TOKEN}" \
  -H "x-api-key : {API_KEY}"
  -d '{ 
          "datasetId": "{DATASET_ID}" 
      }'
Proprietà Descrizione
datasetId ID del set di dati in cui caricare i file.

Risposta

{
    "id": "{BATCH_ID}",
    "imsOrg": "{IMS_ORG}",
    "updated": 0,
    "status": "loading",
    "created": 0,
    "relatedObjects": [
        {
            "type": "dataSet",
            "id": "{DATASET_ID}"
        }
    ],
    "version": "1.0.0",
    "tags": {},
    "createdUser": "{USER_ID}",
    "updatedUser": "{USER_ID}"
}
Proprietà Descrizione
id ID del batch appena creato (utilizzato nelle richieste successive).
relatedObjects.id ID del set di dati in cui caricare i file.

Caricamento file

Dopo aver creato correttamente un nuovo batch per il caricamento, i file possono quindi essere caricati in un set di dati specifico.

Puoi caricare i file utilizzando l’API di caricamento file di piccole dimensioni. Tuttavia, se i file sono troppo grandi e il limite del gateway viene superato (ad esempio timeout estesi, richieste di dimensioni del corpo superate e altre restrizioni), puoi passare all’API di caricamento file di grandi dimensioni. Questa API carica il file in blocchi e unisce i dati utilizzando la chiamata API di caricamento file di grandi dimensioni Complete.

NOTA

L’acquisizione in batch può essere utilizzata per aggiornare gradualmente i dati nell’archivio profili. Per ulteriori informazioni, consulta la sezione sull’ aggiornamento di un batch nella guida per gli sviluppatori di inserimento batch.

INFO

Gli esempi seguenti utilizzano il formato file Apache Parquet . Un esempio che utilizza il formato di file JSON si trova nella guida per gli sviluppatori per l’acquisizione batch.

Caricamento di file di piccole dimensioni

Una volta creato un batch, i dati possono essere caricati in un set di dati preesistente. Il file caricato deve corrispondere al relativo schema XDM di riferimento.

PUT /batches/{BATCH_ID}/datasets/{DATASET_ID}/files/{FILE_NAME}
Proprietà Descrizione
{BATCH_ID} ID del batch.
{DATASET_ID} ID del set di dati per caricare i file.
{FILE_NAME} Il nome del file come verrà visualizzato nel set di dati.

Richiesta

curl -X PUT "https://platform.adobe.io/data/foundation/import/batches/{BATCH_ID}/datasets/{DATASET_ID}/files/{FILE_NAME}.parquet" \
  -H "content-type: application/octet-stream" \
  -H "x-gw-ims-org-id: {IMS_ORG}" \
  -H "x-sandbox-name: {SANDBOX_NAME}" \
  -H "Authorization: Bearer {ACCESS_TOKEN}" \
  -H "x-api-key : {API_KEY}" \
  --data-binary "@{FILE_PATH_AND_NAME}.parquet"
Proprietà Descrizione
{FILE_PATH_AND_NAME} Il percorso e il nome del file da caricare nel set di dati.

Risposta

#Status 200 OK, with empty response body

Caricamento di file di grandi dimensioni - crea file

Per caricare un file di grandi dimensioni, è necessario suddividerlo in blocchi più piccoli e caricarlo uno alla volta.

POST /batches/{BATCH_ID}/datasets/{DATASET_ID}/files/{FILE_NAME}?action=initialize
Proprietà Descrizione
{BATCH_ID} ID del batch.
{DATASET_ID} ID del set di dati che acquisisce i file.
{FILE_NAME} Il nome del file come verrà visualizzato nel set di dati.

Richiesta

curl -X POST "https://platform.adobe.io/data/foundation/import/batches/{BATCH_ID}/datasets/{DATASET_ID}/files/part1=a/part2=b/{FILE_NAME}.parquet?action=initialize" \
  -H "x-gw-ims-org-id: {IMS_ORG}" \
  -H "x-sandbox-name: {SANDBOX_NAME}" \
  -H "Authorization: Bearer {ACCESS_TOKEN}" \
  -H "x-api-key: {API_KEY}"

Risposta

#Status 201 CREATED, with empty response body

Caricamento di file di grandi dimensioni - caricamento di parti successive

Dopo la creazione del file, è possibile caricare tutti i blocchi successivi effettuando richieste PATCH ripetute, una per ogni sezione del file.

PATCH /batches/{BATCH_ID}/datasets/{DATASET_ID}/files/{FILE_NAME}
Proprietà Descrizione
{BATCH_ID} ID del batch.
{DATASET_ID} ID del set di dati in cui caricare i file.
{FILE_NAME} Nome del file come verrà visualizzato nel set di dati.

Richiesta

curl -X PATCH "https://platform.adobe.io/data/foundation/import/batches/{BATCH_ID}/datasets/{DATASET_ID}/files/part1=a/part2=b/{FILE_NAME}.parquet" \
  -H "content-type: application/octet-stream" \
  -H "x-gw-ims-org-id: {IMS_ORG}" \
  -H "x-sandbox-name: {SANDBOX_NAME}" \
  -H "Authorization: Bearer {ACCESS_TOKEN}" \
  -H "x-api-key: {API_KEY}" \
  -H "Content-Range: bytes {CONTENT_RANGE}" \
  --data-binary "@{FILE_PATH_AND_NAME}.parquet"
Proprietà Descrizione
{FILE_PATH_AND_NAME} Il percorso e il nome del file da caricare nel set di dati.

Risposta

#Status 200 OK, with empty response

Completamento batch del segnale

Dopo che tutti i file sono stati caricati nel batch, il batch può essere segnalato per il completamento. In questo modo, le voci Catalog DataSetFile vengono create per i file completati e associate al batch generato in precedenza. Il batch Catalog viene quindi contrassegnato come riuscito, il che attiva i flussi a valle per acquisire i dati disponibili.

Richiesta

POST /batches/{BATCH_ID}?action=COMPLETE
Proprietà Descrizione
{BATCH_ID} ID del batch da caricare nel set di dati.
curl -X POST "https://platform.adobe.io/data/foundation/import/batches/{BATCH_ID}?action=COMPLETE" \
-H "x-gw-ims-org-id: {IMS_ORG}" \
-H "x-sandbox-name: {SANDBOX_NAME}" \
-H "Authorization: Bearer {ACCESS_TOKEN}" \
-H "x-api-key : {API_KEY}"

Risposta

#Status 200 OK, with empty response

Verifica stato batch

In attesa del caricamento dei file nel batch, è possibile controllare lo stato del batch per verificarne l'avanzamento.

Formato API

GET /batch/{BATCH_ID}
Proprietà Descrizione
{BATCH_ID} ID del batch da controllare.

Richiesta

curl GET "https://platform.adobe.io/data/foundation/catalog/batch/{BATCH_ID}" \
  -H "Authorization: Bearer {ACCESS_TOKEN}" \
  -H "x-gw-ims-org-id: {IMS_ORG}" \
  -H "x-sandbox-name: {SANDBOX_NAME}" \
  -H "x-api-key: {API_KEY}"

Risposta

{
    "{BATCH_ID}": {
        "imsOrg": "{IMS_ORG}",
        "created": 1494349962314,
        "createdClient": "MCDPCatalogService",
        "createdUser": "{USER_ID}",
        "updatedUser": "{USER_ID}",
        "updated": 1494349963467,
        "externalId": "{EXTERNAL_ID}",
        "status": "success",
        "errors": [
            {
                "code": "err-1494349963436"
            }
        ],
        "version": "1.0.3",
        "availableDates": {
            "startDate": 1337,
            "endDate": 4000
        },
        "relatedObjects": [
            {
                "type": "batch",
                "id": "foo_batch"
            },
            {
                "type": "connection",
                "id": "foo_connection"
            },
            {
                "type": "connector",
                "id": "foo_connector"
            },
            {
                "type": "dataSet",
                "id": "foo_dataSet"
            },
            {
                "type": "dataSetView",
                "id": "foo_dataSetView"
            },
            {
                "type": "dataSetFile",
                "id": "foo_dataSetFile"
            },
            {
                "type": "expressionBlock",
                "id": "foo_expressionBlock"
            },
            {
                "type": "service",
                "id": "foo_service"
            },
            {
                "type": "serviceDefinition",
                "id": "foo_serviceDefinition"
            }
        ],
        "metrics": {
            "foo": 1337
        },
        "tags": {
            "foo_bar": [
                "stuff"
            ],
            "bar_foo": [
                "woo",
                "baz"
            ],
            "foo/bar/foo-bar": [
                "weehaw",
                "wee:haw"
            ]
        },
        "inputFormat": {
            "format": "parquet",
            "delimiter": ".",
            "quote": "`",
            "escape": "\\",
            "nullMarker": "",
            "header": "true",
            "charset": "UTF-8"
        }
    }
}
Proprietà Descrizione
{USER_ID} ID dell'utente che ha creato o aggiornato il batch.

Il campo "status" mostra lo stato corrente del batch richiesto. I batch possono avere uno dei seguenti stati:

Stati di inserimento batch

Stato Descrizione
Abbandonato Il batch non è stato completato nell'intervallo di tempo previsto.
Interrotto Un'operazione di interruzione è stata chiamata esplicitamente (tramite l'API di acquisizione in batch) per il batch specificato. Una volta che il batch è in stato "Caricato", non può essere interrotto.
Attivo Il batch è stato promosso con successo ed è disponibile per il consumo a valle. Questo stato può essere utilizzato in modo intercambiabile con "Success".
Eliminato I dati per il batch sono stati rimossi completamente.
Non riuscito Stato terminale che risulta da una configurazione errata e/o da dati non validi. I dati per un batch non riuscito non vengono visualizzati. Questo stato può essere utilizzato in modo intercambiabile con "Failure" (Errore).
Inattivo La promozione del batch è stata completata, ma è stata ripristinata o è scaduta. Il batch non è più disponibile per il consumo a valle.
Caricato I dati per il batch sono completi e il batch è pronto per la promozione.
Caricamento I dati per questo batch vengono caricati e il batch è attualmente non pronto per essere promosso.
Nuovo I dati per questo batch sono in fase di elaborazione. Tuttavia, a causa di un errore di sistema o temporaneo, il batch non è riuscito - di conseguenza, questo batch viene riprovato.
Staging La fase di staging del processo di promozione per un batch è completata e il processo di acquisizione è stato eseguito.
Staging Elaborazione dei dati per il batch in corso.
In stallo Elaborazione dei dati per il batch in corso. Tuttavia, la promozione batch si è arrestata dopo diversi tentativi.

In questa pagina