Configurare un flusso di dati per acquisire dati batch da un’origine di archiviazione cloud nell’interfaccia utente

Questa esercitazione descrive come configurare un flusso di dati per portare dati batch dall’origine di archiviazione cloud a Adobe Experience Platform.

Introduzione

NOTE
Per creare un flusso di dati per portare dati in batch da un’archiviazione cloud, devi già avere accesso a un’origine di archiviazione cloud autenticata. Se non disponi dell'accesso, vai alla panoramica origini per un elenco delle origini dell'archiviazione cloud con cui puoi creare un account.

Questo tutorial richiede una buona conoscenza dei seguenti componenti di Experience Platform:

Formati di file supportati

Le origini dell’archiviazione cloud per i dati batch supportano i seguenti formati di file per l’acquisizione:

  • Valori delimitatori separati (DSV): qualsiasi valore a carattere singolo può essere utilizzato come delimitatore per i file di dati in formato DSV.
  • JavaScript Object Notation (JSON): i file di dati in formato JSON devono essere conformi a XDM.
  • Apache Parquet: i file di dati in formato Parquet devono essere conformi a XDM.
  • File compressi: JSON e file delimitati possono essere compressi come: bzip2, gzip, deflate, zipDeflate, tarGzip e tar.

Aggiungi dati

Dopo aver creato l'account di archiviazione cloud, viene visualizzato il passaggio Aggiungi dati che fornisce un'interfaccia per esplorare la gerarchia dei file di archiviazione cloud e selezionare la cartella o il file specifico da portare in Platform.

  • La parte sinistra dell’interfaccia è un browser di directory che visualizza la gerarchia dei file di archiviazione cloud.
  • La parte destra dell’interfaccia consente di visualizzare in anteprima fino a 100 righe di dati da una cartella o un file compatibile.

Seleziona la cartella principale per accedere alla gerarchia delle cartelle. Da qui, puoi selezionare una singola cartella per acquisire tutti i file in essa contenuti in modo ricorsivo. Quando acquisisci un’intera cartella, assicurati che tutti i file in essa contenuti condividano lo stesso formato e schema di dati.

Dopo aver selezionato una cartella, l’interfaccia a destra viene aggiornata con un’anteprima del contenuto e della struttura del primo file della cartella selezionata.

Durante questo passaggio, puoi effettuare diverse configurazioni dei dati prima di procedere. Selezionare innanzitutto Formato dati, quindi selezionare il formato dati appropriato per il file nel pannello a discesa visualizzato.

Nella tabella seguente vengono visualizzati i formati di dati appropriati per i tipi di file supportati:

Tipo di file
Formato dei dati
CSV
Delimitato
JSON
JSON
Parquet
Parquet XDM

Seleziona un delimitatore di colonna

Dopo aver configurato il formato dati, puoi impostare un delimitatore di colonna durante l’acquisizione di file delimitati. Selezionare l'opzione Delimitatore, quindi selezionare un delimitatore dal menu a discesa. Il menu visualizza le opzioni utilizzate più di frequente per i delimitatori, tra cui una virgola (,), una tabulazione (\t) e una barra verticale (|).

Se preferisci utilizzare un delimitatore personalizzato, seleziona Personalizzato e immetti un delimitatore a carattere singolo nella barra di input a comparsa.

Acquisire file compressi

Puoi anche acquisire file JSON o delimitati compressi specificandone il tipo di compressione.

Nel passaggio Seleziona dati, seleziona un file compresso per l'acquisizione, quindi seleziona il tipo di file appropriato e se è conforme o meno a XDM. Selezionare Tipo di compressione, quindi selezionare il tipo di file compresso appropriato per i dati di origine.

Per portare un file specifico su Platform, seleziona una cartella e quindi il file da acquisire. Durante questo passaggio, potete anche visualizzare in anteprima il contenuto di altri file all'interno di una determinata cartella utilizzando l'icona di anteprima accanto al nome di un file.

Al termine, selezionare Avanti.

Fornisci i dettagli del flusso di dati

La pagina Dettagli flusso di dati consente di scegliere se utilizzare un set di dati esistente o nuovo. Durante questo processo, puoi anche configurare i dati da acquisire nel profilo e abilitare impostazioni come Diagnostica errori, Acquisizione parziale e Avvisi.

Usa un set di dati esistente

Per acquisire dati in un set di dati esistente, seleziona Set di dati esistente. Puoi recuperare un set di dati esistente utilizzando l'opzione Ricerca avanzata oppure scorrendo l'elenco dei set di dati esistenti nel menu a discesa. Dopo aver selezionato un set di dati, fornisci un nome e una descrizione per il flusso di dati.

Utilizza un nuovo set di dati

Per acquisire in un nuovo set di dati, seleziona Nuovo set di dati, quindi fornisci un nome per il set di dati di output e una descrizione facoltativa. Quindi, seleziona uno schema a cui mappare utilizzando l'opzione Ricerca avanzata o scorrendo l'elenco degli schemi esistenti nel menu a discesa. Dopo aver selezionato uno schema, fornisci un nome e una descrizione per il flusso di dati.

Abilita diagnostica profili ed errori

Quindi, seleziona il Set di dati profilo per abilitare il set di dati per il profilo. Questo consente di creare una vista olistica degli attributi e dei comportamenti di un’entità. I dati di tutti i set di dati abilitati per il profilo verranno inclusi nel profilo e le modifiche verranno applicate al momento del salvataggio del flusso di dati.

Diagnostica errori consente la generazione di messaggi di errore dettagliati per eventuali record errati che si verificano nel flusso di dati, mentre L'acquisizione parziale consente di acquisire dati contenenti errori, fino a una determinata soglia definita manualmente. Per ulteriori informazioni, consulta la panoramica sull'acquisizione batch parziale.

Abilita avvisi

Puoi abilitare gli avvisi per ricevere notifiche sullo stato del flusso di dati. Seleziona un avviso dall’elenco per abbonarti e ricevere notifiche sullo stato del flusso di dati. Per ulteriori informazioni sugli avvisi, consulta la guida su abbonamento agli avvisi di origini tramite l'interfaccia utente.

Dopo aver fornito i dettagli al flusso di dati, seleziona Avanti.

Mappare i campi dati su uno schema XDM

Viene visualizzato il passaggio Mappatura che fornisce un'interfaccia per mappare i campi sorgente dallo schema sorgente ai campi XDM di destinazione appropriati nello schema di destinazione.

Platform fornisce consigli intelligenti per campi mappati automaticamente in base allo schema o al set di dati di destinazione selezionato. Puoi regolare manualmente le regole di mappatura in base ai tuoi casi d’uso. In base alle tue esigenze, puoi scegliere di mappare i campi direttamente o utilizzare le funzioni di preparazione dati per trasformare i dati sorgente in modo da derivare valori calcolati o calcolati. Per i passaggi completi sull'utilizzo dell'interfaccia mapper e dei campi calcolati, consulta la guida dell'interfaccia utente della preparazione dati.

Una volta mappati correttamente i dati di origine, seleziona Avanti.

Pianificazione esecuzioni dell’acquisizione

IMPORTANT
È consigliabile pianificare il flusso di dati per l'acquisizione una tantum quando si utilizza l'origine FTP.

Viene visualizzato il passaggio Pianificazione, che consente di configurare una pianificazione di acquisizione per acquisire automaticamente i dati di origine selezionati utilizzando le mappature configurate. Per impostazione predefinita, la pianificazione è impostata su Once. Per regolare la frequenza di acquisizione, seleziona Frequenza, quindi scegli un'opzione dal menu a discesa.

TIP
L’intervallo e la retrocompilazione non sono visibili durante un’acquisizione una tantum.

pianificazione

Se imposti la frequenza di acquisizione su Minute, Hour, Day o Week, devi impostare un intervallo per stabilire un intervallo di tempo impostato tra ogni acquisizione. Ad esempio, se la frequenza di acquisizione è impostata su Day e l'intervallo è impostato su 15, il flusso di dati verrà pianificato in modo da acquisire i dati ogni 15 giorni.

Durante questo passaggio, puoi anche abilitare backfill e definire una colonna per l'acquisizione incrementale dei dati. La retrocompilazione viene utilizzata per acquisire i dati storici, mentre la colonna definita per l’acquisizione incrementale consente di distinguere i nuovi dati dai dati esistenti.

Per ulteriori informazioni sulle configurazioni di pianificazione, consulta la tabella seguente.

Configurazione pianificazione
Descrizione
Frequenza

Configura la frequenza per indicare la frequenza con cui deve essere eseguito il flusso di dati. Puoi impostare la frequenza su:

  • Una volta: imposta la frequenza su once per creare un'acquisizione unica. Le configurazioni di intervallo e backfill non sono disponibili quando crei un flusso di dati di acquisizione una tantum. Per impostazione predefinita, la frequenza di pianificazione è impostata su una volta.
  • Minuti: imposta la frequenza su minute per pianificare il flusso di dati in modo da acquisire i dati al minuto.
  • Ora: imposta la frequenza su hour per pianificare il flusso di dati per acquisire i dati su base oraria.
  • Giorno: imposta la frequenza su day per pianificare il flusso di dati in modo da acquisire i dati su base giornaliera.
  • Settimana: imposta la frequenza su week per pianificare il flusso di dati in modo da acquisire i dati su base settimanale.
Intervallo

Dopo aver selezionato una frequenza, puoi configurare l’impostazione dell’intervallo per stabilire l’intervallo di tempo tra ogni acquisizione. Ad esempio, se imposti la frequenza su giorno e configuri l’intervallo su 15, il flusso di dati verrà eseguito ogni 15 giorni. Impossibile impostare l'intervallo su zero. Il valore dell'intervallo minimo accettato per ciascuna frequenza è il seguente:

  • Una volta: n/d
  • Minuto: 15
  • Ora: 1
  • Giorno: 1
  • Settimana: 1
Ora di inizio
La marca temporale per l’esecuzione prevista, presentata in fuso orario UTC.
Retrocompilazione
La retrocompilazione determina quali dati vengono inizialmente acquisiti. Se la retrocompilazione è abilitata, tutti i file correnti nel percorso specificato verranno acquisiti durante la prima acquisizione pianificata. Se la retrocompilazione è disattivata, verranno acquisiti solo i file caricati tra la prima esecuzione dell’acquisizione e l’ora di inizio. I file caricati prima dell’ora di inizio non verranno acquisiti.
NOTE
Per l'acquisizione in batch, ogni flusso di dati successivo seleziona i file da acquisire dall'origine in base alla marca temporale ultima modifica. Ciò significa che i flussi di dati batch selezionano dall’origine i file che sono nuovi o che sono stati modificati dall’ultima esecuzione del flusso. Inoltre, devi assicurarti che vi sia un intervallo di tempo sufficiente tra il caricamento dei file e l’esecuzione di un flusso pianificata, perché i file che non sono completamente caricati nell’account di archiviazione cloud prima dell’esecuzione del flusso pianificata potrebbero non essere raccolti per l’acquisizione.

Al termine della configurazione della pianificazione di acquisizione, seleziona Avanti.

Verifica il flusso di dati

Viene visualizzato il passaggio Rivedi, che consente di rivedere il nuovo flusso di dati prima che venga creato. I dettagli sono raggruppati nelle seguenti categorie:

  • Connessione: mostra il tipo di origine, il percorso pertinente del file di origine scelto e la quantità di colonne all'interno di tale file di origine.
  • Assegna set di dati e mappa i campi: mostra in quale set di dati vengono acquisiti i dati di origine, incluso lo schema a cui il set di dati aderisce.
  • Pianificazione: mostra il periodo, la frequenza e l'intervallo attivi della pianificazione di acquisizione.

Dopo aver rivisto il flusso di dati, fai clic su Fine e attendi un po' di tempo per la creazione del flusso di dati.

Passaggi successivi

Seguendo questa esercitazione, hai creato correttamente un flusso di dati per inserire dati da un’archiviazione cloud esterna e hai ottenuto informazioni approfondite sul monitoraggio dei set di dati. Per ulteriori informazioni sulla creazione di flussi di dati, guarda il video seguente per integrare il tuo apprendimento. Inoltre, i dati in arrivo possono ora essere utilizzati da servizi Platform downstream come Real-Time Customer Profile e Data Science Workspace. Per ulteriori informazioni, consulta i seguenti documenti:

WARNING
L'interfaccia utente Platform mostrata nel video seguente non è aggiornata. Per le schermate e le funzionalità più recenti dell’interfaccia utente, consulta la documentazione precedente.

Appendice

Le sezioni seguenti forniscono informazioni aggiuntive sull’utilizzo dei connettori di origine.

Monitorare il flusso di dati

Una volta creato il flusso di dati, puoi monitorare i dati che vengono acquisiti tramite di esso per visualizzare informazioni su tassi di acquisizione, successo ed errori. Per ulteriori informazioni su come monitorare il flusso di dati, visita l'esercitazione su account di monitoraggio e flussi di dati nell'interfaccia utente.

Aggiornare il flusso di dati

Per aggiornare le configurazioni per la pianificazione, la mappatura e le informazioni generali dei flussi di dati, visita il tutorial su aggiornamento dei flussi di dati di origine nell'interfaccia utente

Eliminare il flusso di dati

È possibile eliminare i flussi di dati non più necessari o creati in modo errato utilizzando la funzione Elimina disponibile nell'area di lavoro Flussi di dati. Per ulteriori informazioni su come eliminare i flussi di dati, consulta l'esercitazione su eliminazione dei flussi di dati nell'interfaccia utente.

recommendation-more-help
337b99bb-92fb-42ae-b6b7-c7042161d089