Gestire la conservazione dei set di dati di Experience Event nel data lake utilizzando TTL
Una gestione efficiente dei dati è fondamentale per garantire prestazioni ottimali, controllo dei costi e integrità dei dati. Utilizza il TTL (Experience Event Dataset Retention Time-To-Live) per applicare la scadenza a livello di riga, rimuovendo automaticamente i record obsoleti dai set di dati nel data lake e garantendo al contempo un’efficienza di archiviazione e una rilevanza dei dati ottimali.
Questa guida spiega come valutare, impostare e gestire il TTL utilizzando l’API Catalog Service. Scoprirai quando e perché applicare il TTL, come configurare e aggiornare i valori TTL utilizzando le chiamate API e le best practice per garantire un’implementazione efficace.
Perché utilizzare TTL per la gestione dei dati a livello di riga
Con la crescita dei dataset, la gestione efficiente dei dati diventa sempre più importante per preservare le prestazioni, controllare i costi e mantenere i dati pertinenti. La scadenza dei dati a livello di riga basata su TTL automatizza la pulizia dei dati rimuovendo i record obsoleti senza interventi manuali per ottimizzare lo storage e migliorare l'efficienza del sistema.
Il TTL è utile per gestire dati sensibili al tempo che perdono rilevanza nel tempo. Prendi in considerazione l’implementazione del TTL se devi:
- Riduzione dei costi di storage attraverso la rimozione automatica dei record obsoleti.
- Migliora le prestazioni delle query riducendo al minimo i dati irrilevanti.
- Mantenere l’igiene dei dati conservando solo le informazioni pertinenti.
- Ottimizzazione della conservazione dei dati per supportare gli obiettivi aziendali.
Utilizza le configurazioni TTL per ottimizzare lo storage in base ai diritti. Anche se i dati dell’archivio profili (utilizzati in Real-Time CDP) possono essere considerati obsoleti e rimossi dopo 30 giorni, gli stessi dati evento nel data lake possono rimanere disponibili per 12-13 mesi (o più in base all’adesione) per i casi di utilizzo di Analytics e Data Distiller.
Esempio di settore industry-example
Ad esempio, considera un servizio di streaming video che tiene traccia delle interazioni degli utenti, come visualizzazioni video, ricerche e consigli. Anche se i dati di coinvolgimento recenti sono fondamentali per la personalizzazione, i registri di attività più datati (ad esempio, le interazioni di più di un anno fa) perdono rilevanza. Utilizzando la scadenza a livello di riga, Experience Platform rimuove automaticamente i registri obsoleti, garantendo che solo i dati correnti e significativi vengano utilizzati per le analisi e i consigli.
Valuta idoneità TTL evaluate-ttl-suitability
Prima di applicare un criterio di conservazione, valuta se il set di dati è un buon candidato per la scadenza a livello di riga. Considera quanto segue:
- Rilevanza dei dati nel tempo: i dati meno recenti forniscono valore o diventano obsoleti?
- Impatto sui processi a valle: la rimozione dei dati influisce su reporting, analisi o integrazioni?
- Costo dello storage rispetto al valore di conservazione: il valore dei dati meno recenti giustifica il costo dello storage?
Se i record storici sono essenziali per l’analisi a lungo termine o le operazioni aziendali, il TTL potrebbe non essere l’approccio corretto. L’analisi di questi fattori garantisce l’allineamento del TTL alle esigenze di conservazione dei dati senza influire negativamente sulla disponibilità dei dati.
Best practice per l’impostazione del valore TTL best-practices
Seleziona il valore TTL corretto per garantire che i criteri di conservazione dei set di dati di Experience Event bilancino la conservazione dei dati, l’efficienza dello storage e le esigenze di analisi. Un valore TTL troppo breve può causare la perdita di dati, mentre un valore troppo lungo può aumentare i costi di storage e l'accumulo di dati non necessari. Assicurati che il TTL sia allineato allo scopo del set di dati tenendo in considerazione la frequenza con cui viene effettuato l’accesso ai dati e il tempo in cui rimangono rilevanti.
La tabella seguente fornisce consigli comuni su TTL in base al tipo di set di dati e ai pattern di utilizzo:
Rivedere periodicamente le impostazioni TTL per assicurarsi che continuino ad essere allineate alle regole di storage, alle esigenze analitiche e ai requisiti aziendali.
Considerazioni chiave durante l’impostazione del valore TTL key-considerations
Segui queste best practice per garantire che le impostazioni TTL siano allineate alla strategia di conservazione dei dati:
- Controlla regolarmente le modifiche TTL. Ogni aggiornamento TTL attiva un evento di audit. Utilizza i registri di audit per tenere traccia delle modifiche TTL a scopo di conformità, governance dei dati e risoluzione dei problemi.
- Disattiva TTL se i dati devono essere conservati per un tempo indefinito. Per disabilitare il TTL, impostare
ttlValue
sunull
. Ciò impedisce la scadenza automatica e mantiene tutti i record in modo permanente. Prima di apportare questa modifica, è necessario considerare le implicazioni relative allo storage.
Limitazioni del TTL limitations
Tieni presente le seguenti limitazioni quando utilizzi TTL:
- La conservazione del set di dati Experience Event tramite TTL si applica alla scadenza a livello di riga, non all'eliminazione del set di dati. TTL rimuove i record in base a un periodo di conservazione definito, ma non elimina interi set di dati. Per rimuovere un set di dati, utilizzare l'endpoint di scadenza del set di dati o l'eliminazione manuale.
- La configurazione TTL rimane attiva fino a quando non viene disabilitata in modo esplicito. La configurazione rimane attiva finché non la disattivi. La disabilitazione di TTL interrompe la scadenza e garantisce che tutti i record nel set di dati vengano mantenuti.
- TTL non è uno strumento di conformità. Mentre TTL ottimizza lo storage e la gestione del ciclo di vita, è necessario implementare strategie di governance più ampie per garantire la conformità alle normative.
Analizzare la dimensione e la rilevanza del set di dati prima di applicare il TTL analyze-dataset-size
Prima di applicare il TTL, utilizza le query per analizzare le dimensioni e la rilevanza del set di dati. Esegui query mirate (come il conteggio dei record all’interno di intervalli di date specifici) per visualizzare in anteprima l’impatto di vari valori TTL. Quindi utilizza queste informazioni per scegliere un periodo di conservazione ottimale che bilanci l’utilità dei dati e la convenienza economica.
L’esecuzione di query mirate consente di determinare la quantità di dati da mantenere o rimuovere in diverse configurazioni TTL. Ad esempio, la query SQL seguente conta il numero di record creati negli ultimi 30 giorni:
SELECT COUNT(1) FROM [datasetName] WHERE timestamp > date_sub(now(), INTERVAL 30 DAY);
L’esecuzione di query simili per intervalli di tempo diversi consente di convalidare le impostazioni TTL e di garantire il bilanciamento tra l’efficienza dello storage e l’accessibilità dei dati.
Introduzione alla gestione TTL
Prima di poter valutare, impostare e gestire la conservazione dei set di dati di Experience Event utilizzando l’API Catalog Service, è necessario comprendere come formattare correttamente le richieste. Ciò include la conoscenza dei percorsi API, la fornitura delle intestazioni richieste e la formattazione dei payload di richiesta. Per informazioni essenziali, fare riferimento alla guida introduttiva all'API Catalog Service.
Verifica i vincoli TTL check-ttl-constraints
Utilizza l’endpoint API di igiene dei dati /ttl/{DATASET_ID}
per pianificare le configurazioni TTL. Questo endpoint restituisce i valori TTL minimi e massimi supportati per l'organizzazione, insieme a un valore consigliato (defaultValue
) per il tipo di set di dati.
Per ulteriori informazioni, consulta la documentazione dell'API di igiene dei dati di Adobe Developer.
Per controllare il TTL attualmente applicato a un set di dati, effettuare una richiesta GET all'endpoint {API di Catalog Service /dataSets/{DATASET_ID}
.
https://platform.adobe.io/data/foundation/catalog
. Percorso di base per l'API di igiene dei dati: https://platform.adobe.io/data/core/hygiene
Formato API
GET /ttl/{DATASET_ID}
{DATASET_ID}
/datasets
. Per istruzioni su come filtrare le risposte per i set di dati rilevanti, consulta la guida API per oggetti catalogo.Richiesta
La richiesta seguente recupera i vincoli TTL dell’organizzazione per un particolare set di dati.
curl -X GET \
'https://platform.adobe.io/data/foundation/catalog/ttl/{DATASET_ID}' \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-H 'x-sandbox-name: {SANDBOX_NAME}'
-H 'x-sandbox-id: {SANDBOX_ID}'
Risposta
In caso di esito positivo, la risposta restituisce i valori TTL consigliati, massimi e minimi in base ai diritti dell'organizzazione, insieme a un valore TTL (defaultValue
) suggerito per il set di dati. defaultValue
è una durata TTL consigliata, fornita solo a scopo informativo. Non viene applicato a meno che non sia stato esplicitamente configurato da te. La risposta non include eventuali valori TTL personalizzati già impostati. Per visualizzare il TTL corrente per un set di dati, utilizzare l'endpoint GET /catalog/dataSets/{DATASET_ID}
.
code language-json |
---|
|
defaultValue
maxValue
P10Y
).minValue
P30D
).Controllare i valori TTL applicati check-applied-ttl-values
Per verificare il valore TTL corrente applicato a un set di dati, utilizza la seguente chiamata API:
GET /dataSets/{DATASET_ID}
Questa chiamata restituisce l'attuale ttlValue
(se impostato) nella sezione extensions.adobe_lakeHouse.rowExpiration
.
Richiesta
La richiesta seguente recupera il valore TTL dell’organizzazione per un particolare set di dati.
curl -X GET \
https://platform.adobe.io/data/foundation/catalog/dataSets/{DATASET_ID} \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-H 'x-sandbox-name: {SANDBOX_NAME}'
Risposta
Una risposta corretta include l'oggetto extensions
, che contiene la configurazione TTL corrente applicata al set di dati. L’esempio di risposta seguente viene troncato per brevità.
{
"{DATASET_ID}": {
"name": "Acme Sales Data",
"description": "This dataset contains sales transaction records for Acme Corporation.",
"imsOrg": "{ORG_ID}",
"sandboxId": "{SANDBOX_ID}",
"extensions": {
"adobe_lakeHouse": {
"rowExpiration": {
"ttlValue": "P3M",
}
}
}
...
}
}
Impostare o aggiornare il TTL per un set di dati set-update-ttl
https://ns.adobe.com/xdm/data/time-series
).meta:extends
. Per istruzioni su come eseguire questa operazione, consulta la documentazione dell'endpoint schema.Puoi configurare Conservazione set di dati di Experience Event impostando un nuovo TTL o aggiornando un TTL esistente utilizzando lo stesso metodo API. Utilizza una richiesta PATCH all'endpoint /v2/datasets/{DATASET_ID}
per applicare o modificare il TTL.
Formato API
PATCH /v2/datasets/{DATASET_ID}
{DATASET_ID}
Richiesta
Nell'esempio seguente, ttlValue
è impostato su P3M
. Ciò significa che i record più vecchi di tre mesi vengono eliminati automaticamente. Regolare il periodo di conservazione in base alle esigenze aziendali (ad esempio, P6M
per sei mesi o P12M
per un anno).
curl -X PATCH \
'https://platform.adobe.io/data/foundation/catalog/v2/datasets/{DATASET_ID}' \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'Content-Type: application/json' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-d '{
"extensions": {
"adobe_lakeHouse": {
"rowExpiration": {
"ttlValue": "P3M" // A 3 month retention period
}
}
}
}
rowExpiration.ttlValue
P3M
per 3 mesi o P30D
per 30 giorni).Risposta
In caso di esito positivo, la risposta restituisce un riferimento al set di dati aggiornato ma non include esplicitamente le impostazioni TTL. Per confermare la configurazione TTL, effettuare una richiesta di completamento GET /dataSets/{DATASET_ID}
.
[
"@/dataSets/{DATASET_ID}"
]
Scenario di esempio example-scenario
Considera una piattaforma di streaming video che inizialmente imposta il TTL a tre mesi per garantire nuovi dati di coinvolgimento per la personalizzazione. Tuttavia, se un’analisi successiva rivela che le interazioni meno recenti forniscono ancora informazioni utili, il TTL può essere esteso a sei mesi con la seguente richiesta:
curl -X PATCH \
'https://platform.adobe.io/data/foundation/catalog/v2/datasets/{DATASET_ID}' \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'Content-Type: application/json' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-d '{
"extensions": {
"adobe_lakeHouse": {
"rowExpiration": {
"ttlValue": "P6M" // Extend to 6 months
}
}
}
}
Domande frequenti sui criteri di conservazione dei set di dati faqs
Queste domande frequenti riguardano domande pratiche sui processi di conservazione dei set di dati, sugli effetti immediati delle modifiche TTL, sulle opzioni di ripristino e sulle differenze tra i periodi di conservazione dei diversi servizi di Platform.
A quali tipi di set di dati è possibile applicare le regole dei criteri di conservazione?
È possibile applicare criteri di conservazione basati su TTL a qualsiasi set di dati che utilizza il comportamento della serie temporale. Ciò include set di dati basati sulla classe XDM ExperienceEvent standard, nonché schemi personalizzati progettati per acquisire dati di serie temporali.
La scadenza a livello di riga richiede le seguenti condizioni tecniche:
- Lo schema deve essere progettato per acquisire dati di serie temporali.
- Lo schema deve includere un campo timestamp utilizzato per valutare la scadenza.
- Il set di dati deve memorizzare dati a livello di evento, in genere utilizzando o estendendo la classe XDM ExperienceEvent.
- Il set di dati deve essere registrato in Catalog Service, in quanto le impostazioni TTL vengono applicate tramite
extensions.adobe_lakeHouse.rowExpiration
. - I valori TTL devono utilizzare il formato di durata ISO-8601 (ad esempio
P30D
,P6M
,P1Y
).
Quando il processo di conservazione del set di dati eliminerà i dati dai servizi del data lake?
È possibile impostare diversi criteri di conservazione per il data lake e i servizi profilo?
note note |
---|
NOTE |
Il periodo di conservazione per il servizio profili può essere aggiornato solo una volta ogni 30 giorni. |
Sì, puoi impostare diversi criteri di conservazione per il data lake e i servizi profilo. Il periodo di conservazione per l’archivio profili può essere più breve o più lungo del periodo di conservazione del data lake, a seconda delle esigenze della tua organizzazione.
Come posso verificare l’utilizzo del set di dati corrente?
Puoi controllare le dimensioni dell'archivio del set di dati più recente per il data lake e gli archivi profilo come metriche separate nell'area di lavoro di inventario Set di dati. Ordinare le colonne per identificare i set di dati più grandi e verificare che siano applicati i criteri di conservazione.
Per l’utilizzo a livello di sandbox, consulta la dashboard Utilizzo licenze. Per informazioni dettagliate, consulta la documentazione sull'utilizzo delle licenze.
Come posso verificare se il processo di conservazione dei dati ha avuto esito positivo?
Puoi verificare l'ultimo processo di conservazione dei dati controllandone la marca temporale nell'interfaccia utente di configurazione conservazione dei set di dati o nella pagina Inventario dati.
In alternativa, puoi effettuare una richiesta GET al seguente endpoint:
GET https://platform.adobe.io/data/foundation/catalog/dataSets/{DATASET_ID}
La risposta include la proprietà extensions.adobe_lakeHouse.rowExpiration.lastCompleted
, che indica la marca temporale Unix (in millisecondi) di quando è stato completato il processo TTL più recente.
Il reporting storico sull’utilizzo dei set di dati non è al momento disponibile.
Posso recuperare i dati eliminati?
Qual è il TTL minimo che posso configurare su un set di dati Experience Event di un data lake?
Cosa succede se devo conservare alcuni campi del data lake più a lungo di quanto consenta il mio criterio TTL?
Utilizza Data Distiller per mantenere campi specifici oltre il TTL del set di dati, mantenendo al contempo i limiti di utilizzo. Crea un processo che scrive regolarmente solo i campi necessari in un set di dati derivato. Questo flusso di lavoro garantisce la conformità con un TTL più breve, preservando al contempo i dati critici per un uso esteso.
Per ulteriori dettagli, vedere la guida Creare set di dati derivati con SQL.
Passaggi successivi next-steps
Dopo aver appreso come gestire le impostazioni TTL per la scadenza a livello di riga, consulta la seguente documentazione per comprendere meglio la gestione TTL:
- Processi di conservazione: scopri come pianificare e automatizzare le scadenze dei set di dati nell’interfaccia utente di Experience Platform con la guida dell’interfaccia utente del ciclo di vita dei dati, oppure controlla le configurazioni di conservazione dei set di dati e verifica che i record scaduti vengano eliminati.
- Guida dell'endpoint API per la scadenza del set di dati: scopri come eliminare interi set di dati anziché solo le righe. Scopri come pianificare, gestire e automatizzare la scadenza dei set di dati utilizzando l’API per garantire un’efficiente conservazione dei dati.
- Panoramica sui criteri di utilizzo dei dati: scopri come allineare la strategia di conservazione dei dati con requisiti di conformità più ampi e restrizioni di utilizzo del marketing.