Gestire la conservazione dei set di dati di Experience Event nel data lake utilizzando TTL
Una gestione efficiente dei dati è fondamentale per garantire prestazioni ottimali, controllo dei costi e integrità dei dati. Utilizza il TTL (Experience Event Dataset Retention Time-To-Live) per applicare la scadenza a livello di riga, rimuovendo automaticamente i record obsoleti dai set di dati nel data lake e garantendo al contempo un’efficienza di archiviazione e una rilevanza dei dati ottimali.
Questa guida spiega come valutare, impostare e gestire il TTL utilizzando l’API Catalog Service. Scoprirai quando e perché applicare il TTL, come configurare e aggiornare i valori TTL utilizzando le chiamate API e le best practice per garantire un’implementazione efficace.
Perché utilizzare TTL per la gestione dei dati a livello di riga
Con la crescita dei dataset, la gestione efficiente dei dati diventa sempre più importante per preservare le prestazioni, controllare i costi e mantenere i dati pertinenti. La scadenza dei dati a livello di riga basata su TTL automatizza la pulizia dei dati rimuovendo i record obsoleti senza interventi manuali per ottimizzare lo storage e migliorare l'efficienza del sistema.
Il TTL è utile per gestire dati sensibili al tempo che perdono rilevanza nel tempo. Prendi in considerazione l’implementazione del TTL se devi:
- Riduzione dei costi di storage attraverso la rimozione automatica dei record obsoleti.
- Migliora le prestazioni delle query riducendo al minimo i dati irrilevanti.
- Mantenere l’igiene dei dati conservando solo le informazioni pertinenti.
- Ottimizzazione della conservazione dei dati per supportare gli obiettivi aziendali.
Esempio di settore industry-example
Ad esempio, considera un servizio di streaming video che tiene traccia delle interazioni degli utenti, come visualizzazioni video, ricerche e consigli. Anche se i dati di coinvolgimento recenti sono fondamentali per la personalizzazione, i registri di attività più datati (ad esempio, le interazioni di più di un anno fa) perdono rilevanza. Utilizzando la scadenza a livello di riga, Experience Platform rimuove automaticamente i registri obsoleti, garantendo che solo i dati correnti e significativi vengano utilizzati per le analisi e i consigli.
Valuta idoneità TTL
Prima di applicare un criterio di conservazione, valuta se il set di dati è un buon candidato per la scadenza a livello di riga. Considera quanto segue:
- Rilevanza dei dati nel tempo: i dati meno recenti forniscono valore o diventano obsoleti?
- Impatto sui processi a valle: la rimozione dei dati influisce su reporting, analisi o integrazioni?
- Costo dello storage rispetto al valore di conservazione: il valore dei dati meno recenti giustifica il costo dello storage?
Se i record storici sono essenziali per l’analisi a lungo termine o le operazioni aziendali, il TTL potrebbe non essere l’approccio corretto. L’analisi di questi fattori garantisce l’allineamento del TTL alle esigenze di conservazione dei dati senza influire negativamente sulla disponibilità dei dati.
Pianificare le query plan-queries
Prima di applicare il TTL, è importante valutare la dimensione del set di dati e la rilevanza dei dati e valutare la quantità di dati storici da conservare. L’immagine seguente illustra l’intero processo di implementazione di TTL, dalla pianificazione delle query al monitoraggio dell’efficacia della conservazione.
L’esecuzione di query mirate consente di determinare la quantità di dati da mantenere o rimuovere in diverse configurazioni TTL. Ad esempio, la query SQL seguente conta il numero di record creati negli ultimi 30 giorni:
SELECT COUNT(1) FROM [datasetName] WHERE timestamp > date_sub(now(), INTERVAL 30 DAY);
L’esecuzione di query simili per intervalli di tempo diversi consente di convalidare le impostazioni TTL e di garantire il bilanciamento tra l’efficienza dello storage e l’accessibilità dei dati.
Introduzione alla gestione TTL
Prima di poter valutare, impostare e gestire la conservazione dei set di dati di Experience Event utilizzando l’API Catalog Service, è necessario comprendere come formattare correttamente le richieste. Ciò include la conoscenza dei percorsi API, la fornitura delle intestazioni richieste e la formattazione dei payload di richiesta. Per informazioni essenziali, fare riferimento alla guida introduttiva all'API Catalog Service.
Controllare le impostazioni TTL correnti
Per iniziare la gestione TTL, controlla innanzitutto le impostazioni TTL correnti. Effettuare una richiesta GET all'endpoint /ttl/{datasetId}
per recuperare le impostazioni TTL predefinite, massime e minime per un set di dati. Questo passaggio è necessario perché le regole TTL possono variare in base al tipo di set di dati.
https://platform.adobe.io/data/foundation/catalog
.Formato API
GET /ttl/{DATASET_ID}
{DATASET_ID}
/datasets
. Per istruzioni su come filtrare le risposte per i set di dati rilevanti, consulta la guida API per oggetti catalogo.Richiesta
La richiesta seguente recupera le impostazioni TTL dell’organizzazione per un particolare set di dati.
curl -X GET \
'https://platform.adobe.io/data/foundation/catalog/ttl/5ba9452f7de80408007fc52a' \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-H 'x-sandbox-name: {SANDBOX_NAME}'
-H 'x-sandbox-id: {SANDBOX_ID}'
Risposta
In caso di esito positivo, la risposta restituisce la configurazione TTL per il set di dati, inclusi i valori TTL predefiniti, massimi e minimi per l’archiviazione adobe_lakeHouse
e adobe_unifiedProfile
.
code language-json |
---|
|
defaultValue
maxValue
minValue
Impostare il TTL per un set di dati set-ttl
https://ns.adobe.com/xdm/data/time-series
per verificare che la richiesta API abbia esito positivo. Utilizzare l'API Schema Registry per recuperare i dettagli dello schema e verificare la proprietà meta:extends
. Per informazioni su come eseguire questa operazione, consulta la documentazione dell'endpoint schema.Per configurare Conservazione set di dati di Experience Event per il set di dati, imposta un nuovo valore TTL effettuando una richiesta PATCH all'endpoint /v2/datasets/{ID}
.
Formato API
PATCH /v2/datasets/{DATASET_ID}
{DATASET_ID}
Richiesta
Nell'esempio di richiesta seguente, ttlValue
è impostato su P3M
. In questo modo i record più vecchi di tre mesi verranno eliminati automaticamente. È possibile modificare il periodo di conservazione in base alle esigenze aziendali utilizzando valori quali P6M
per sei mesi o P12M
per un anno.
curl -X PATCH \
'https://platform.adobe.io/data/foundation/catalog/v2/datasets/{DATASET_ID}' \
-h 'Authorization: Bearer {ACCESS_TOKEN}' \
-h 'Content-Type: application/json' \
-h 'x-api-key: {API_KEY}' \
-h 'x-gw-ims-org-id: {ORG_ID}' \
-d '{
"extensions": {
"adobe_lakeHouse": {
"rowExpiration": {
"ttlValue": "P3M" // A 3 month retention period
}
}
}
}
Risposta
In caso di esito positivo, la risposta mostra la configurazione TTL per il set di dati. Include dettagli sulle impostazioni di scadenza a livello di riga per l'archiviazione adobe_lakeHouse
e adobe_unifiedProfile
.
code language-json |
---|
|
extensions
extensions.adobe_lakeHouse
rowExpiration
rowExpiration.ttlValue
P3M
per 3 mesi o P30D
per una settimana).rowExpiration.valueStatus
default
, custom
.rowExpiration.setBy
user
(impostato manualmente) o service
(assegnato automaticamente).rowExpiration.updated
Come aggiornare il TTL update-ttl
Estendere o abbreviare il periodo di conservazione in base alle esigenze aziendali modificando il valore TTL. Ad esempio, se consideri la piattaforma di streaming video di cui sopra, la piattaforma può inizialmente impostare il TTL a tre mesi per garantire nuovi dati di coinvolgimento per la personalizzazione. Tuttavia, se la loro analisi mostra che i modelli di interazione più vecchi di tre mesi forniscono ancora informazioni utili, possono estendere il periodo TTL a sei mesi per conservare i record più vecchi per modelli di consigli migliori.
Per modificare un valore TTL esistente, utilizzare il metodo PATCH
sull'endpoint /v2/datasets/{DATASET_ID}
.
Formato API
PATCH /v2/datasets/{DATASET_ID}
Richiesta
Nella richiesta seguente, il TTL viene aggiornato a sei mesi (P6M
) estendendo il periodo di conservazione dei record prima dell'eliminazione automatica.
curl -X PATCH \
'https://platform.adobe.io/data/foundation/catalog/v2/datasets/{DATASET_ID}' \
-h 'Authorization: Bearer {ACCESS_TOKEN}' \
-h 'Content-Type: application/json' \
-h 'x-api-key: {API_KEY}' \
-h 'x-gw-ims-org-id: {ORG_ID}' \
-d '{
"extensions": {
"adobe_lakeHouse": {
"rowExpiration": {
"ttlValue": "P6M" // Extend to 6 months
}
}
}
}
Risposta
{ "extensions": {
"adobe_lakeHouse": {
"rowExpiration": {
"ttlValue": "P6M",
"valueStatus": "custom",
"setBy": "user",
"updated": "1737977766499"
}
},
"adobe_unifiedProfile": {
"rowExpiration": {
"ttlValue": "P3M",
"valueStatus": "custom",
"setBy": "user",
"updated": "17379754766355"
}
}
}
}
Best practice per l’impostazione del valore TTL best-practices
La scelta del valore TTL corretto è fondamentale per garantire che i criteri di conservazione dei set di dati di Experience Event bilancino la conservazione dei dati, l’efficienza dello storage e le esigenze di analisi. Un valore TTL troppo breve può causare la perdita di dati, mentre un valore troppo lungo può aumentare i costi di storage e l'accumulo di dati non necessari. Assicurati che il TTL sia allineato allo scopo del set di dati tenendo in considerazione la frequenza con cui viene effettuato l’accesso ai dati e il tempo in cui rimangono rilevanti.
La tabella seguente fornisce consigli comuni su TTL in base al tipo di set di dati e ai pattern di utilizzo:
Rivedere periodicamente le impostazioni TTL per assicurarsi che continuino ad essere allineate alle regole di storage, alle esigenze analitiche e ai requisiti aziendali.
Considerazioni chiave durante l’impostazione del valore TTL
Segui queste best practice per garantire che le impostazioni TTL siano allineate alla strategia di conservazione dei dati:
- Controlla regolarmente le modifiche TTL. Ogni aggiornamento TTL attiva un evento di audit. Utilizza i registri di audit per tenere traccia delle modifiche TTL a scopo di conformità, governance dei dati e risoluzione dei problemi.
- Rimuovi TTL se i dati devono essere conservati per un tempo indefinito. Per disabilitare il TTL, impostare
ttlValue
sunull
. Ciò impedisce la scadenza automatica e mantiene tutti i record in modo permanente. Prima di apportare questa modifica, è necessario considerare le implicazioni relative allo storage.
Limitazioni del TTL limitations
Tieni presente le seguenti limitazioni quando utilizzi TTL:
- La conservazione del set di dati Experience Event tramite TTL si applica alla scadenza a livello di riga, non all'eliminazione del set di dati. TTL rimuove i record in base a un periodo di conservazione definito, ma non elimina interi set di dati. Per rimuovere un set di dati, utilizzare l'endpoint di scadenza del set di dati o l'eliminazione manuale.
- Impossibile rimuovere TTL. Solo aggiornato. Una volta applicato, il TTL non può essere eliminato, ma puoi modificare il periodo di conservazione per estenderlo o ridurlo. Per conservare i dati a tempo indefinito, impostare un TTL sufficientemente lungo anziché tentare di rimuoverlo.
- TTL non è uno strumento di conformità. TTL ottimizza lo storage e la gestione del ciclo di vita dei dati, ma non soddisfa i requisiti normativi di conservazione dei dati. Per la conformità, implementa strategie di governance dei dati più ampie.
Domande frequenti sui criteri di conservazione dei set di dati faqs
Questa sezione fornisce le risposte alle domande più frequenti sui criteri di conservazione dei set di dati in Adobe Experience Platform.
A quali tipi di set di dati è possibile applicare le regole dei criteri di conservazione?
Quando il processo di conservazione del set di dati eliminerà i dati dai servizi del data lake?
Quando il processo di conservazione del set di dati eliminerà i dati dai servizi profilo?
Una volta impostati i criteri di conservazione, gli eventi esistenti in Experience Platform vengono immediatamente eliminati se la relativa marca temporale supera il periodo di conservazione (TTL). I nuovi eventi vengono eliminati dopo che il loro timestamp supera il periodo di conservazione.
Ad esempio, se applichi un criterio di scadenza di 30 giorni il 15 maggio, si verifica quanto segue:
- I nuovi eventi ricevono una scadenza di 30 giorni al momento dell’acquisizione.
- Gli eventi esistenti con una marca temporale precedente al 15 aprile vengono eliminati immediatamente.
- Gli eventi esistenti con una marca temporale successiva al 15 aprile scadono 30 giorni dopo la loro marca temporale (ad esempio, un evento del 18 aprile verrebbe eliminato il 18 maggio).
È possibile impostare diversi criteri di conservazione per il data lake e i servizi profilo?
Come posso verificare l’utilizzo del set di dati corrente?
Puoi controllare le dimensioni dell'archivio del set di dati più recente per il data lake e gli archivi profilo come metriche separate nell'area di lavoro di inventario Set di dati. Ordinare le colonne per identificare i set di dati più grandi e verificare che siano applicati i criteri di conservazione.
Per l’utilizzo a livello di sandbox, consulta la dashboard Utilizzo licenze. Per informazioni dettagliate, consulta la documentazione sull'utilizzo delle licenze.
Come posso verificare se il processo di conservazione dei dati ha avuto esito positivo?
Puoi verificare l'ultimo processo di conservazione dei dati controllandone la marca temporale nell'interfaccia utente di configurazione conservazione dei set di dati o nella pagina Inventario dati.
Il reporting storico sull’utilizzo dei set di dati non è al momento disponibile.
Posso recuperare i dati eliminati?
Qual è il TTL minimo che posso configurare su un set di dati Experience Event di un data lake?
Cosa succede se devo conservare alcuni campi del data lake più a lungo di quanto consenta il mio criterio TTL?
Utilizza Data Distiller per mantenere campi specifici oltre il TTL del set di dati, mantenendo al contempo i limiti di utilizzo. Crea un processo che scrive regolarmente solo i campi necessari in un set di dati derivato. Questo flusso di lavoro garantisce la conformità con un TTL più breve, preservando al contempo i dati critici per un uso esteso.
Per ulteriori dettagli, vedere la guida Creare set di dati derivati con SQL.
Passaggi successivi next-steps
Dopo aver appreso come gestire le impostazioni TTL per la scadenza a livello di riga, consulta la seguente documentazione per comprendere meglio la gestione TTL:
- Processi di conservazione: scopri come pianificare e automatizzare le scadenze dei set di dati nell’interfaccia utente di Experience Platform con la guida dell’interfaccia utente del ciclo di vita dei dati, oppure controlla le configurazioni di conservazione dei set di dati e verifica che i record scaduti vengano eliminati.
- Guida dell'endpoint API per la scadenza del set di dati: scopri come eliminare interi set di dati anziché solo le righe. Scopri come pianificare, gestire e automatizzare la scadenza dei set di dati utilizzando l’API per garantire un’efficiente conservazione dei dati.
- Panoramica sui criteri di utilizzo dei dati: scopri come allineare la strategia di conservazione dei dati con requisiti di conformità più ampi e restrizioni di utilizzo del marketing.