Gestion de la conservation des jeux de données d’événements d’expérience dans le lac de données à l’aide de TTL
Une gestion efficace des données est essentielle pour optimiser les performances, le contrôle des coûts et l’intégrité des données. Utilisez la durée de vie (TTL) de conservation des jeux de données d’événements d’expérience pour appliquer l’expiration au niveau des lignes, supprimant automatiquement les enregistrements obsolètes des jeux de données du lac de données tout en assurant une efficacité de stockage et une pertinence des données optimales.
Ce guide explique comment évaluer, définir et gérer une TTL à l’aide de l’API Catalog Service. Vous apprendrez quand et pourquoi appliquer une durée de vie, comment configurer et mettre à jour les valeurs de durée de vie à l’aide d’appels d’API, ainsi que les bonnes pratiques pour garantir une implémentation efficace.
Pourquoi utiliser la durée de vie pour la gestion des données au niveau des lignes ?
À mesure que les jeux de données se développent, une gestion efficace des données devient de plus en plus importante pour préserver les performances, contrôler les coûts et conserver la pertinence des données. L’expiration des données au niveau des lignes basée sur une durée de vie automatise le nettoyage des données en supprimant les enregistrements obsolètes sans intervention manuelle afin d’optimiser le stockage et d’améliorer l’efficacité du système.
La durée de vie est utile pour gérer les données sensibles au temps qui perdent de leur pertinence au fil du temps. Pensez à mettre en œuvre une durée de vie si vous devez :
- Réduisez les coûts de stockage en supprimant automatiquement les enregistrements obsolètes.
- Améliorez les performances des requêtes en réduisant au minimum les données non pertinentes.
- Maintenez l’hygiène des données en ne conservant que les informations pertinentes.
- Optimisez la conservation des données pour soutenir les objectifs commerciaux.
Utilisez les configurations de durée de vie pour optimiser le stockage en fonction des droits. Bien que les données du magasin de profils (utilisées dans Real-Time CDP) puissent être considérées comme obsolètes et supprimées après 30 jours, les mêmes données d’événement dans le lac de données peuvent rester disponibles pendant 12 à 13 mois (ou plus longtemps selon les droits) pour les cas d’utilisation d’Analytics et de Data Distiller.
Exemple de secteur industry-example
Prenons l’exemple d’un service de diffusion en continu de vidéos qui effectue le suivi des interactions utilisateur, telles que les vues vidéo, les recherches et les recommandations. Bien que les données d’engagement récentes soient essentielles pour la personnalisation, les journaux d’activité plus anciens (par exemple, les interactions d’il y a plus d’un an) perdent de leur pertinence. En utilisant l’expiration au niveau des lignes, Experience Platform supprime automatiquement les journaux obsolètes, en s’assurant que seules des données actuelles et significatives sont utilisées pour les analyses et les recommandations.
Évaluation de l’adéquation de la TTL evaluate-ttl-suitability
Avant d’appliquer une politique de rétention, évaluez si votre jeu de données est un bon candidat pour l’expiration au niveau des lignes. Tenez compte des points suivants :
- Pertinence des données au fil du temps : les données plus anciennes offrent-elles une valeur ajoutée ou deviennent-elles obsolètes ?
- Impact sur les processus en aval : la suppression des données aura-t-elle une incidence sur les rapports, les analyses ou les intégrations ?
- Coût du stockage par rapport à la valeur de rétention : la valeur des données plus anciennes justifie-t-elle le coût de leur stockage ?
Si les enregistrements historiques sont essentiels pour l’analyse à long terme ou les opérations commerciales, la durée de vie peut ne pas être la bonne approche. En examinant ces facteurs, vous vous assurez que la durée de vie correspond à vos besoins de conservation des données sans affecter négativement la disponibilité des données.
Bonnes pratiques pour définir la durée de vie best-practices
Sélectionnez la valeur de TTL appropriée pour vous assurer que votre politique de conservation des jeux de données d’événements d’expérience équilibre entre la conservation des données, l’efficacité du stockage et les besoins analytiques. Une durée de vie trop courte peut entraîner une perte de données, tandis qu’une durée de vie trop longue peut augmenter les coûts de stockage et entraîner une accumulation de données inutile. Assurez-vous que la durée de vie correspond à l’objectif de votre jeu de données en tenant compte de la fréquence d’accès aux données et de la durée pendant laquelle elles restent pertinentes.
Le tableau ci-dessous fournit des recommandations courantes relatives à la durée de vie en fonction du type de jeu de données et des schémas d’utilisation :
Passez régulièrement en revue les paramètres de durée de vie pour vous assurer qu’ils continuent de s’aligner sur vos politiques de stockage, vos besoins analytiques et vos exigences commerciales.
Considérations principales lors de la définition de la durée de vie key-considerations
Suivez ces bonnes pratiques pour vous assurer que les paramètres de durée de vie s’alignent sur votre stratégie de conservation des données :
- Le TTL d’audit change régulièrement. Chaque mise à jour de TTL déclenche un événement d’audit. Utilisez les journaux d’audit pour suivre les modifications de TTL à des fins de conformité, de gouvernance des données et de dépannage.
- Désactivez TTL si les données doivent être conservées indéfiniment. Pour désactiver la durée de vie, définissez
ttlValue
surnull
. Cela empêche l’expiration automatique et conserve tous les enregistrements de manière permanente. Tenez compte des implications du stockage avant d’effectuer cette modification.
Limites de TTL limitations
Gardez à l’esprit les limites suivantes lors de l’utilisation de TTL :
- La rétention du jeu de données d’événement d’expérience à l’aide de la durée de vie s’applique à l’expiration au niveau des lignes et non à la suppression du jeu de données. La durée de vie supprime les enregistrements en fonction d’une période de conservation définie, mais ne supprime pas les jeux de données entiers. Pour supprimer un jeu de données, utilisez le point d’entrée expiration du jeu de données ou la suppression manuelle.
- La configuration de durée de vie reste active jusqu’à ce qu’elle soit explicitement désactivée. La configuration reste en vigueur jusqu’à ce que vous la désactiviez. La désactivation de la durée de vie arrête l’expiration et garantit que tous les enregistrements du jeu de données sont conservés.
- TTL n’est pas un outil de conformité. Bien que la durée de vie optimise le stockage et la gestion du cycle de vie, vous devez mettre en œuvre des stratégies de gouvernance plus larges pour garantir la conformité réglementaire.
Analyser la taille et la pertinence du jeu de données avant d’appliquer la TTL analyze-dataset-size
Avant d’appliquer une durée de vie, utilisez des requêtes pour analyser la taille et la pertinence des jeux de données. Exécutez des requêtes ciblées (comme le comptage des enregistrements dans des périodes spécifiques) pour prévisualiser l’impact de différentes valeurs de durée de vie. Utilisez ensuite ces informations pour choisir une période de conservation optimale qui équilibre l’utilité des données et le rapport coût-efficacité.
L’exécution de requêtes ciblées permet de déterminer la quantité de données conservée ou supprimée dans différentes configurations de TTL. Par exemple, la requête SQL suivante comptabilise le nombre d’enregistrements créés au cours des 30 derniers jours :
SELECT COUNT(1) FROM [datasetName] WHERE timestamp > date_sub(now(), INTERVAL 30 DAY);
L’exécution de requêtes similaires pour différents intervalles de temps permet de valider les paramètres de TTL et de s’assurer qu’ils équilibrent l’efficacité du stockage et l’accessibilité des données.
Prise en main de la gestion des TTL
Avant de pouvoir évaluer, définir et gérer la conservation des jeux de données d’événement d’expérience à l’aide de l’API Catalog Service, vous devez comprendre comment formater correctement vos requêtes. Cela inclut la connaissance des chemins d’API, la fourniture des en-têtes requis et le formatage des payloads des requêtes. Reportez-vous au guide de prise en main de l’API Catalog Service pour obtenir ces informations essentielles.
Vérifier vos contraintes de durée de vie check-ttl-constraints
Utilisez le point d’entrée /ttl/{DATASET_ID}
de l’API Data Hygiene pour planifier les configurations de TTL. Ce point d’entrée renvoie les valeurs de durée de vie minimale et maximale prises en charge pour votre organisation, ainsi qu’une valeur recommandée (defaultValue
) pour le type de jeu de données.
Pour plus d’informations, consultez la documentation d’Adobe Developer API Data Hygiene .
Pour vérifier la TTL actuellement appliquée à un jeu de données, envoyez plutôt une requête GET au point d’entrée de 🔗API Catalog Service/dataSets/{DATASET_ID}
.
https://platform.adobe.io/data/foundation/catalog
. Le chemin d’accès de base de l’API Data Hygiene est le suivant : https://platform.adobe.io/data/core/hygiene
Format d’API
GET /ttl/{DATASET_ID}
{DATASET_ID}
/datasets
. Pour obtenir des instructions sur le filtrage des réponses pour les jeux de données pertinents consultez le guideAPI list catalog objects).Requête
La requête suivante récupère les contraintes de durée de vie de votre organisation pour un jeu de données spécifique.
curl -X GET \
'https://platform.adobe.io/data/foundation/catalog/ttl/{DATASET_ID}' \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-H 'x-sandbox-name: {SANDBOX_NAME}'
-H 'x-sandbox-id: {SANDBOX_ID}'
Réponse
Une réponse réussie renvoie les valeurs de TTL recommandées, maximales et minimales en fonction des droits de votre organisation, ainsi qu’une durée de vie suggérée (defaultValue
) pour le jeu de données. Il s’defaultValue
d’une durée de vie recommandée, fournie uniquement à titre indicatif. Elle n’est pas appliquée, sauf si vous la configurez explicitement. La réponse n’inclut aucune valeur de durée de vie personnalisée déjà définie. Pour afficher la TTL actuelle d’un jeu de données, utilisez le point d’entrée /catalog/dataSets/{DATASET_ID}
GET.
code language-json |
---|
|
defaultValue
maxValue
P10Y
).minValue
P30D
).Comment vérifier les valeurs de durée de vie appliquées check-applied-ttl-values
Pour vérifier la valeur de durée de vie actuelle qui a été appliquée à un jeu de données, utilisez l’appel API suivant :
GET /dataSets/{DATASET_ID}
Cet appel renvoie la ttlValue
actuelle (si elle est définie) dans la section extensions.adobe_lakeHouse.rowExpiration
.
Requête
La requête suivante récupère la valeur de durée de vie de votre organisation pour un jeu de données spécifique.
curl -X GET \
https://platform.adobe.io/data/foundation/catalog/dataSets/{DATASET_ID} \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-H 'x-sandbox-name: {SANDBOX_NAME}'
Réponse
Une réponse réussie inclut l’objet extensions
, qui contient la configuration de TTL actuelle appliquée au jeu de données. L’exemple de réponse ci-dessous est tronqué par souci de concision.
{
"{DATASET_ID}": {
"name": "Acme Sales Data",
"description": "This dataset contains sales transaction records for Acme Corporation.",
"imsOrg": "{ORG_ID}",
"sandboxId": "{SANDBOX_ID}",
"extensions": {
"adobe_lakeHouse": {
"rowExpiration": {
"ttlValue": "P3M",
}
}
}
...
}
}
Définir ou mettre à jour une TTL pour un jeu de données set-update-ttl
https://ns.adobe.com/xdm/data/time-series
).meta:extends
. Consultez la documentation sur les points d’entrée de schéma pour obtenir des conseils sur la manière de procéder.Vous pouvez configurer la conservation des jeux de données d’événements d’expérience en définissant une nouvelle TTL ou en mettant à jour une TTL existante à l’aide de la même méthode API. Utilisez une requête PATCH au point d’entrée /v2/datasets/{DATASET_ID}
pour appliquer ou ajuster la durée de vie.
Format d’API
PATCH /v2/datasets/{DATASET_ID}
{DATASET_ID}
Requête
Dans l’exemple ci-dessous, la ttlValue
est définie sur P3M
. Cela signifie que les enregistrements de plus de trois mois sont automatiquement supprimés. Ajustez la période de conservation en fonction des besoins de votre entreprise (par exemple, P6M
pendant six mois ou P12M
pendant un an).
curl -X PATCH \
'https://platform.adobe.io/data/foundation/catalog/v2/datasets/{DATASET_ID}' \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'Content-Type: application/json' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-d '{
"extensions": {
"adobe_lakeHouse": {
"rowExpiration": {
"ttlValue": "P3M" // A 3 month retention period
}
}
}
}
rowExpiration.ttlValue
P3M
pendant 3 mois ou P30D
pendant 30 jours).Réponse
Une réponse réussie renvoie une référence au jeu de données mis à jour, mais n’inclut pas explicitement les paramètres de TTL. Pour confirmer la configuration de la TTL, envoyez une requête de GET /dataSets/{DATASET_ID}
de suivi.
[
"@/dataSets/{DATASET_ID}"
]
Exemple de scénario example-scenario
Prenons l’exemple d’une plateforme de streaming vidéo qui définit initialement la durée de vie sur trois mois afin de garantir de nouvelles données d’engagement pour la personnalisation. Cependant, si l’analyse ultérieure révèle que les interactions plus anciennes fournissent toujours des informations précieuses, la durée de vie peut être étendue à six mois avec la requête suivante :
curl -X PATCH \
'https://platform.adobe.io/data/foundation/catalog/v2/datasets/{DATASET_ID}' \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'Content-Type: application/json' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-d '{
"extensions": {
"adobe_lakeHouse": {
"rowExpiration": {
"ttlValue": "P6M" // Extend to 6 months
}
}
}
}
FAQ sur la politique de conservation des jeux de données faqs
Cette FAQ aborde des questions pratiques sur les tâches de conservation des jeux de données, les effets immédiats des modifications de durée de vie, les options de récupération et les différences de périodes de conservation entre les services Platform.
À quels types de jeux de données puis-je appliquer des règles de politique de rétention ?
Vous pouvez appliquer des politiques de rétention basées sur la durée de vie à n’importe quel jeu de données qui utilise le comportement de série temporelle. Cela inclut les jeux de données basés sur la classe XDM ExperienceEvent standard, ainsi que les schémas personnalisés conçus pour capturer des données de série temporelle.
L’expiration au niveau des lignes nécessite les conditions techniques suivantes :
- Le schéma doit être conçu pour capturer des données de série temporelle.
- Le schéma doit inclure un champ de date et heure utilisé pour évaluer l’expiration.
- Le jeu de données doit stocker des données au niveau de l’événement, en utilisant ou en étendant généralement la classe XDM ExperienceEvent.
- Le jeu de données doit être enregistré dans Catalog Service, car les paramètres de TTL sont appliqués via
extensions.adobe_lakeHouse.rowExpiration
. - Les valeurs de durée de vie doivent utiliser le format de durée ISO-8601 (par exemple,
P30D
,P6M
,P1Y
).
Dans combien de temps la tâche de conservation des jeux de données supprimera-t-elle les données des services de lac de données ?
Puis-je définir différentes politiques de conservation pour les services de lac de données et de profil ?
note note |
---|
NOTE |
La période de conservation du service de profil ne peut être mise à jour qu’une fois tous les 30 jours. |
Oui, vous pouvez définir différentes politiques de conservation pour les services de lac de données et de profil. La période de conservation de la banque de profils peut être plus courte ou plus longue que la période de conservation du lac de données, selon les besoins de votre entreprise.
Comment puis-je vérifier l’utilisation actuelle de mon jeu de données ?
Vous pouvez vérifier la dernière taille de stockage du jeu de données pour le lac de données et les magasins de profils en tant que mesures distinctes sur l’espace de travail d’inventaire Jeu de données. Triez les colonnes pour identifier les jeux de données les plus volumineux et vérifiez que les politiques de conservation sont appliquées.
Pour plus d’informations sur l’utilisation au niveau du sandbox, consultez le tableau de bord Utilisation des licences . Pour plus d’informations, consultez la documentation relative à l’utilisation des licences.
Comment puis-je vérifier si la tâche de conservation des données a réussi ?
Vous pouvez vérifier la dernière tâche de conservation des données en vérifiant sa date et l’heure dans l’interface utilisateur de configuration de la conservation des jeux de données ou sur la page Inventaire des données .
Vous pouvez également envoyer une requête GET au point d’entrée suivant :
GET https://platform.adobe.io/data/foundation/catalog/dataSets/{DATASET_ID}
La réponse inclut la propriété extensions.adobe_lakeHouse.rowExpiration.lastCompleted
, qui indique la date et l’heure Unix (en millisecondes) auxquelles la tâche TTL la plus récente a été terminée.
La création de rapports sur l’utilisation des jeux de données historiques est actuellement indisponible.
Puis-je récupérer les données supprimées ?
Quelle est la durée de vie minimale que je peux configurer sur un jeu de données Événement d’expérience de lac de données ?
Que se passe-t-il si je dois conserver certains champs du lac de données plus longtemps que ne le permet ma politique de TTL ?
Utilisez la Distiller de données pour conserver des champs spécifiques au-delà de la durée de vie du jeu de données tout en respectant vos limites d’utilisation. Créez une tâche qui n’écrit régulièrement que les champs nécessaires dans un jeu de données dérivé. Ce workflow assure la conformité avec une durée de vie plus courte tout en préservant les données critiques pour une utilisation prolongée.
Pour plus d’informations, consultez le guide Créer des jeux de données dérivés avec SQL.
Étapes suivantes next-steps
Maintenant que vous avez appris à gérer les paramètres de TTL pour l’expiration au niveau des lignes, consultez la documentation suivante pour mieux comprendre la gestion des TTL :
- Tâches de conservation : découvrez comment planifier et automatiser les expirations de jeux de données dans l’interface utilisateur d’Experience Platform à l’aide du guide de l’interface utilisateur du cycle de vie des donnéesou vérifiez les configurations de conservation des jeux de données et que les enregistrements expirés sont supprimés.
- Guide du point d’entrée de l’API d’expiration de jeu de données : découvrez comment supprimer des jeux de données entiers plutôt que seulement des lignes. Découvrez comment planifier, gérer et automatiser l’expiration des jeux de données à l’aide de l’API pour garantir une conservation efficace des données.
- Présentation des politiques d’utilisation des données : découvrez comment aligner votre stratégie de conservation des données sur les exigences de conformité plus larges et les restrictions d’utilisation marketing.