Administrar la retención de conjuntos de datos de Experience Event en el lago de datos mediante TTL
La administración eficiente de los datos es fundamental para obtener un rendimiento óptimo, un control de costes y la integridad de los datos. Utilice el Tiempo de vida de retención de conjuntos de datos de evento de experiencia (TTL) para aplicar una caducidad de nivel de fila, lo que elimina automáticamente los registros obsoletos de los conjuntos de datos en el lago de datos y garantiza una eficiencia y una relevancia de datos óptimas.
Esta guía explica cómo evaluar, establecer y administrar TTL mediante la API del servicio de catálogo. Aprenderá cuándo y por qué aplicar TTL, cómo configurar y actualizar valores TTL mediante llamadas a la API y prácticas recomendadas para garantizar una implementación eficaz.
Razones para utilizar TTL para la administración de datos de nivel de fila
A medida que los conjuntos de datos aumentan, la administración eficiente de los datos cobra cada vez más importancia para preservar el rendimiento, controlar los costes y mantener la relevancia de los datos. La caducidad de datos a nivel de fila basada en TTL automatiza la limpieza de datos al eliminar registros obsoletos sin intervención manual para ayudar a optimizar el almacenamiento y mejorar la eficiencia del sistema.
TTL es útil cuando se administran datos con distinción de tiempo que pierden relevancia con el tiempo. Considere implementar TTL si necesita:
- Reduzca los costes de almacenamiento eliminando automáticamente los registros obsoletos.
- Mejore el rendimiento de las consultas minimizando los datos irrelevantes.
- Mantenga la higiene de los datos conservando solo la información relevante.
- Optimizar la retención de datos para lograr los objetivos empresariales.
Utilice configuraciones de TTL para optimizar el almacenamiento en función de los derechos. Aunque los datos del almacén de perfiles (utilizados en Real-Time CDP) se pueden considerar obsoletos y se eliminan a los 30 días, los mismos datos de evento del lago de datos pueden permanecer disponibles durante 12-13 meses (o más según el derecho) para los casos de uso de Analytics y Data Distiller.
Ejemplo del sector industry-example
Por ejemplo, considere un servicio de streaming de vídeo que rastree las interacciones del usuario, como vistas de vídeo, búsquedas y recomendaciones. Aunque los datos de participación recientes son cruciales para la personalización, los registros de actividad más antiguos (por ejemplo, las interacciones de hace más de un año) pierden relevancia. Al utilizar la caducidad a nivel de fila, Experience Platform elimina automáticamente los registros obsoletos, lo que garantiza que solo se utilicen datos actuales y significativos para los análisis y las recomendaciones.
Evaluar la idoneidad de TTL evaluate-ttl-suitability
Antes de aplicar una directiva de retención, compruebe si el conjunto de datos es un buen candidato para la caducidad del nivel de fila. Tenga en cuenta lo siguiente:
- Relevancia de los datos con el tiempo: ¿Los datos más antiguos proporcionan valor o se vuelven obsoletos?
- Impacto en los procesos descendentes: ¿La eliminación de datos afectará a la creación de informes, los análisis o las integraciones?
- Coste del almacenamiento frente al valor de retención: ¿el valor de los datos más antiguos justifica el coste de almacenarlos?
Si los registros históricos son esenciales para el análisis a largo plazo o las operaciones comerciales, es posible que el TTL no sea el enfoque correcto. La revisión de estos factores garantiza que el TTL se ajuste a sus necesidades de retención de datos sin afectar negativamente a la disponibilidad de los datos.
Prácticas recomendadas para establecer TTL best-practices
Seleccione el valor TTL correcto para garantizar que la política de retención de conjuntos de datos de eventos de experiencia equilibra la retención de datos, la eficiencia del almacenamiento y las necesidades analíticas. Un TTL demasiado corto puede causar pérdida de datos, mientras que uno demasiado largo puede aumentar los costos de almacenamiento y la acumulación de datos innecesaria. Asegúrese de que el TTL se ajuste al propósito de su conjunto de datos teniendo en cuenta la frecuencia con la que se accede a los datos y cuánto tiempo permanece relevante.
La siguiente tabla proporciona recomendaciones TTL comunes basadas en el tipo de conjunto de datos y patrones de uso:
Revise la configuración de TTL periódicamente para asegurarse de que sigue ajustándose a las políticas de almacenamiento, las necesidades analíticas y los requisitos empresariales.
Consideraciones clave al establecer TTL key-considerations
Siga estas prácticas recomendadas para asegurarse de que la configuración de TTL se ajusta a su estrategia de retención de datos:
- Audite los cambios de TTL regularmente. Cada actualización TTL déclencheur un evento de auditoría. Utilice registros de auditoría para rastrear las modificaciones TTL con fines de cumplimiento, gobernanza de datos y resolución de problemas.
- Deshabilite TTL si los datos deben conservarse indefinidamente. Para deshabilitar TTL, establezca
ttlValue
ennull
. Esto evita la caducidad automática y conserva todos los registros de forma permanente. Tenga en cuenta las implicaciones de almacenamiento antes de realizar este cambio.
Limitaciones de TTL limitations
Tenga en cuenta las siguientes limitaciones al utilizar TTL:
- La retención de conjuntos de datos de evento de experiencia mediante TTL se aplica a la caducidad de nivel de fila, no a la eliminación de conjuntos de datos. TTL elimina registros en función de un período de retención definido, pero no elimina conjuntos de datos completos. Para quitar un conjunto de datos, use el extremo de caducidad del conjunto de datos o la eliminación manual.
- La configuración de TTL permanece activa hasta que se deshabilite explícitamente. La configuración permanece activa hasta que la desactive. Al deshabilitar TTL se detiene la caducidad y se garantiza que se conserven todos los registros del conjunto de datos.
- TTL no es una herramienta de cumplimiento. Mientras que TTL optimiza la administración del almacenamiento y el ciclo de vida, debe implementar estrategias de gobernanza más amplias para garantizar el cumplimiento de la normativa.
Analizar el tamaño y la relevancia del conjunto de datos antes de aplicar TTL analyze-dataset-size
Antes de aplicar TTL, utilice consultas para analizar el tamaño y la relevancia del conjunto de datos. Ejecute consultas de destino (como el recuento de registros dentro de intervalos de fechas específicos) para obtener una vista previa del impacto de varios valores TTL. A continuación, utilice esta información para elegir un período de retención óptimo que equilibre la utilidad de los datos y la rentabilidad.
La ejecución de consultas de destino ayuda a determinar la cantidad de datos que se retendrán o eliminarán en diferentes configuraciones de TTL. Por ejemplo, la siguiente consulta SQL cuenta el número de registros creados en los últimos 30 días:
SELECT COUNT(1) FROM [datasetName] WHERE timestamp > date_sub(now(), INTERVAL 30 DAY);
La ejecución de consultas similares para diferentes intervalos de tiempo ayuda a validar la configuración de TTL y a garantizar que equilibran la eficacia del almacenamiento y la accesibilidad de los datos.
Introducción a la administración de TTL
Antes de poder evaluar, establecer y administrar la retención de conjuntos de datos de eventos de experiencia mediante la API del servicio de catálogo, debe saber cómo dar formato a las solicitudes correctamente. Esto incluye conocer las rutas de API, proporcionar los encabezados necesarios y dar formato a las cargas útiles de solicitud. Consulte la Guía de introducción a la API del servicio de catálogo para obtener esta información esencial.
Compruebe las restricciones TTL check-ttl-constraints
Utilice el extremo de la API de higiene de datos /ttl/{DATASET_ID}
para ayudar a planificar las configuraciones de TTL. Este extremo devuelve los valores TTL mínimo y máximo admitidos para su organización, junto con un valor recomendado (defaultValue
) para el tipo de conjunto de datos.
Consulte la documentación de la API de higiene de datos de Adobe Developer para obtener más información.
Para comprobar el TTL aplicado actualmente a un conjunto de datos, realice una petición GET al extremo Catalog Service API /dataSets/{DATASET_ID}
en su lugar.
https://platform.adobe.io/data/foundation/catalog
. La ruta de acceso base para la API de higiene de datos es: https://platform.adobe.io/data/core/hygiene
Formato de API
GET /ttl/{DATASET_ID}
{DATASET_ID}
/datasets
. Consulte la guía de API de objetos de catálogo para obtener instrucciones sobre el filtrado de respuestas para conjuntos de datos relevantes.Solicitud
La siguiente solicitud recupera las restricciones TTL de su organización para un conjunto de datos concreto.
curl -X GET \
'https://platform.adobe.io/data/foundation/catalog/ttl/{DATASET_ID}' \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-H 'x-sandbox-name: {SANDBOX_NAME}'
-H 'x-sandbox-id: {SANDBOX_ID}'
Respuesta
Una respuesta correcta devuelve los valores TTL recomendados, máximos y mínimos en función de los derechos de su organización, junto con un TTL sugerido (defaultValue
) para el conjunto de datos. Este(a) defaultValue
es una duración TTL recomendada, solamente se proporciona a modo de guía. No se aplica a menos que usted lo configure explícitamente. La respuesta no incluye ningún valor TTL personalizado que ya se pueda establecer. Para ver el TTL actual de un conjunto de datos, use el extremo de GET /catalog/dataSets/{DATASET_ID}
.
code language-json |
---|
|
defaultValue
maxValue
P10Y
).minValue
P30D
).Cómo comprobar los valores TTL aplicados check-applied-ttl-values
Para comprobar el valor TTL actual que se ha aplicado a un conjunto de datos, utilice la siguiente llamada de API:
GET /dataSets/{DATASET_ID}
Esta llamada devuelve el objeto ttlValue
actual (si está establecido) en la sección extensions.adobe_lakeHouse.rowExpiration
.
Solicitud
La siguiente solicitud recupera el valor TTL de su organización para un conjunto de datos concreto.
curl -X GET \
https://platform.adobe.io/data/foundation/catalog/dataSets/{DATASET_ID} \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-H 'x-sandbox-name: {SANDBOX_NAME}'
Respuesta
Una respuesta correcta incluye el objeto extensions
, que contiene la configuración TTL actual aplicada al conjunto de datos. El ejemplo de respuesta siguiente se trunca por su brevedad.
{
"{DATASET_ID}": {
"name": "Acme Sales Data",
"description": "This dataset contains sales transaction records for Acme Corporation.",
"imsOrg": "{ORG_ID}",
"sandboxId": "{SANDBOX_ID}",
"extensions": {
"adobe_lakeHouse": {
"rowExpiration": {
"ttlValue": "P3M",
}
}
}
...
}
}
Establecer o actualizar el TTL para un conjunto de datos set-update-ttl
https://ns.adobe.com/xdm/data/time-series
).meta:extends
. Consulte la Documentación del extremo del esquema para obtener instrucciones sobre cómo hacerlo.Puede configurar la retención de conjuntos de datos de evento de experiencia estableciendo un TTL nuevo o actualizando uno existente mediante el mismo método de API. Use una petición PATCH al extremo /v2/datasets/{DATASET_ID}
para aplicar o ajustar el TTL.
Formato de API
PATCH /v2/datasets/{DATASET_ID}
{DATASET_ID}
Solicitud
En el ejemplo siguiente, ttlValue
está establecido en P3M
. Esto significa que los registros con más de tres meses se eliminan automáticamente. Ajuste el período de retención para adaptarlo a sus necesidades empresariales (por ejemplo, P6M
durante seis meses o P12M
durante un año).
curl -X PATCH \
'https://platform.adobe.io/data/foundation/catalog/v2/datasets/{DATASET_ID}' \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'Content-Type: application/json' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-d '{
"extensions": {
"adobe_lakeHouse": {
"rowExpiration": {
"ttlValue": "P3M" // A 3 month retention period
}
}
}
}
rowExpiration.ttlValue
P3M
durante 3 meses o P30D
durante 30 días).Respuesta
Una respuesta correcta devuelve una referencia al conjunto de datos actualizado, pero no incluye explícitamente la configuración de TTL. Para confirmar la configuración de TTL, realice una solicitud de seguimiento GET /dataSets/{DATASET_ID}
.
[
"@/dataSets/{DATASET_ID}"
]
Ejemplo de escenario example-scenario
Considere una plataforma de streaming de vídeo que inicialmente establece el TTL en tres meses para garantizar nuevos datos de participación para la personalización. Sin embargo, si un análisis posterior revela que las interacciones más antiguas siguen proporcionando perspectivas valiosas, el TTL se puede ampliar a seis meses con la siguiente solicitud:
curl -X PATCH \
'https://platform.adobe.io/data/foundation/catalog/v2/datasets/{DATASET_ID}' \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'Content-Type: application/json' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-d '{
"extensions": {
"adobe_lakeHouse": {
"rowExpiration": {
"ttlValue": "P6M" // Extend to 6 months
}
}
}
}
Preguntas frecuentes sobre política de retención de conjuntos de datos faqs
Estas preguntas frecuentes abarcan preguntas prácticas acerca de los trabajos de retención de conjuntos de datos, los efectos inmediatos de los cambios de TTL, las opciones de recuperación y cómo difieren los períodos de retención en los servicios de Platform.
¿A qué tipos de conjuntos de datos puedo aplicar reglas de política de retención?
Puede aplicar políticas de retención basadas en TTL a cualquier conjunto de datos que utilice el comportamiento de series temporales. Esto incluye conjuntos de datos basados en la clase ExperienceEvent de XDM estándar, así como esquemas personalizados diseñados para capturar datos de series temporales.
La caducidad a nivel de fila requiere las siguientes condiciones técnicas:
- El esquema debe diseñarse para capturar datos de series temporales.
- El esquema debe incluir un campo de marca de tiempo utilizado para evaluar la caducidad.
- El conjunto de datos debe almacenar datos de nivel de evento, que generalmente utilizan o amplían la clase XDM ExperienceEvent.
- El conjunto de datos debe estar registrado en el servicio de catálogo, ya que la configuración de TTL se aplica a través de
extensions.adobe_lakeHouse.rowExpiration
. - Los valores TTL deben utilizar el formato de duración ISO-8601 (por ejemplo,
P30D
,P6M
,P1Y
).
¿Cuándo eliminará el trabajo de retención de conjuntos de datos los datos de los servicios de lago de datos?
¿Puedo establecer diferentes políticas de retención para el lago de datos y los servicios de perfil?
note note |
---|
NOTE |
El período de retención del servicio de perfil solo se puede actualizar una vez cada 30 días. |
Sí, puede establecer diferentes políticas de retención para el lago de datos y los servicios de perfil. El período de retención del almacén de perfiles puede ser más corto o más largo que el período de retención del lago de datos, según las necesidades de la organización.
¿Cómo puedo comprobar el uso actual de mi conjunto de datos?
Puede comprobar el tamaño de almacenamiento del conjunto de datos más reciente para el lago de datos y los almacenes de perfiles como métricas independientes en el área de trabajo de inventario Conjunto de datos. Ordene las columnas para identificar los conjuntos de datos más grandes y comprobar que se aplican las políticas de retención.
Para el uso a nivel de zona protegida, consulte el Panel de uso de licencias. Consulte la documentación de uso de licencias para obtener más detalles.
¿Cómo puedo verificar si el trabajo de retención de datos se realizó correctamente?
Puede comprobar el último trabajo de retención de datos comprobando su marca de tiempo en la interfaz de usuario de configuración de retención de conjuntos de datos o en la página Inventario de datos.
También puede realizar una petición GET al siguiente extremo:
GET https://platform.adobe.io/data/foundation/catalog/dataSets/{DATASET_ID}
La respuesta incluye la propiedad extensions.adobe_lakeHouse.rowExpiration.lastCompleted
, que indica la marca de tiempo Unix (en milisegundos) de cuando se completó el trabajo TTL más reciente.
Los informes de uso del conjunto de datos histórico no están disponibles actualmente.
¿Puedo recuperar los datos eliminados?
¿Cuál es el TTL mínimo que puedo configurar en un conjunto de datos de evento de experiencia de lago de datos?
¿Qué sucede si necesito conservar algunos campos del lago de datos más tiempo del que permite mi política de TTL?
Utilice Data Distiller para retener campos específicos que superen el TTL del conjunto de datos y, al mismo tiempo, no sobrepasen los límites de utilización. Cree un trabajo que escriba con regularidad solo los campos necesarios en un conjunto de datos derivado. Este flujo de trabajo garantiza el cumplimiento de un TTL más corto, al tiempo que conserva los datos esenciales para un uso prolongado.
Para obtener más información, consulte la Guía de creación de conjuntos de datos derivados con SQL.
Próximos pasos next-steps
Ahora que ha aprendido a administrar la configuración de TTL para la caducidad de nivel de fila, revise la siguiente documentación para comprender mejor la administración de TTL:
- Trabajos de retención: aprenda a programar y automatizar las caducidades de los conjuntos de datos en la interfaz de usuario de Experience Platform con la guía de la interfaz de usuario del ciclo vital de datos, o compruebe las configuraciones de retención de conjuntos de datos y compruebe que se eliminan los registros caducados.
- Guía de extremo de API de caducidad de conjuntos de datos: Descubra cómo eliminar conjuntos de datos completos en lugar de solo filas. Aprenda a programar, administrar y automatizar la caducidad de los conjuntos de datos mediante la API para garantizar una retención de datos eficiente.
- Información general sobre políticas de uso de datos: Aprenda a alinear su estrategia de retención de datos con requisitos de cumplimiento más amplios y restricciones de uso de marketing.