Habilite la captura de datos modificados para las conexiones de origen en la API
Utilice la captura de datos modificados en las fuentes de Adobe Experience Platform para mantener los sistemas de origen y destino sincronizados en tiempo casi real.
Experience Platform admite actualmente copia de datos incremental, que transfiere periódicamente registros recién creados o actualizados del sistema de origen a los conjuntos de datos ingeridos. Este método se basa en una columna de marca de tiempo para realizar el seguimiento de los cambios, pero no detecta las eliminaciones, lo que puede provocar incoherencias en los datos a lo largo del tiempo.
Por el contrario, change data capture captura y aplica inserciones, actualizaciones y eliminaciones en tiempo casi real. Este completo seguimiento de cambios garantiza que los conjuntos de datos permanezcan totalmente alineados con el sistema de origen y proporciona un historial de cambios completo, más allá de lo que admite la copia incremental. Sin embargo, las operaciones de eliminación requieren una consideración especial, ya que afectan a todas las aplicaciones que utilizan los conjuntos de datos de destinatario.
Para cambiar la captura de datos en Experience Platform se requiere Data Mirror con esquemas basados en modelos (también denominados esquemas relacionales). Puede proporcionar datos de cambio a Data Mirror de dos formas:
- Seguimiento manual de cambios: incluya una columna
_change_request_type
en el conjunto de datos para los orígenes que no generan de forma nativa registros de captura de datos modificados - Exportaciones nativas de captura de datos modificados: utilice registros de captura de datos modificados exportados directamente desde el sistema de origen
Ambos enfoques requieren Data Mirror con esquemas basados en modelos para preservar las relaciones y hacer cumplir la exclusividad.
Data Mirror con esquemas basados en modelos
Data Mirror utiliza esquemas basados en modelos para ampliar la captura de datos modificados y habilitar funciones avanzadas de sincronización de bases de datos. Para obtener una descripción general de Data Mirror, consulte Información general de Data Mirror.
Los esquemas basados en modelos extienden Experience Platform para aplicar la exclusividad de clave principal, realizar un seguimiento de los cambios de nivel de fila y definir relaciones de nivel de esquema. Con la captura de datos modificados, aplican inserciones, actualizaciones y eliminaciones directamente en el lago de datos, lo que reduce la necesidad de Extraer, Transformar, Cargar (ETL) o reconciliación manual.
Consulte Información general sobre esquemas basados en modelos para obtener más información.
Requisitos de esquema basados en modelos para la captura de datos modificados
Antes de utilizar un esquema basado en modelos con captura de datos modificados, configure los siguientes identificadores:
- Identifique de forma exclusiva cada registro con una clave principal.
- Aplicar actualizaciones en secuencia utilizando un identificador de versión.
- Para los esquemas de series temporales, añada un identificador de marca de tiempo.
Control de gestión de columnas control-column-handling
Utilice la columna _change_request_type
para especificar cómo se debe procesar cada fila:
u
— actualizar (valor predeterminado si la columna está ausente)d
— eliminar
Esta columna solo se evalúa durante la ingesta y no se almacena ni asigna a campos XDM.
Flujo de trabajo workflow
Para habilitar la captura de datos de cambio con un esquema basado en modelos:
-
Cree un esquema basado en modelos.
-
Añada los descriptores necesarios:
- Descriptor de clave principal
- Descriptor de versión
- Descriptor de marca de tiempo (solo series de tiempo)
-
Cree un conjunto de datos a partir del esquema y habilite la captura de datos modificados.
-
Solo para la ingesta basada en archivos: agregue la columna
_change_request_type
a los archivos de origen si necesita especificar explícitamente operaciones de eliminación. Las configuraciones de exportación de CDC administran esto automáticamente para los orígenes de base de datos. -
Complete la configuración de la conexión de origen para habilitar la ingesta.
_change_request_type
solo es necesaria para orígenes basados en archivos (Amazon S3, Azure Blob, Google Cloud Storage, SFTP) cuando desea controlar explícitamente el comportamiento de cambios en el nivel de fila. Para las fuentes de base de datos con capacidades nativas de CDC, las operaciones de cambio se gestionan automáticamente mediante configuraciones de exportación de CDC. La ingesta basada en archivos asume las operaciones de actualización de forma predeterminada; solo es necesario añadir esta columna si desea especificar operaciones de eliminación en las cargas de archivos.Proporcionar datos de cambio para orígenes basados en archivos file-based-sources
Para los orígenes basados en archivos (Amazon S3, Azure Blob, Google Cloud Storage y SFTP), incluya una columna _change_request_type
en los archivos.
Use los valores de _change_request_type
definidos en la sección Control column handling anterior.
_change_request_type
con u
(actualización) o d
(eliminación) para validar las capacidades de seguimiento de cambios. Por ejemplo, la función Campañas orquestadas de Adobe Journey Optimizer requiere esta columna para habilitar la opción "Campaña orquestada" y permitir la selección de conjuntos de datos para la segmentación. Los requisitos de validación específicos de la aplicación pueden variar.Siga los pasos específicos de la fuente a continuación.
Fuentes de almacenamiento en nube cloud-storage-sources
Habilite la captura de datos modificados para las fuentes de almacenamiento en la nube siguiendo estos pasos:
-
Cree una conexión base para el origen:
table 0-row-2 1-row-2 2-row-2 3-row-2 4-row-2 Fuente Guía de conexión base Amazon S3 Crear una Amazon S3 conexión base Azure Blob Crear una Azure Blob conexión base Google Cloud Storage Crear una Google Cloud Storage conexión base SFTP Crear una SFTP conexión base -
Crear una conexión de origen para un almacenamiento en la nube.
Todos los orígenes de almacenamiento en la nube utilizan el mismo formato de columna _change_request_type
descrito en la sección Orígenes basados en archivos anterior.
Orígenes de base de datos database-sources
Azure Databricks
Para usar la captura de datos modificados con Azure Databricks, debe habilitar cambiar la fuente de datos en las tablas de origen y configurar Data Mirror con esquemas basados en modelos en Experience Platform.
Utilice los siguientes comandos para habilitar el cambio de fuente de datos en las tablas:
Nueva tabla
Para aplicar el cambio de fuente de datos a una nueva tabla, debe establecer la propiedad de tabla delta.enableChangeDataFeed
en TRUE
en el comando CREATE TABLE
.
CREATE TABLE student (id INT, name STRING, age INT) TBLPROPERTIES (delta.enableChangeDataFeed = true)
Tabla existente
Para aplicar el cambio de fuente de datos a una tabla existente, debe establecer la propiedad de tabla delta.enableChangeDataFeed
en TRUE
en el comando ALTER TABLE
.
ALTER TABLE myDeltaTable SET TBLPROPERTIES (delta.enableChangeDataFeed = true)
Todas las tablas nuevas
Para aplicar el cambio de fuente de datos a todas las tablas nuevas, debe establecer las propiedades predeterminadas en TRUE
.
set spark.databricks.delta.properties.defaults.enableChangeDataFeed = true;
Para obtener más información, lea la Azure Databricks guía sobre cómo habilitar la fuente de datos para cambios.
Lea la siguiente documentación para ver los pasos que debe seguir para habilitar la captura de datos modificados para la conexión de origen de Azure Databricks:
Data Landing Zone
Para usar la captura de datos modificados con Data Landing Zone, debe habilitar cambiar la fuente de datos en las tablas de origen y configurar Data Mirror con esquemas basados en modelos en Experience Platform.
Lea la siguiente documentación para ver los pasos que debe seguir para habilitar la captura de datos modificados para la conexión de origen de Data Landing Zone:
Google BigQuery
Para usar la captura de datos modificados con Google BigQuery, debe habilitar el historial de cambios en las tablas de origen y configurar Data Mirror con esquemas basados en modelos en Experience Platform.
Para habilitar el historial de cambios en la conexión de origen de Google BigQuery, vaya a la página Google BigQuery en la consola Google Cloud y establezca enable_change_history
en TRUE
. Esta propiedad habilita el historial de cambios para la tabla de datos.
Para obtener más información, lea la guía de instrucciones de lenguaje de definición de datos en GoogleSQL.
Lea la siguiente documentación para ver los pasos que debe seguir para habilitar la captura de datos modificados para la conexión de origen de Google BigQuery:
Snowflake
Para usar la captura de datos modificados con Snowflake, debe habilitar el seguimiento de cambios en las tablas de origen y configurar Data Mirror con esquemas basados en modelos en Experience Platform.
En Snowflake, habilite el seguimiento de cambios usando ALTER TABLE
y estableciendo CHANGE_TRACKING
en TRUE
.
ALTER TABLE mytable SET CHANGE_TRACKING = TRUE
Para obtener más información, lea la Snowflake guía sobre el uso de la cláusula de cambios.
Lea la siguiente documentación para ver los pasos que debe seguir para habilitar la captura de datos modificados para la conexión de origen de Snowflake: