Habilite la captura de datos modificados para las conexiones de origen en la API

Utilice la captura de datos modificados en las fuentes de Adobe Experience Platform para mantener los sistemas de origen y destino sincronizados en tiempo casi real.

Experience Platform admite actualmente copia de datos incremental, que transfiere periódicamente registros recién creados o actualizados del sistema de origen a los conjuntos de datos ingeridos. Este método se basa en una columna de marca de tiempo para realizar el seguimiento de los cambios, pero no detecta las eliminaciones, lo que puede provocar incoherencias en los datos a lo largo del tiempo.

Por el contrario, change data capture captura y aplica inserciones, actualizaciones y eliminaciones en tiempo casi real. Este completo seguimiento de cambios garantiza que los conjuntos de datos permanezcan totalmente alineados con el sistema de origen y proporciona un historial de cambios completo, más allá de lo que admite la copia incremental. Sin embargo, las operaciones de eliminación requieren una consideración especial, ya que afectan a todas las aplicaciones que utilizan los conjuntos de datos de destinatario.

Para cambiar la captura de datos en Experience Platform se requiere Data Mirror con esquemas basados en modelos (también denominados esquemas relacionales). Puede proporcionar datos de cambio a Data Mirror de dos formas:

Ambos enfoques requieren Data Mirror con esquemas basados en modelos para preservar las relaciones y hacer cumplir la exclusividad.

Data Mirror con esquemas basados en modelos

AVAILABILITY
Data Mirror y los esquemas basados en modelos están disponibles para los titulares de licencias de campañas orquestadas de Adobe Journey Optimizer. También están disponibles como una versión limitada para los usuarios de Customer Journey Analytics, según su licencia y la habilitación de características. Póngase en contacto con su representante de Adobe para obtener acceso.
NOTE
Usuarios de campañas orquestadas: Use las capacidades de Data Mirror descritas en este documento para trabajar con datos de clientes que mantengan integridad referencial. Incluso si el origen no utiliza el formato de captura de datos modificados, Data Mirror admite funciones relacionales como la aplicación de claves principales, actualizaciones en el nivel de registro y relaciones de esquema. Estas funciones garantizan un modelado de datos coherente y fiable en todos los conjuntos de datos conectados.

Data Mirror utiliza esquemas basados en modelos para ampliar la captura de datos modificados y habilitar funciones avanzadas de sincronización de bases de datos. Para obtener una descripción general de Data Mirror, consulte Información general de Data Mirror.

Los esquemas basados en modelos extienden Experience Platform para aplicar la exclusividad de clave principal, realizar un seguimiento de los cambios de nivel de fila y definir relaciones de nivel de esquema. Con la captura de datos modificados, aplican inserciones, actualizaciones y eliminaciones directamente en el lago de datos, lo que reduce la necesidad de Extraer, Transformar, Cargar (ETL) o reconciliación manual.

Consulte Información general sobre esquemas basados en modelos para obtener más información.

Requisitos de esquema basados en modelos para la captura de datos modificados

Antes de utilizar un esquema basado en modelos con captura de datos modificados, configure los siguientes identificadores:

  • Identifique de forma exclusiva cada registro con una clave principal.
  • Aplicar actualizaciones en secuencia utilizando un identificador de versión.
  • Para los esquemas de series temporales, añada un identificador de marca de tiempo.

Control de gestión de columnas control-column-handling

Utilice la columna _change_request_type para especificar cómo se debe procesar cada fila:

  • u — actualizar (valor predeterminado si la columna está ausente)
  • d — eliminar

Esta columna solo se evalúa durante la ingesta y no se almacena ni asigna a campos XDM.

Flujo de trabajo workflow

Para habilitar la captura de datos de cambio con un esquema basado en modelos:

  1. Cree un esquema basado en modelos.

  2. Añada los descriptores necesarios:

  3. Cree un conjunto de datos a partir del esquema y habilite la captura de datos modificados.

  4. Solo para la ingesta basada en archivos: agregue la columna _change_request_type a los archivos de origen si necesita especificar explícitamente operaciones de eliminación. Las configuraciones de exportación de CDC administran esto automáticamente para los orígenes de base de datos.

  5. Complete la configuración de la conexión de origen para habilitar la ingesta.

NOTE
La columna _change_request_type solo es necesaria para orígenes basados en archivos (Amazon S3, Azure Blob, Google Cloud Storage, SFTP) cuando desea controlar explícitamente el comportamiento de cambios en el nivel de fila. Para las fuentes de base de datos con capacidades nativas de CDC, las operaciones de cambio se gestionan automáticamente mediante configuraciones de exportación de CDC. La ingesta basada en archivos asume las operaciones de actualización de forma predeterminada; solo es necesario añadir esta columna si desea especificar operaciones de eliminación en las cargas de archivos.
IMPORTANT
Se requiere la planificación de la eliminación de datos. Todas las aplicaciones que utilizan esquemas basados en modelos deben comprender las implicaciones de eliminación antes de implementar la captura de datos de cambio. Planifique cómo las eliminaciones afectarán a los conjuntos de datos relacionados, los requisitos de cumplimiento y los procesos descendentes. Consulte consideraciones sobre la higiene de los datos para obtener instrucciones.

Proporcionar datos de cambio para orígenes basados en archivos file-based-sources

IMPORTANT
La captura de datos de cambios basada en archivos requiere Data Mirror con esquemas basados en modelos. Antes de seguir los pasos de formato de archivo siguientes, asegúrese de haber completado el flujo de trabajo de configuración de Data Mirror descrito anteriormente en este documento. Los pasos siguientes describen cómo dar formato a los archivos de datos para incluir la información de seguimiento de cambios que procesará Data Mirror.

Para los orígenes basados en archivos (Amazon S3, Azure Blob, Google Cloud Storage y SFTP), incluya una columna _change_request_type en los archivos.

Use los valores de _change_request_type definidos en la sección Control column handling anterior.

IMPORTANT
Para solo orígenes basados en archivos, ciertas aplicaciones pueden requerir una columna _change_request_type con u (actualización) o d (eliminación) para validar las capacidades de seguimiento de cambios. Por ejemplo, la función Campañas orquestadas de Adobe Journey Optimizer requiere esta columna para habilitar la opción "Campaña orquestada" y permitir la selección de conjuntos de datos para la segmentación. Los requisitos de validación específicos de la aplicación pueden variar.

Siga los pasos específicos de la fuente a continuación.

Fuentes de almacenamiento en nube cloud-storage-sources

Habilite la captura de datos modificados para las fuentes de almacenamiento en la nube siguiendo estos pasos:

  1. Cree una conexión base para el origen:

    table 0-row-2 1-row-2 2-row-2 3-row-2 4-row-2
    Fuente Guía de conexión base
    Amazon S3 Crear una Amazon S3 conexión base
    Azure Blob Crear una Azure Blob conexión base
    Google Cloud Storage Crear una Google Cloud Storage conexión base
    SFTP Crear una SFTP conexión base
  2. Crear una conexión de origen para un almacenamiento en la nube.

Todos los orígenes de almacenamiento en la nube utilizan el mismo formato de columna _change_request_type descrito en la sección Orígenes basados en archivos anterior.

Orígenes de base de datos database-sources

Azure Databricks

Para usar la captura de datos modificados con Azure Databricks, debe habilitar cambiar la fuente de datos en las tablas de origen y configurar Data Mirror con esquemas basados en modelos en Experience Platform.

Utilice los siguientes comandos para habilitar el cambio de fuente de datos en las tablas:

Nueva tabla

Para aplicar el cambio de fuente de datos a una nueva tabla, debe establecer la propiedad de tabla delta.enableChangeDataFeed en TRUE en el comando CREATE TABLE.

CREATE TABLE student (id INT, name STRING, age INT) TBLPROPERTIES (delta.enableChangeDataFeed = true)

Tabla existente

Para aplicar el cambio de fuente de datos a una tabla existente, debe establecer la propiedad de tabla delta.enableChangeDataFeed en TRUE en el comando ALTER TABLE.

ALTER TABLE myDeltaTable SET TBLPROPERTIES (delta.enableChangeDataFeed = true)

Todas las tablas nuevas

Para aplicar el cambio de fuente de datos a todas las tablas nuevas, debe establecer las propiedades predeterminadas en TRUE.

set spark.databricks.delta.properties.defaults.enableChangeDataFeed = true;

Para obtener más información, lea la Azure Databricks guía sobre cómo habilitar la fuente de datos para cambios.

Lea la siguiente documentación para ver los pasos que debe seguir para habilitar la captura de datos modificados para la conexión de origen de Azure Databricks:

Data Landing Zone

Para usar la captura de datos modificados con Data Landing Zone, debe habilitar cambiar la fuente de datos en las tablas de origen y configurar Data Mirror con esquemas basados en modelos en Experience Platform.

Lea la siguiente documentación para ver los pasos que debe seguir para habilitar la captura de datos modificados para la conexión de origen de Data Landing Zone:

Google BigQuery

Para usar la captura de datos modificados con Google BigQuery, debe habilitar el historial de cambios en las tablas de origen y configurar Data Mirror con esquemas basados en modelos en Experience Platform.

Para habilitar el historial de cambios en la conexión de origen de Google BigQuery, vaya a la página Google BigQuery en la consola Google Cloud y establezca enable_change_history en TRUE. Esta propiedad habilita el historial de cambios para la tabla de datos.

Para obtener más información, lea la guía de instrucciones de lenguaje de definición de datos en GoogleSQL.

Lea la siguiente documentación para ver los pasos que debe seguir para habilitar la captura de datos modificados para la conexión de origen de Google BigQuery:

Snowflake

Para usar la captura de datos modificados con Snowflake, debe habilitar el seguimiento de cambios en las tablas de origen y configurar Data Mirror con esquemas basados en modelos en Experience Platform.

En Snowflake, habilite el seguimiento de cambios usando ALTER TABLE y estableciendo CHANGE_TRACKING en TRUE.

ALTER TABLE mytable SET CHANGE_TRACKING = TRUE

Para obtener más información, lea la Snowflake guía sobre el uso de la cláusula de cambios.

Lea la siguiente documentación para ver los pasos que debe seguir para habilitar la captura de datos modificados para la conexión de origen de Snowflake:

recommendation-more-help
337b99bb-92fb-42ae-b6b7-c7042161d089