[Ultimate]{class="badge positive"}
Snowflake origen de flujo
Adobe Experience Platform permite la ingesta de datos desde fuentes externas, al tiempo que le ofrece la capacidad de estructurar, etiquetar y mejorar los datos entrantes mediante los servicios de Platform. Puede introducir datos de una variedad de fuentes, como aplicaciones de Adobe, almacenamiento basado en la nube, bases de datos y muchas otras.
El Experience Platform es compatible con la transmisión de datos desde una base de datos Snowflake.
Explicación del origen de flujo continuo Snowflake
El origen de flujo continuo Snowflake funciona cargando datos ejecutando periódicamente una consulta SQL y creando un registro de salida para cada fila del conjunto resultante.
Utilizando Kafka Connect, el origen de flujo Snowflake realiza un seguimiento del último registro que recibe de cada tabla, de modo que pueda iniciarse en la ubicación correcta para la siguiente iteración. El origen utiliza esta funcionalidad para filtrar los datos y obtener solo las filas actualizadas de una tabla en cada iteración.
Requisitos previos
En la siguiente sección se describen los pasos necesarios que se deben seguir para poder transmitir datos de la base de datos Snowflake al Experience Platform:
Actualice la lista de permitidos de direcciones IP
Se debe agregar una lista de direcciones IP a una lista de permitidos antes de trabajar con conectores de origen. Si no se agregan las direcciones IP específicas de la región a la lista de permitidos, pueden producirse errores o no rendimiento al utilizar fuentes. Consulte la página lista de permitidos de direcciones IP para obtener más información.
La siguiente documentación proporciona información sobre cómo conectar Amazon Redshift a Platform mediante API o la interfaz de usuario:
Recopilar credenciales necesarias
Para que Flow Service se conecte con Snowflake, debe proporcionar las siguientes propiedades de conexión:
account
El identificador de cuenta completo (nombre de cuenta o localizador de cuentas) de su cuenta Snowflake, anexado con el sufijo snowflakecomputing.com
. El identificador de cuenta puede tener diferentes formatos:
- {ORG_NAME}-{ACCOUNT_NAME}.snowflakecomputing.com (p. ej.
acme-abc12345.snowflakecomputing.com
) - {ACCOUNT_LOCATOR}.{CLOUD_REGION_ID}.snowflakecomputing.com (p. ej.
acme12345.ap-southeast-1.snowflakecomputing.com
) - {ACCOUNT_LOCATOR}.{CLOUD_REGION_ID}.{CLOUD}.snowflakecomputing.com (p. ej.
acme12345.east-us-2.azure.snowflakecomputing.com
)
Para obtener más información, lea Snowflake document on account identifiers.
warehouse
database
username
password
role
public
.connectionSpec.id
51ae16c2-bdad-42fd-9fce-8d5dfddaf140
.Configurar las opciones de rol configure-role-settings
Debe configurar privilegios en un rol, incluso si se asigna el rol público predeterminado, para permitir que la conexión de origen acceda a la base de datos, esquema y tabla Snowflake correspondiente. Los distintos privilegios para diferentes entidades de Snowflake son los siguientes:
Para obtener más información sobre la administración de roles y privilegios, consulte la Snowflake referencia de API.
Limitaciones y preguntas más frecuentes limitations-and-frequently-asked-questions
-
El rendimiento de datos para el origen de Snowflake es de 2000 registros por segundo.
-
Los precios pueden variar según la cantidad de tiempo que un almacén esté activo y el tamaño del almacén. Para la integración de origen de Snowflake, el almacén x-small de menor tamaño es suficiente. Se recomienda habilitar la suspensión automática para que el almacén pueda suspender por sí solo cuando no esté en uso.
-
El origen Snowflake sondea la base de datos en busca de nuevos datos cada 10 segundos.
-
Opciones de Configuration:
-
Puede habilitar un indicador booleano
backfill
para su origen Snowflake al crear una conexión de origen.- Si el relleno se establece en true, el valor de timestamp.initial se establece en 0. Esto significa que se recuperan los datos con una columna de marca de tiempo mayor que 0 epoch time.
- Si el relleno se establece en False, el valor de timestamp.initial se establece en -1. Esto significa que se recuperan datos con una columna de marca de tiempo mayor que la hora actual (la hora en la que el origen comienza a ingerir).
-
La columna de marca de tiempo debe tener el formato de tipo:
TIMESTAMP_LTZ
oTIMESTAMP_NTZ
. Si la columna de marca de tiempo se establece enTIMESTAMP_NTZ
, la zona horaria correspondiente en la que se almacenan los valores se debe pasar a través del parámetrotimezoneValue
. Si no se proporciona, el valor predeterminado será UTC.TIMESTAMP_TZ
no se puede usar en una columna de marca de tiempo o en una asignación.
-
Pasos siguientes
El siguiente tutorial proporciona pasos sobre cómo conectar el origen de flujo de Snowflake al Experience Platform mediante la API: