Snowflake source de diffusion en continu

Last update: Tue Jul 16 2024 00:00:00 GMT+0000 (Coordinated Universal Time)

Rubriques :

Créé pour :

Développeur

IMPORTANT

La source de diffusion Snowflake est en version bêta. Pour plus d’informations sur l’utilisation de sources étiquetées bêta, consultez la Présentation des sources.
La source de diffusion en continu Snowflake est disponible dans l’API pour les utilisateurs qui ont acheté Real-Time Customer Data Platform Ultimate.

Adobe Experience Platform permet d’ingérer des données à partir de sources externes tout en vous offrant la possibilité de structurer, d’étiqueter et d’améliorer les données entrantes à l’aide des services de Platform. Vous pouvez ingérer des données provenant de diverses sources telles que les applications Adobe, le stockage dans le cloud, les bases de données, etc.

Experience Platform prend en charge la diffusion en continu de données à partir d’une base de données Snowflake.

Présentation de la source de diffusion en continu Snowflake

La source de diffusion en continu Snowflake fonctionne en chargeant des données en exécutant régulièrement une requête SQL et en créant un enregistrement de sortie pour chaque ligne de l’ensemble obtenu.

En utilisant Kafka Connect, la source de diffusion Snowflake effectue le suivi des derniers enregistrements qu’elle reçoit de chaque table, de sorte qu’elle puisse commencer à l’emplacement correct pour l’itération suivante. La source utilise cette fonctionnalité pour filtrer les données et obtenir uniquement les lignes mises à jour d’un tableau à chaque itération.

Conditions préalables

La section suivante décrit les étapes préalables à suivre pour que vous puissiez diffuser des données de votre base de données Snowflake vers l’Experience Platform :

Collecter les informations d’identification requises

Pour que Flow Service se connecte à Snowflake, vous devez fournir les propriétés de connexion suivantes :

Informations d’identification

Description

account

Nom complet du compte associé à votre compte Snowflake. Un nom de compte Snowflake entièrement qualifié inclut le nom de votre compte, votre région et votre plateforme cloud. Par exemple : cj12345.east-us-2.azure. Pour plus d'informations sur les noms de compte, consultez cet [Snowflake document on account identifiers] (https://docs.snowflake.com/en/user-guide/admin-account-identifier.html).

warehouse

L’entrepôt Snowflake gère le processus d’exécution de requête pour l’application. Chaque entrepôt Snowflake est indépendant l’un de l’autre et doit être accessible individuellement lors de la transmission de données à Platform.

database

La base de données Snowflake contient les données que vous souhaitez importer dans Platform.

username

Nom d’utilisateur du compte Snowflake.

password

Mot de passe du compte utilisateur Snowflake.

role

(Facultatif) Rôle personnalisé pouvant être fourni à un utilisateur, pour une connexion donnée. Si elle n’est pas fournie, cette valeur est définie par défaut sur public.

connectionSpec.id

La spécification de connexion renvoie les propriétés du connecteur d’une source, y compris les spécifications d’authentification liées à la création des connexions de base et source. L’ID de spécification de connexion pour Snowflake est 51ae16c2-bdad-42fd-9fce-8d5dfddaf140.

Configuration des paramètres des rôles configure-role-settings

Vous devez configurer des privilèges sur un rôle, même si le rôle public par défaut est attribué, pour permettre à votre connexion source d’accéder à la base de données, au schéma et à la table Snowflake appropriés. Les différents privilèges pour différentes entités Snowflake sont les suivants :

Snowflake entité

Privilège du rôle Require

Entrepôt

OPÉRATION, UTILISATION

Base de données

UTILISATION

Schéma

UTILISATION

Tableau

SELECT

NOTE

La reprise automatique et la suspension automatique doivent être activées dans la configuration avancée de votre entrepôt.

Pour plus d’informations sur la gestion des rôles et des privilèges, reportez-vous à la [Snowflake référence API] (https://docs.snowflake.com/en/sql-reference/sql/grant-privilege).

Limites et questions fréquentes limitations-and-frequently-asked-questions

Le débit de données de la source Snowflake est de 2 000 enregistrements par seconde.
Les tarifs peuvent varier en fonction de la durée d’activité d’un entrepôt et de sa taille. Pour l’intégration de la source Snowflake, le plus petit entrepôt x-petit est suffisant. Il est conseillé d’activer la suspension automatique afin que l’entrepôt puisse être suspendu seul lorsqu’il n’est pas utilisé.
La source Snowflake interroge la base de données pour obtenir de nouvelles données toutes les 10 secondes.
Options de configuration :
- Vous pouvez activer un indicateur booléen backfill pour votre source Snowflake lors de la création d’une connexion source.
  - Si le renvoi est défini sur true, la valeur de timestamp.initial est définie sur 0. Cela signifie que les données dont la colonne d’horodatage est supérieure à 0 heure sont récupérées.
  - Si le renvoi est défini sur false, la valeur de timestamp.initial est définie sur -1. Cela signifie que les données dont la colonne d’horodatage est supérieure à l’heure actuelle (l’heure à laquelle la source commence l’ingestion) sont récupérées.
- La colonne d’horodatage doit être formatée comme type : TIMESTAMP_LTZ ou TIMESTAMP_NTZ. Si la colonne d’horodatage est définie sur TIMESTAMP_NTZ, le fuseau horaire correspondant dans lequel les valeurs sont stockées doit être transmis via le paramètre timezoneValue . Si elle n’est pas fournie, la valeur est définie par défaut sur UTC.
  - TIMESTAMP_TZ ne peut pas être utilisé dans une colonne d’horodatage ou dans un mappage.

Étapes suivantes

Le tutoriel suivant explique comment connecter votre source de diffusion en continu Snowflake à Experience Platform à l’aide de l’API :

recommendation-more-help

337b99bb-92fb-42ae-b6b7-c7042161d089