[Beta]{class="badge informative"} [Ultimate]{class="badge positive"}
Databricks
-
La source Databricks est disponible dans le catalogue des sources pour les utilisateurs qui ont acheté Real-Time CDP Ultimate.
-
La source Databricks est en version Beta. Lisez les termes et conditions dans la présentation des sources pour plus d’informations sur l’utilisation de sources étiquetées bêta.
Databricks est une plateforme cloud conçue pour l’analyse de données, le machine learning et l’IA. Vous pouvez utiliser Databricks pour intégrer et fournir un environnement holistique afin de créer, déployer et gérer des solutions de données à grande échelle.
Utilisez la source de Databricks pour connecter votre compte et ingérer vos données Databricks vers Adobe Experience Platform.
Conditions préalables
Suivez les étapes préalables requises pour connecter votre compte Databricks à Experience Platform.
Récupérer les informations d’identification du conteneur
Récupérez vos informations d’identification Experience Platform Azure Blob Storage pour permettre à votre compte Databricks d’y accéder ultérieurement.
Pour récupérer vos informations d’identification, envoyez une requête GET au point d’entrée /credentials
de l’API Connectors.
Format d’API
GET /data/foundation/connectors/landingzone/credentials?type=dlz_databricks_source
Requête
La requête suivante récupère les informations d’identification de votre Azure Blob Storage Experience Platform.
code language-shell |
---|
|
Réponse
Une réponse réussie fournit vos informations d’identification (containerName
, SASToken
, storageAccountName
) pour une utilisation ultérieure dans Apache Spark configuration pour les Databricks.
code language-json |
---|
|
table 0-row-2 1-row-2 2-row-2 3-row-2 4-row-2 5-row-2 | |
---|---|
Propriété | Description |
containerName |
Nom de votre conteneur Azure Blob Storage. Vous utiliserez cette valeur ultérieurement lors de la configuration de votre Apache Spark pour Databricks. |
SASToken |
Jeton de signature d’accès partagé pour votre Azure Blob Storage. Cette chaîne contient toutes les informations nécessaires pour autoriser une requête. |
storageAccountName |
Nom de votre compte de stockage. |
SASUri |
URI de signature d’accès partagé pour votre Azure Blob Storage. Cette chaîne est une combinaison de l’URI du Azure Blob Storage auquel vous êtes authentifié et de son jeton SAS correspondant. |
expiryDate |
Date d’expiration de votre jeton SAS. Vous devez actualiser votre jeton avant la date d’expiration pour continuer à l’utiliser dans votre application pour charger des données vers le Azure Blob Storage. Si vous n’actualisez pas manuellement votre jeton avant la date d’expiration indiquée, il s’actualisera automatiquement et fournira un nouveau jeton lorsque l’appel des informations d’identification GET sera effectué. |
Actualiser vos informations d’identification
Pour actualiser vos informations d’identification, envoyez une requête POST et incluez action=refresh
comme paramètre de requête.
Format d’API
POST /data/foundation/connectors/landingzone/credentials?type=dlz_databricks_source&action=refresh
Requête
La requête suivante actualise les informations d’identification de votre Azure Blob Storage.
code language-shell |
---|
|
Réponse
Une réponse réussie renvoie vos nouvelles informations d’identification.
code language-json |
---|
|
Configuration de l’accès à votre Azure Blob Storage
-
Si votre cluster a été arrêté, le service le redémarre automatiquement au cours d’une exécution de flux. Cependant, vous devez vous assurer que votre cluster est actif lors de la création d’une connexion ou d’un flux de données. En outre, votre cluster doit être actif si vous effectuez des actions telles que l’aperçu ou l’exploration des données, car ces actions ne peuvent pas inciter au redémarrage automatique d’un cluster arrêté.
-
Votre conteneur Azure comprend un dossier nommé
adobe-managed-staging
. Pour garantir une ingestion transparente des données, ne modifiez pas ce dossier.
Ensuite, vous devez vous assurer que votre cluster Databricks a accès au compte Azure Blob Storage Experience Platform. Ce faisant, vous pouvez utiliser Azure Blob Storage comme emplacement intermédiaire pour l’écriture de données de tableau delta lake.
Pour fournir l’accès, vous devez configurer un jeton SAS sur le cluster Databricks dans le cadre de votre configuration Apache Spark.
Dans l’interface Databricks, sélectionnez Advanced options, puis saisissez ce qui suit dans la zone de saisie Spark config.
fs.azure.sas.{CONTAINER_NAME}.{STORAGE-ACCOUNT}.blob.core.windows.net {SAS-TOKEN}
Si elle n’est pas fournie, l’activité de copie dans l’exécution du flux échoue et renvoie l’erreur suivante :
Unable to access container '{CONTAINER_NAME}' in account '{STORAGE_ACCOUNT}.blob.core.windows.net' using anonymous credentials. No credentials found in the configuration. Public access is not permitted on this storage account.
Connexion de Databricks à Experience Platform
Maintenant que vous avez terminé les étapes préalables requises, vous pouvez procéder et connecter votre compte Databricks à Experience Platform :