[Beta]{class="badge informative"} [Ultimate]{class="badge positive"}
Azure Databricks
-
El origen Azure Databricks está disponible en el catálogo de orígenes para los usuarios que han adquirido Real-Time CDP Ultimate.
-
El origen Azure Databricks está en la versión beta. Lea los términos y condiciones en la descripción general de orígenes para obtener más información sobre el uso de orígenes etiquetados como beta.
Azure Databricks es una plataforma basada en la nube diseñada para el análisis de datos, el aprendizaje automático y la IA. Puede usar Databricks para integrarse con Azure y proporcionar un entorno holístico para crear, implementar y administrar soluciones de datos a escala.
Use el origen de Databricks para conectar su cuenta e ingerir los datos de Databricks en Adobe Experience Platform.
Requisitos previos
Complete los pasos previos para conectar correctamente su cuenta de Databricks a Experience Platform.
Recuperar las credenciales del contenedor
Recupere sus credenciales de Experience Platform Azure Blob Storage para permitir que su cuenta de Databricks acceda a ella más tarde.
Para recuperar sus credenciales, realice una petición GET al extremo /credentials
de la API Connectors.
Formato de API
GET /data/foundation/connectors/landingzone/credentials?type=dlz_databricks_source
Solicitud
La siguiente solicitud recupera las credenciales de su Experience Platform Azure Blob Storage.
code language-shell |
---|
|
Respuesta
Una respuesta correcta proporciona sus credenciales (containerName
, SASToken
, storageAccountName
) para su uso posterior en la configuración de Apache Spark para Databricks.
code language-json |
---|
|
table 0-row-2 1-row-2 2-row-2 3-row-2 4-row-2 5-row-2 | |
---|---|
Propiedad | Descripción |
containerName |
Nombre de su contenedor Azure Blob Storage. Utilizará este valor más adelante al completar la configuración de Apache Spark para Databricks. |
SASToken |
El token de firma de acceso compartido para su Azure Blob Storage. Esta cadena contiene toda la información necesaria para autorizar una solicitud. |
storageAccountName |
El nombre de su cuenta de almacenamiento. |
SASUri |
URI de firma de acceso compartido para su Azure Blob Storage. Esta cadena es una combinación del URI del Azure Blob Storage para el que se está autenticando y su token SAS correspondiente. |
expiryDate |
La fecha en la que caducará su token SAS. Debe actualizar el token antes de la fecha de caducidad para poder seguir usándolo en la aplicación para cargar datos en Azure Blob Storage. Si no actualiza manualmente el token antes de la fecha de caducidad indicada, se actualizará automáticamente y proporcionará un nuevo token cuando se realice la llamada de credenciales de GET. |
Actualizar las credenciales
Para actualizar sus credenciales, realice una petición POST e incluya action=refresh
como parámetro de consulta.
Formato de API
POST /data/foundation/connectors/landingzone/credentials?type=dlz_databricks_source&action=refresh
Solicitud
La siguiente solicitud actualiza las credenciales de su Azure Blob Storage.
code language-shell |
---|
|
Respuesta
Una respuesta correcta devuelve sus nuevas credenciales.
code language-json |
---|
|
Configure el acceso a su Azure Blob Storage
-
Si el clúster ha finalizado, el servicio lo reiniciará automáticamente durante una ejecución de flujo. Sin embargo, debe asegurarse de que el clúster esté activo al crear una conexión o un flujo de datos. Además, el clúster debe estar activo si realiza acciones como la previsualización o exploración de datos, ya que estas acciones no pueden provocar el reinicio automático de un clúster finalizado.
-
Su contenedor Azure incluye una carpeta llamada
adobe-managed-staging
. Para garantizar la ingesta perfecta de datos, no modifique esta carpeta.
A continuación, debe asegurarse de que el clúster Databricks tenga acceso a la cuenta de Experience Platform Azure Blob Storage. Al hacerlo, puede usar Azure Blob Storage como ubicación provisional para escribir delta lake datos de tabla.
Para proporcionar acceso, debe configurar un token SAS en el clúster Databricks como parte de la configuración Apache Spark.
En la interfaz Databricks, seleccione Advanced options y, a continuación, escriba lo siguiente en el cuadro de entrada Spark config.
fs.azure.sas.{CONTAINER_NAME}.{STORAGE-ACCOUNT}.blob.core.windows.net {SAS-TOKEN}
Si no se proporciona, la actividad de copia en la ejecución del flujo falla y devuelve el siguiente error:
Unable to access container '{CONTAINER_NAME}' in account '{STORAGE_ACCOUNT}.blob.core.windows.net' using anonymous credentials. No credentials found in the configuration. Public access is not permitted on this storage account.
Conectar Databricks a Experience Platform
Ahora que ha completado los pasos previos, puede continuar y conectar su cuenta de Databricks a Experience Platform: