[Beta]{class="badge informative"} [Ultimate]{class="badge positive"}

Azure Databricks

AVAILABILITY
  • El origen Azure Databricks está disponible en el catálogo de orígenes para los usuarios que han adquirido Real-Time CDP Ultimate.

  • El origen Azure Databricks está en la versión beta. Lea los términos y condiciones en la descripción general de orígenes para obtener más información sobre el uso de orígenes etiquetados como beta.

Azure Databricks es una plataforma basada en la nube diseñada para el análisis de datos, el aprendizaje automático y la IA. Puede usar Databricks para integrarse con Azure y proporcionar un entorno holístico para crear, implementar y administrar soluciones de datos a escala.

Use el origen de Databricks para conectar su cuenta e ingerir los datos de Databricks en Adobe Experience Platform.

Requisitos previos

Complete los pasos previos para conectar correctamente su cuenta de Databricks a Experience Platform.

Recuperar las credenciales del contenedor

Recupere sus credenciales de Experience Platform Azure Blob Storage para permitir que su cuenta de Databricks acceda a ella más tarde.

Para recuperar sus credenciales, realice una petición GET al extremo /credentials de la API Connectors.

Formato de API

GET /data/foundation/connectors/landingzone/credentials?type=dlz_databricks_source

Solicitud

La siguiente solicitud recupera las credenciales de su Experience Platform Azure Blob Storage.

Ver ejemplo de solicitud
code language-shell
curl -X GET \
  'https://platform.adobe.io/data/foundation/connectors/landingzone/credentials?type=dlz_databricks_source' \
  -H 'Authorization: Bearer {ACCESS_TOKEN}' \
  -H 'x-api-key: {API_KEY}' \
  -H 'x-gw-ims-org-id: {ORG_ID}' \
  -H 'x-sandbox-name: {SANDBOX_NAME}' \
  -H 'Content-Type: application/json' \

Respuesta

Una respuesta correcta proporciona sus credenciales (containerName, SASToken, storageAccountName) para su uso posterior en la configuración de Apache Spark para Databricks.

Ver ejemplo de respuesta
code language-json
{
    "containerName": "dlz-databricks-container",
    "SASToken": "sv=2020-10-02&si=dlz-b1f4060b-6bbd-4043-9bd9-a5f5be72de30&sr=c&sp=racwdlm&sig=zVQfmuElZJzOKkUk8z5lChrJ3YQUE2h6EShDZOsVeMc%3D",
    "storageAccountName": "sndbxdtlndga8m7ajbvgc64k",
    "SASUri": "https://sndbxdtlndga8m7ajbvgc64k.blob.core.windows.net/dlz-databricks-container?sv=2020-10-02&si=dlz-b1f4060b-6bbd-4043-9bd9-a5f5be72de30&sr=c&sp=racwdlm&sig=zVQfmuElZJzOKkUk8z5lChrJ3YQUE2h6EShDZOsVeMc%3D",
    "expiryDate": "2025-07-05"
}
table 0-row-2 1-row-2 2-row-2 3-row-2 4-row-2 5-row-2
Propiedad Descripción
containerName Nombre de su contenedor Azure Blob Storage. Utilizará este valor más adelante al completar la configuración de Apache Spark para Databricks.
SASToken El token de firma de acceso compartido para su Azure Blob Storage. Esta cadena contiene toda la información necesaria para autorizar una solicitud.
storageAccountName El nombre de su cuenta de almacenamiento.
SASUri URI de firma de acceso compartido para su Azure Blob Storage. Esta cadena es una combinación del URI del Azure Blob Storage para el que se está autenticando y su token SAS correspondiente.
expiryDate La fecha en la que caducará su token SAS. Debe actualizar el token antes de la fecha de caducidad para poder seguir usándolo en la aplicación para cargar datos en Azure Blob Storage. Si no actualiza manualmente el token antes de la fecha de caducidad indicada, se actualizará automáticamente y proporcionará un nuevo token cuando se realice la llamada de credenciales de GET.

Actualizar las credenciales

NOTE
Las credenciales existentes se revocarán una vez que las actualice. Por lo tanto, debe actualizar las configuraciones de Spark en consecuencia cada vez que actualice sus credenciales de almacenamiento. De lo contrario, el flujo de datos fallará.

Para actualizar sus credenciales, realice una petición POST e incluya action=refresh como parámetro de consulta.

Formato de API

POST /data/foundation/connectors/landingzone/credentials?type=dlz_databricks_source&action=refresh

Solicitud

La siguiente solicitud actualiza las credenciales de su Azure Blob Storage.

Ver ejemplo de solicitud
code language-shell
curl -X POST \
  'https://platform.adobe.io/data/foundation/connectors/landingzone/credentials?type=dlz_databricks_source&action=refresh' \
  -H 'Authorization: Bearer {ACCESS_TOKEN}' \
  -H 'x-api-key: {API_KEY}' \
  -H 'x-gw-ims-org-id: {ORG_ID}' \
  -H 'x-sandbox-name: {SANDBOX_NAME}' \
  -H 'Content-Type: application/json' \

Respuesta

Una respuesta correcta devuelve sus nuevas credenciales.

Ver ejemplo de respuesta
code language-json
{
    "containerName": "dlz-databricks-container",
    "SASToken": "sv=2020-10-02&si=dlz-6e17e5d6-de18-4efc-88c7-45f37d242617&sr=c&sp=racwdlm&sig=wvA4K3fcEmqAA%2FPvcMhB%2FA8y8RLwVJ7zhdWbxvT1uFM%3D",
    "storageAccountName": "sndbxdtlndga8m7ajbvgc64k",
    "SASUri": "https://sndbxdtlndga8m7ajbvgc64k.blob.core.windows.net/dlz-databricks-container?sv=2020-10-02&si=dlz-6e17e5d6-de18-4efc-88c7-45f37d242617&sr=c&sp=racwdlm&sig=wvA4K3fcEmqAA%2FPvcMhB%2FA8y8RLwVJ7zhdWbxvT1uFM%3D",
    "expiryDate": "2025-07-20"
}

Configure el acceso a su Azure Blob Storage

IMPORTANT
  • Si el clúster ha finalizado, el servicio lo reiniciará automáticamente durante una ejecución de flujo. Sin embargo, debe asegurarse de que el clúster esté activo al crear una conexión o un flujo de datos. Además, el clúster debe estar activo si realiza acciones como la previsualización o exploración de datos, ya que estas acciones no pueden provocar el reinicio automático de un clúster finalizado.

  • Su contenedor Azure incluye una carpeta llamada adobe-managed-staging. Para garantizar la ingesta perfecta de datos, no modifique esta carpeta.

A continuación, debe asegurarse de que el clúster Databricks tenga acceso a la cuenta de Experience Platform Azure Blob Storage. Al hacerlo, puede usar Azure Blob Storage como ubicación provisional para escribir delta lake datos de tabla.

Para proporcionar acceso, debe configurar un token SAS en el clúster Databricks como parte de la configuración Apache Spark.

En la interfaz Databricks, seleccione Advanced options y, a continuación, escriba lo siguiente en el cuadro de entrada Spark config.

fs.azure.sas.{CONTAINER_NAME}.{STORAGE-ACCOUNT}.blob.core.windows.net {SAS-TOKEN}
Propiedad
Descripción
Nombre del contenedor
El nombre del contenedor. Puede obtener este valor si recupera sus credenciales de Azure Blob Storage.
Cuenta de almacenamiento
El nombre de su cuenta de almacenamiento. Puede obtener este valor si recupera sus credenciales de Azure Blob Storage.
Token de SAS
El token de firma de acceso compartido para su Azure Blob Storage. Puede obtener este valor si recupera sus credenciales de Azure Blob Storage.

Interfaz de usuario de Databricks en Azure.

Si no se proporciona, la actividad de copia en la ejecución del flujo falla y devuelve el siguiente error:

Unable to access container '{CONTAINER_NAME}' in account '{STORAGE_ACCOUNT}.blob.core.windows.net' using anonymous credentials. No credentials found in the configuration. Public access is not permitted on this storage account.

Conectar Databricks a Experience Platform

Ahora que ha completado los pasos previos, puede continuar y conectar su cuenta de Databricks a Experience Platform:

recommendation-more-help
337b99bb-92fb-42ae-b6b7-c7042161d089