[Beta]{class="badge informative"} [Ultimate]{class="badge positive"}
Azure Databricks
-
Die Azure Databricks ist im Quellkatalog für Benutzende verfügbar, die Real-Time CDP Ultimate erworben haben.
-
Die Azure Databricks-Quelle befindet sich in der Beta-Phase. Weitere Informationen zur Verwendung von Betagekennzeichneten Quellen finden Sieden „Nutzungsbedingungen“ in der Quellenübersicht .
Azure Databricks ist eine Cloud-basierte Plattform für Datenanalyse, maschinelles Lernen und KI. Sie können Databricks für die Integration mit Azure verwenden und eine ganzheitliche Umgebung für das skalierte Erstellen, Bereitstellen und Verwalten von Datenlösungen bereitstellen.
Verwenden Sie die Databricks, um Ihr Konto zu verbinden und Ihre Databricks Daten in Adobe Experience Platform aufzunehmen.
Voraussetzungen
Führen Sie die erforderlichen Schritte aus, um Ihr Databricks-Konto erfolgreich mit Experience Platform zu verbinden.
Abrufen Ihrer Container-Anmeldeinformationen
Rufen Sie Ihre Experience Platform Azure Blob Storage-Anmeldeinformationen ab, damit Ihr Databricks-Konto später darauf zugreifen kann.
Um Ihre Anmeldeinformationen abzurufen, stellen Sie eine GET-Anfrage an den /credentials
-Endpunkt der Connectors-API.
API-Format
GET /data/foundation/connectors/landingzone/credentials?type=dlz_databricks_source
Anfrage
Mit der folgenden Anfrage werden die Anmeldeinformationen für Ihr Experience Platform-Azure Blob Storage abgerufen.
code language-shell |
---|
|
Antwort
Bei einer erfolgreichen Antwort werden Ihre Anmeldeinformationen (containerName
, SASToken
, storageAccountName
) zur späteren Verwendung in Apache Spark Konfiguration für Databricks bereitgestellt.
code language-json |
---|
|
table 0-row-2 1-row-2 2-row-2 3-row-2 4-row-2 5-row-2 | |
---|---|
Eigenschaft | Beschreibung |
containerName |
Der Name Ihres Azure Blob Storage. Sie verwenden diesen Wert später, wenn Sie die Apache Spark für Databricks fertig stellen. |
SASToken |
Das Shared Access Signature Token für Ihre Azure Blob Storage. Diese Zeichenfolge enthält alle Informationen, die zum Autorisieren einer Anfrage erforderlich sind. |
storageAccountName |
Der Name Ihres Speicherkontos. |
SASUri |
Der Shared Access Signature-URI für Ihre Azure Blob Storage. Diese Zeichenfolge ist eine Kombination aus dem URI zum Azure Blob Storage, für den Sie authentifiziert werden, und dem entsprechenden SAS-Token. |
expiryDate |
Das Datum, an dem Ihr SAS-Token abläuft. Sie müssen Ihr Token vor dem Ablaufdatum aktualisieren, um es weiterhin in Ihrer Anwendung zum Hochladen von Daten in die Azure Blob Storage verwenden zu können. Wenn Sie Ihr Token nicht vor dem angegebenen Ablaufdatum manuell aktualisieren, wird es automatisch aktualisiert und ein neues Token bereitgestellt, wenn der Aufruf der GET-Anmeldeinformationen ausgeführt wird. |
Aktualisieren von Anmeldeinformationen
Um Ihre Anmeldeinformationen zu aktualisieren, stellen Sie eine POST-Anfrage und nehmen Sie action=refresh
als Abfrageparameter auf.
API-Format
POST /data/foundation/connectors/landingzone/credentials?type=dlz_databricks_source&action=refresh
Anfrage
Die folgende Anfrage aktualisiert die Anmeldeinformationen für Ihr Azure Blob Storage.
code language-shell |
---|
|
Antwort
Eine erfolgreiche Antwort gibt Ihre neuen Anmeldeinformationen zurück.
code language-json |
---|
|
Konfigurieren des Zugriffs auf Ihre Azure Blob Storage
-
Wenn Ihr Cluster beendet wurde, startet der Service ihn während einer Flussausführung automatisch neu. Sie müssen jedoch sicherstellen, dass Ihr Cluster beim Erstellen einer Verbindung oder eines Datenflusses aktiv ist. Darüber hinaus muss Ihr Cluster aktiv sein, wenn Sie Aktionen wie Datenvorschau oder Exploration durchführen, da diese Aktionen nicht zum automatischen Neustart eines beendeten Clusters führen können.
-
Ihr Azure-Container enthält einen Ordner mit dem Namen
adobe-managed-staging
. Um die nahtlose Aufnahme von Daten zu gewährleisten (nicht ändern Sie diesen Ordner.
Als Nächstes müssen Sie sicherstellen, dass Ihr Databricks-Cluster Zugriff auf das Experience Platform-Azure Blob Storage hat. Dabei können Sie Azure Blob Storage als Zwischenspeicherort zum Schreiben delta lake Tabellendaten verwenden.
Um Zugriff zu gewähren, müssen Sie im Rahmen Ihrer Databricks-Konfiguration ein SAS-Token auf dem Apache Spark-Cluster konfigurieren.
Wählen Sie in Ihrer Databricks die Option Advanced options aus und geben Sie dann Folgendes in das Spark config Eingabefeld ein.
fs.azure.sas.{CONTAINER_NAME}.{STORAGE-ACCOUNT}.blob.core.windows.net {SAS-TOKEN}
Wenn keine Informationen bereitgestellt werden, schlägt die Kopieraktivität im Flusslauf fehl und gibt den folgenden Fehler zurück:
Unable to access container '{CONTAINER_NAME}' in account '{STORAGE_ACCOUNT}.blob.core.windows.net' using anonymous credentials. No credentials found in the configuration. Public access is not permitted on this storage account.
Verbinden von Databricks mit Experience Platform
Nachdem Sie die erforderlichen Schritte ausgeführt haben, können Sie nun fortfahren und Ihr Databricks-Konto mit Experience Platform verbinden: