Servicio de consultas (Data Distiller) y exportación de conjuntos de datos

Este artículo describe cómo se puede utilizar la combinación de Experience Platform Query Service (Data Distiller) y Data Set export para implementar lo siguiente casos de uso de exportación de datos:

  • Validación de datos
  • Data Lake, Data Warehouse de herramientas de BI
  • Preparación para el aprendizaje artificial inteligente y automático.

Adobe Analytics puede implementar estos casos de uso utilizando su Fuentes de datos funcionalidad. Las fuentes de datos son una forma eficaz de obtener datos sin procesar de Adobe Analytics. En este artículo se describe cómo obtener un tipo similar de datos sin procesar de Experience Platform, para que pueda implementar los casos de uso mencionados anteriormente. Cuando corresponda, las funcionalidades descritas en este artículo se comparan con las Fuentes de datos de Adobe Analytics para aclarar diferencias en los datos y el proceso.

Primeros pasos

La exportación de datos mediante el servicio de consulta (Data Distiller) y la exportación de conjuntos de datos consiste en:

  • definición de un consulta programada que genera los datos para la fuente de datos como un conjunto de datos de salida conjunto de datos de salida , usando Servicio de consultas.
  • definición de un exportación programada del conjunto de datos que exporta el conjunto de datos de salida a un destino de almacenamiento en la nube mediante Exportación de conjuntos de datos.

Fuente de datos

Requisitos previos

Asegúrese de cumplir todos los requisitos antes de utilizar la funcionalidad descrita en este caso de uso:

  • Implementación de trabajo que recopila datos en el lago de datos de Experience Platform.
  • Acceso al complemento Data Distiller para asegurarse de que tiene derecho a ejecutar consultas por lotes. Consulte Empaquetado del servicio de consultas para obtener más información.
  • Acceso a la funcionalidad Exportar conjuntos de datos, disponible al adquirir el paquete Real-Time CDP Prime o Ultimate, Adobe Journey Optimizer o Customer Journey Analytics. Consulte Exportar conjuntos de datos a destinos de almacenamiento en la nube para obtener más información.
  • Uno o más destinos configurados (por ejemplo: Amazon S3, Google Cloud Storage) a donde puede exportar los datos sin procesar de la fuente de datos.

Servicio de consultas

El servicio de consultas de Experience Platform le permite consultar y unir cualquier conjunto de datos del lago de datos de Experience Platform como si fuera una tabla de base de datos. A continuación, puede capturar los resultados como un nuevo conjunto de datos para su uso posterior en la creación de informes o para su exportación.

Puede utilizar el servicio de consultas interfaz de usuario, a cliente conectado a través del protocolo PostgresQL, o API de RESTful para crear y programar consultas que recopilen los datos de la fuente de datos.

Crear consulta

Puede utilizar todas las funciones de ANSI SQL estándar para instrucciones SELECT y otros comandos limitados para crear y ejecutar consultas que generen los datos para la fuente de datos. Consulte Sintaxis SQL para obtener más información. Más allá de esta sintaxis SQL, Adobe admite:

Columnas de fuente de datos

Los campos XDM que puede utilizar en la consulta dependen de la definición de esquema en la que se basen los conjuntos de datos. Asegúrese de comprender el esquema subyacente del conjunto de datos. Consulte para obtener más información la Guía de IU de conjuntos de datos.

Para definir la asignación entre las columnas de fuente de datos y los campos XDM, consulte Asignación de campos de Analytics. Consulte también la Resumen de IU de esquemas para obtener más información sobre cómo administrar recursos XDM, incluidos esquemas, clases, grupos de campos y tipos de datos.

Por ejemplo, en caso de que desee utilizar nombre de página como parte de la fuente de datos:

  • En la interfaz de usuario de la fuente de datos de Adobe Analytics, debe seleccionar pagename como la columna que se agregará a la definición de fuente de datos.
  • En el servicio de consultas, incluye lo siguiente web.webPageDetails.name desde el sample_event_dataset_for_website_global_v1_1 conjunto de datos (basado en el Esquema de evento de muestra para el sitio web (Global v1.1) experience event (esquema) en la consulta. Consulte la grupo de campos de esquema de detalles web para obtener más información.

Identidades

En Experience Platform, hay varias identidades disponibles. Al crear las consultas, asegúrese de que está consultando las identidades correctamente.

A menudo, las identidades se encuentran en un grupo de campos independiente. En un ECID de implementación (ecid) se puede definir como parte de un grupo de campos con un core que forma parte de un objeto identification objeto (por ejemplo: _sampleorg.identification.core.ecid). Los ECID pueden estar organizados de forma diferente en los esquemas.

Como alternativa, puede utilizar identityMap para consultar identidades. El identityMap es de tipo Map y usa un estructura de datos anidada.

Consulte Definición de campos de identidad en la IU para obtener más información sobre cómo definir campos de identidad en Experience Platform.

Consulte Identificadores principales en datos de Analytics para saber cómo se asignan las identidades de Adobe Analytics a las identidades de Experience Platform al utilizar el conector de origen de Analytics. Esta asignación puede servir de guía para configurar las identidades, incluso cuando no se utiliza el conector de origen de Analytics.

Identificación y datos de nivel de visita individual

En función de la implementación, los datos de nivel de visita recopilados tradicionalmente en Adobe Analytics ahora se almacenan como datos de evento con marca de tiempo en Experience Platform. La siguiente tabla se extrae de Asignación de campos de Analytics y muestra ejemplos de cómo asignar columnas de fuentes de datos de Adobe Analytics específicas del nivel de visita con los campos XDM correspondientes en las consultas. La tabla también muestra ejemplos de cómo se identifican las visitas individuales, las visitas y los visitantes mediante campos XDM.

Columna de fuente de datos
Campo XDM
Tipo
Descripción
hitid_high + hitid_low
_id
string
Un identificador único para identificar una visita.
hitid_low
_id
string
Se utiliza con hitid_high para identificar una visita de forma exclusiva.
hitid_high
_id
string
Se utiliza con hitid_high para identificar una visita de forma exclusiva.
hit_time_gmt
receivedTimestamp
string
La marca de tiempo de la visita basada en la hora de UNIX®.
cust_hit_time_gmt
timestamp
string
Esta marca de tiempo solo se utiliza en conjuntos de datos con marca de tiempo habilitada. Esta marca de tiempo se envía con la visita en función de la hora UNIX®.
visid_high + visid_low
identityMap
objeto
Un identificador único de una visita.
visid_high + visid_low
endUserIDs._experience.aaid.id
string
Un identificador único de una visita.
visid_high
endUserIDs._experience.aaid.primary
booleano
Se utiliza con visid_low para identificar una visita de forma exclusiva.
visid_high
endUserIDs._experience.aaid.namespace.code
string
Se utiliza con visid_low para identificar una visita de forma exclusiva.
visid_low
identityMap
objeto
Se utiliza con visid_high para identificar una visita de forma exclusiva.
cust_visid
identityMap
objeto
El ID de visitante de cliente.
cust_visid
endUserIDs._experience.aacustomid.id
objeto
El ID de visitante de cliente.
cust_visid
endUserIDs._experience.aacustomid.primary
booleano
El código del área de nombres de ID de visitante de cliente.
cust_visid
endUserIDs._experience.aacustomid.namespace.code
string
Se utiliza con visid_low para identificar el id de visitante de cliente de forma exclusiva.
geo\_*
placeContext.geo.*
cadena, número
Datos de geolocalización, como país, región, ciudad y otros
event_list
commerce.purchases, commerce.productViews, commerce.productListOpens, commerce.checkouts, commerce.productListAdds, commerce.productListRemovals, commerce.productListViews, _experience.analytics.event101to200.*, …, _experience.analytics.event901_1000.*
string
Eventos comerciales y personalizados estándar activados en la visita.
page_event
web.webInteraction.type
string
El tipo de visita que se envía en la solicitud de imagen (visita estándar, vínculo de descarga, vínculo de salida o vínculo personalizado en el que se hace clic).
page_event
web.webInteraction.linkClicks.value
number
El tipo de visita que se envía en la solicitud de imagen (visita estándar, vínculo de descarga, vínculo de salida o vínculo personalizado en el que se hace clic).
page_event_var_1
web.webInteraction.URL
string
Variable que solo se utiliza en las solicitudes de imagen de seguimiento de vínculos. Esta variable contiene la dirección URL del vínculo de descarga, de salida o personalizado en el que se hizo clic.
page_event_var_2
web.webInteraction.name
string
Variable que solo se utiliza en las solicitudes de imagen de seguimiento de vínculos. Muestra el nombre personalizado del vínculo, si se especifica.
paid_search
search.isPaid
booleano
Un indicador que se establece si la visita coincide con la detección de búsquedas de pago.
ref_type
web.webReferrertype
string
Una ID numérica que representa el tipo de referente de la visita.

Publicar columnas

Las fuentes de datos de Adobe Analytics utilizan el concepto de columnas con una post_ prefijo, que son columnas que contienen datos después del procesamiento. Consulte Preguntas frecuentes sobre fuentes de datos para obtener más información.

Los datos recopilados en conjuntos de datos a través del Edge Network de Experience Platform (SDK web, SDK móvil, API de servidor) no tienen concepto de post_ campos. Como resultado, post_ con el prefijo y non-post_ las columnas de fuentes de datos prefijadas se asignan a los mismos campos XDM. Por ejemplo, ambas page_url y post_page_url las columnas de fuentes de datos se asignan al mismo web.webPageDetails.URL Campo XDM.

Consulte Comparar el procesamiento de datos entre Adobe Analytics y Customer Journey Analytics. para obtener una descripción general de las diferencias en el procesamiento de datos.

El post_ el tipo de columna de prefijo de datos, cuando se recopila en el lago de datos de Experience Platform, sin embargo requiere transformaciones avanzadas para poder utilizarse correctamente en un caso de uso de fuente de datos. La realización de estas transformaciones avanzadas en las consultas implica el uso de Funciones definidas por el Adobe para la creación de sesiones, atribución y deduplicación. Consulte Ejemplos sobre cómo utilizar estas funciones.

Búsquedas

Para buscar datos de otros conjuntos de datos, se utiliza la funcionalidad estándar de SQL (WHERE cláusula, INNER JOIN, OUTER JOIN, y otros).

Cálculos

Para realizar cálculos en campos (columnas), utilice las funciones SQL estándar (por ejemplo COUNT(*)), o el operadores y funciones matemáticos y estadísticos forma parte de Spark SQL. Además, funciones de ventana proporciona soporte para actualizar acumulaciones y devolver elementos únicos para cada fila en un subconjunto ordenado. Consulte Ejemplos sobre cómo utilizar estas funciones.

Estructura de datos anidada

Los esquemas en los que se basan los conjuntos de datos suelen contener tipos de datos complejos, incluidas estructuras de datos anidadas. Mencionado anteriormente identityMap es un ejemplo de estructura de datos anidada. Consulte a continuación un ejemplo de identityMap datos.

{
   "identityMap":{
      "FPID":[
         {
            "id":"55613368189701342632255821452918751312",
            "authenticatedState":"ambiguous"
         }
      ],
      "CRM":[
         {
            "id":"2394509340-30453470347",
            "authenticatedState":"authenticated"
         }
      ]
   }
}

Puede usar el complemento explode() u otras funciones de matrices desde Spark SQL para llegar a los datos dentro de una estructura de datos anidada, por ejemplo:

select explode(identityMap) from demosys_cja_ee_v1_website_global_v1_1 limit 15;

Como alternativa, puede hacer referencia a elementos individuales utilizando la notación de puntos. Por ejemplo:

select identityMap.ecid from demosys_cja_ee_v1_website_global_v1_1 limit 15;

Consulte Trabajar con estructuras de datos anidadas en el servicio de consultas para obtener más información.

Ejemplos

Para consultas:

  • que utilizan datos de conjuntos de datos de en el lago de datos de Experience Platform,
  • está aprovechando las capacidades adicionales de Funciones definidas por Adobe o Spark SQL, y
  • que daría resultados similares a una fuente de datos de Adobe Analytics equivalente,

consulte:

Programar consulta

Programe la consulta para asegurarse de que se ejecuta y de que los resultados se generan a su intervalo preferido.

Uso del Editor de consultas

Puede programar una consulta mediante el Editor de consultas. Al programar la consulta, se define un conjunto de datos de salida. Consulte Programaciones de consultas para obtener más información.

Uso de la API del servicio de consultas

También puede utilizar las API de RESTful para definir una consulta y una programación para la consulta. Consulte la Guía de API del servicio de consultas para obtener más información.
Asegúrese de definir el conjunto de datos de salida como parte del ctasParameters al crear la consulta (Creación de una consulta) o al crear la programación para una consulta (Creación de una consulta programada).

Exportar conjuntos de datos

Una vez creada y programada la consulta, y verificados los resultados, puede exportar los conjuntos de datos sin procesar a destinos de almacenamiento en la nube. Esta exportación se realiza en la terminología Destinos de Experience Platform, que se denomina destinos de exportación de conjuntos de datos. Consulte Exportar conjuntos de datos a destinos de almacenamiento en la nube para obtener una descripción general.

Se admiten los siguientes destinos de almacenamiento en la nube:

IU de Experience Platform

Puede exportar y programar la exportación de los conjuntos de datos de salida a través de la interfaz de usuario de Experience Platform. En esta sección se describen los pasos que debe seguir.

Seleccionar destino

Cuando haya determinado a qué destino de almacenamiento en la nube desea exportar el conjunto de datos de salida, seleccionar el destino. Cuando aún no haya configurado un destino para su almacenamiento en la nube preferido, debe crear una nueva conexión de destino.

Como parte de la configuración de un destino, puede

  • definir el tipo de archivo (JSON o Parquet),
  • si el archivo resultante debe comprimirse o no, y
  • si se debe incluir o no un archivo de manifiesto.

Seleccionar conjunto de datos

Cuando haya seleccionado el destino, en el siguiente Seleccionar conjuntos de datos paso tiene que seleccionar el conjunto de datos de salida de la lista de conjuntos de datos. Si ha creado varias consultas programadas y desea que los conjuntos de datos de salida se envíen al mismo destino de almacenamiento en la nube, puede seleccionar los conjuntos de datos de salida correspondientes. Consulte Seleccione sus conjuntos de datos para obtener más información.

Programación de exportación del conjunto de datos

Por último, desea programar la exportación del conjunto de datos como parte del Programación paso. En ese paso puede definir la programación y si la exportación del conjunto de datos de salida debe ser incremental o no. Consulte Programar exportación del conjunto de datos para obtener más información.

Pasos finales

Revisar Cuando haga su selección, y cuando sea correcto, empiece a exportar el conjunto de datos de salida al destino de almacenamiento en la nube.

Usted debe verificar exportación de datos correcta. Al exportar conjuntos de datos, Experience Platform crea uno o varios .json o .parquet archivos en la ubicación de almacenamiento definida en el destino. Se espera que los nuevos archivos se depositen en su ubicación de almacenamiento según la programación de exportación configurada. Experience Platform crea una estructura de carpetas en la ubicación de almacenamiento especificada como parte del destino seleccionado, donde deposita los archivos exportados. Se crea una nueva carpeta para cada tiempo de exportación, siguiendo el patrón: folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM. El nombre de archivo predeterminado se genera de forma aleatoria y garantiza que los nombres de archivo exportados sean únicos.

API de Flow Service

También puede exportar y programar la exportación de conjuntos de datos de salida mediante API. Los pasos involucrados se documentan en Exportación de conjuntos de datos mediante la API de Flow Service.

Introducción

Para exportar conjuntos de datos, asegúrese de que tiene permisos necesarios. Compruebe también que el destino al que desea enviar el conjunto de datos de salida admite la exportación de conjuntos de datos. Entonces, debe recopilar los valores de los encabezados obligatorios y opcionales que utiliza en las llamadas de API. También es necesario identificar las especificaciones de conexión y los ID de especificación de flujo del destino tiene intención de exportar conjuntos de datos a.

Recuperar conjuntos de datos aptos

Puede recuperar una lista de conjuntos de datos aptos para la exportación y compruebe si el conjunto de datos de salida forma parte de esa lista utilizando GET /connectionSpecs/{id}/configs API.

Crear conexión de origen

A continuación, debe crear una conexión de origen para el conjunto de datos de salida, con su ID único, que desea exportar al destino de almacenamiento en la nube. Utilice el POST /sourceConnections API.

Autenticar en el destino (crear conexión base)

Ahora debe crear una conexión base para autenticar y almacenar de forma segura las credenciales en su destino de almacenamiento en la nube mediante el POST /targetConection API.

Proporcionar parámetros de exportación

A continuación, debe crear una conexión de destino adicional que almacene los parámetros de exportación para el conjunto de datos de salida utilizando, una vez más, la POST /targetConection API. Estos parámetros de exportación incluyen ubicación, formato de archivo, compresión, etc.

Configurar flujo de datos

Finalmente, usted configuración del flujo de datos para asegurarse de que el conjunto de datos de salida se exporta al destino de almacenamiento en la nube mediante POST /flows API. En este paso, puede definir la programación de la exportación mediante el scheduleParams parámetro.

Validar flujo de datos

Hasta compruebe las ejecuciones correctas del flujo de datos, use el GET /runs API, especificando el ID del flujo de datos como parámetro de consulta. Este ID de flujo de datos es un identificador que se devuelve al configurar el flujo de datos.

Verificar exportación de datos correcta. Al exportar conjuntos de datos, Experience Platform crea uno o varios .json o .parquet archivos en la ubicación de almacenamiento definida en el destino. Se espera que los nuevos archivos se depositen en su ubicación de almacenamiento según la programación de exportación configurada. Experience Platform crea una estructura de carpetas en la ubicación de almacenamiento especificada como parte del destino seleccionado, donde deposita los archivos exportados. Se crea una nueva carpeta para cada tiempo de exportación, siguiendo el patrón: folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM. El nombre de archivo predeterminado se genera de forma aleatoria y garantiza que los nombres de archivo exportados sean únicos.

Conclusión

En resumen, emular la funcionalidad de la fuente de datos de Adobe Analytics implica configurar consultas programadas mediante el servicio de consulta y utilizar los resultados de estas consultas en exportaciones de conjuntos de datos programados.

IMPORTANT
En este caso de uso están involucrados dos programadores. Para garantizar el correcto funcionamiento de la funcionalidad de fuente de datos emulada, asegúrese de que las programaciones configuradas en el servicio de consulta y las exportaciones de datos no interfieran.
recommendation-more-help
080e5213-7aa2-40d6-9dba-18945e892f79