Configurar um fluxo de dados para uma conexão em lote de armazenamento em nuvem na interface do usuário

Um fluxo de dados é uma tarefa agendada que recupera e assimila dados de uma fonte para um conjunto de dados Platform. Este tutorial fornece etapas para configurar um novo fluxo de dados usando sua conta de armazenamento em nuvem.

Introdução

Este tutorial requer uma compreensão funcional dos seguintes componentes do Adobe Experience Platform:

  • Experience Data Model (XDM) Sistema: A estrutura padronizada pela qual Experience Platform organiza os dados de experiência do cliente.
    • Noções básicas da composição do schema: Saiba mais sobre os elementos básicos dos esquemas XDM, incluindo princípios-chave e práticas recomendadas na composição do schema.
    • Tutorial do Editor de esquema: Saiba como criar esquemas personalizados usando a interface do Editor de esquemas.
  • Real-time Customer Profile: Fornece um perfil de consumidor unificado e em tempo real com base em dados agregados de várias fontes.

Além disso, este tutorial requer uma conta de armazenamento em nuvem estabelecida. Uma lista de tutoriais para criar diferentes contas de armazenamento em nuvem na interface do usuário pode ser encontrada na visão geral dos conectores de origem.

Formatos de arquivo não suportados

Experience Platform O suporta os seguintes formatos de arquivo a serem assimilados de armazenamentos externos:

  • Valores separados por delimitador (DSV): Qualquer valor de caractere único pode ser usado como delimitador para arquivos de dados formatados em DSV.
  • JavaScript Object Notation (JSON): Os arquivos de dados formatados em JSON devem ser compatíveis com XDM.
  • Apache Parquet: Os arquivos de dados formatados com parâmetro devem ser compatíveis com XDM.

Selecionar dados

Depois de criar sua conta de armazenamento em nuvem, a etapa Select data é exibida, fornecendo uma interface para explorar sua hierarquia de arquivos de armazenamento em nuvem.

  • A parte esquerda da interface é um navegador de diretório, exibindo seus arquivos e diretórios de armazenamento em nuvem.
  • A parte direita da interface permite visualizar até 100 linhas de dados de um arquivo compatível.

interface

Selecionar uma pasta listada permite atravessar a hierarquia de pastas em pastas mais profundas. Você pode selecionar uma única pasta para assimilar todos os arquivos na pasta recursivamente. Ao assimilar uma pasta inteira, você deve garantir que todos os arquivos na pasta compartilhem o mesmo esquema.

Depois de selecionar um arquivo ou pasta compatível, selecione o formato de dados correspondente no menu suspenso Select data format.

A tabela a seguir exibe o formato de dados apropriado para os tipos de arquivos suportados:

Tipo de arquivo Formato dos dados
CSV Delimited
JSON JSON
Parquet XDM Parquet

Selecione JSON e aguarde alguns segundos até que a interface de visualização seja preenchida.

select-data

OBSERVAÇÃO

Diferentemente dos tipos de arquivos delimitados e JSON, os arquivos formatados em Parquet não estão disponíveis para visualização.

A interface de visualização permite inspecionar o conteúdo e a estrutura de um arquivo. Por padrão, a interface de visualização exibe o primeiro arquivo na pasta selecionada.

Para visualizar um arquivo diferente, selecione o ícone de visualização ao lado do nome do arquivo que deseja inspecionar.

visualização padrão

Após inspecionar o conteúdo e a estrutura dos arquivos na pasta, selecione Next para assimilar todos os arquivos na pasta de forma recursiva.

select-folder

Se preferir selecionar um arquivo específico, selecione o arquivo que deseja assimilar e selecione Next.

select-file

Definir um delimitador personalizado para arquivos delimitados

Você pode definir um delimitador personalizado ao assimilar arquivos delimitados. Selecione a opção Delimiter e selecione um delimitador no menu suspenso. O menu exibe as opções mais usadas para delimitadores, incluindo uma vírgula (,), uma guia (\t) e uma barra vertical (|). Se preferir usar um delimitador personalizado, selecione Custom e insira um delimitador de caractere único de sua escolha na barra de entrada pop-up.

Depois de selecionar o formato dos dados e definir o delimitador, selecione Next.

Mapear campos de dados para um esquema XDM

A etapa Mapping é exibida, fornecendo uma interface interativa para mapear os dados de origem para um conjunto de dados Platform. Os arquivos de origem formatados no Parquet devem ser compatíveis com XDM e não exigem a configuração manual do mapeamento, enquanto os arquivos CSV exigem a configuração explícita do mapeamento, mas permitem que você escolha os campos de dados de origem a serem mapeados. Arquivos JSON, se marcados como reclamação XDM, não exigem configuração manual. No entanto, se não estiver marcado como compatível com XDM, será necessário configurar explicitamente o mapeamento.

Escolha um conjunto de dados para os dados de entrada que serão assimilados. Você pode usar um conjunto de dados existente ou criar um novo.

Usar um conjunto de dados existente

Para assimilar dados em um conjunto de dados existente, selecione Existing dataset e selecione o ícone do conjunto de dados.

A caixa de diálogo Select dataset é exibida. Encontre o conjunto de dados que deseja usar, selecione-o e clique em Continue.

Usar um novo conjunto de dados

Para assimilar dados em um novo conjunto de dados, selecione New dataset e insira um nome e uma descrição para o conjunto de dados nos campos fornecidos. Para adicionar um schema, você pode inserir um nome de schema existente na caixa de diálogo Select schema. Como alternativa, você pode selecionar o Schema advanced search para procurar um schema apropriado.

Durante essa etapa, você pode ativar seu conjunto de dados para Real-time Customer Profile e criar uma exibição holística dos atributos e comportamentos de uma entidade. Os dados de todos os conjuntos de dados ativados serão incluídos em Profile e as alterações serão aplicadas quando você salvar o fluxo de dados.

Alterne o botão Profile dataset para ativar o conjunto de dados de destino para Profile.

A caixa de diálogo Select schema é exibida. Selecione o schema que deseja aplicar ao novo conjunto de dados e selecione Done.

Com base em suas necessidades, você pode optar por mapear campos diretamente ou usar funções de mapeador para transformar dados de origem para derivar valores calculados ou calculados. Para obter mais informações sobre mapeamento de dados e funções de mapeador, consulte o tutorial em mapear dados CSV para campos de esquema XDM.

Para arquivos JSON, além de mapear campos diretamente para outros campos, é possível mapear objetos diretamente para outros objetos e arrays para outros arrays. Também é possível visualizar e mapear tipos de dados complexos, como arrays em arquivos JSON, usando um conector de origem de armazenamento na nuvem.

Observe que não é possível mapear em tipos diferentes. Por exemplo, não é possível mapear um objeto para uma matriz ou um campo para um objeto.

DICA

Platform fornece recomendações inteligentes para campos mapeados automaticamente com base no esquema de destino ou conjunto de dados selecionado. Você pode ajustar manualmente as regras de mapeamento de acordo com seus casos de uso.

Selecione Preview data para ver os resultados do mapeamento de até 100 linhas de dados de amostra do conjunto de dados selecionado.

Durante a visualização, a coluna de identidade é priorizada como o primeiro campo, pois são as informações principais necessárias ao validar resultados de mapeamento.

Depois que os dados de origem forem mapeados, selecione Close.

Agendar execução de ingestão

A etapa Scheduling é exibida, permitindo configurar um agendamento de assimilação para assimilar automaticamente os dados de origem selecionados usando os mapeamentos configurados. A tabela a seguir descreve os diferentes campos configuráveis para programação:

Campo Descrição
Frequência As frequências selecionáveis incluem Once, Minute, Hour, Day e Week.
Intervalo Um número inteiro que define o intervalo para a frequência selecionada.
Hora de início Um carimbo de data e hora UTC indicando quando a primeira assimilação está definida para ocorrer.
Preenchimento retroativo Um valor booleano que determina quais dados são assimilados inicialmente. Se Backfill estiver ativado, todos os arquivos atuais no caminho especificado serão assimilados durante a primeira assimilação agendada. Se Backfill estiver desativado, somente os arquivos carregados entre a primeira execução da assimilação e a hora de início serão assimilados. Os arquivos carregados antes da hora de início não serão assimilados.

Os fluxos de dados são projetados para assimilar dados automaticamente de forma programada. Comece selecionando a frequência de assimilação. Em seguida, defina o intervalo para designar o período entre duas execuções de fluxo. O valor do intervalo deve ser um número inteiro diferente de zero e deve ser definido como maior ou igual a 15.

Para definir a hora de início da assimilação, ajuste a data e a hora exibidas na caixa de hora de início. Como alternativa, você pode selecionar o ícone de calendário para editar o valor de hora de início. A hora de início deve ser maior ou igual à hora atual em UTC.

Forneça os valores para o agendamento e selecione Next.

Configurar um fluxo de dados de ingestão único

Para configurar a assimilação única, selecione a seta suspensa de frequência e selecione Once. Você pode continuar fazendo edições em um conjunto de fluxo de dados para uma assimilação de frequência única, desde que o tempo de início permaneça no futuro. Depois que a hora de início tiver passado, o valor de frequência única não poderá mais ser editado. Interval e não Backfill são visíveis ao configurar um fluxo de dados de ingestão único.

IMPORTANTE

É altamente recomendável agendar seu fluxo de dados para uma assimilação única ao usar o conector FTP.

Depois de fornecer os valores apropriados ao agendamento, selecione Next.

Fornecer detalhes do fluxo de dados

A etapa Dataflow detail é exibida, permitindo nomear e fornecer uma breve descrição sobre o novo fluxo de dados.

Durante esse processo, também é possível ativar Partial ingestion e Error diagnostics. Habilitar Partial ingestion fornece a capacidade de assimilar dados contendo erros, até um determinado limite que você pode definir. Habilitar Error diagnostics fornecerá detalhes sobre quaisquer dados incorretos que sejam armazenados em lote separadamente. Para obter mais informações, consulte a visão geral da ingestão parcial de lote.

Forneça valores para o fluxo de dados e selecione Next.

Revisar o fluxo de dados

A etapa Review é exibida, permitindo que você revise o novo fluxo de dados antes de ele ser criado. Os detalhes são agrupados nas seguintes categorias:

  • Connection: Mostra o tipo de origem, o caminho relevante do arquivo de origem escolhido e a quantidade de colunas dentro desse arquivo de origem.
  • Assign dataset & map fields: Mostra em qual conjunto de dados os dados de origem estão sendo assimilados, incluindo o esquema ao qual o conjunto de dados adere.
  • Scheduling: Mostra o período ativo, a frequência e o intervalo do agendamento de ingestão.

Depois de revisar o fluxo de dados, clique em Finish e aguarde algum tempo para que o fluxo de dados seja criado.

Monitorar o fluxo de dados

Depois que o fluxo de dados for criado, você poderá monitorar os dados que estão sendo assimilados por meio dele para ver informações sobre taxas de ingestão, sucesso e erros. Para obter mais informações sobre como monitorar o fluxo de dados, consulte o tutorial em monitorando contas e fluxos de dados na interface do usuário.

Excluir seu fluxo de dados

Você pode excluir fluxos de dados que não são mais necessários ou foram criados incorretamente usando a função Delete disponível no espaço de trabalho Dataflows. Para obter mais informações sobre como excluir fluxos de dados, consulte o tutorial em excluir fluxos de dados na interface do usuário.

Próximas etapas

Ao seguir este tutorial, você criou com sucesso um fluxo de dados para trazer dados de um armazenamento externo em nuvem e ganhou informações sobre o monitoramento de conjuntos de dados. Para saber mais sobre como criar fluxos de dados, você pode complementar seu aprendizado assistindo ao vídeo abaixo. Além disso, os dados recebidos agora podem ser usados por serviços Platform downstream, como Real-time Customer Profile e Data Science Workspace. Consulte os seguintes documentos para obter mais detalhes:

AVISO

A interface Platform mostrada no vídeo a seguir está desatualizada. Consulte a documentação acima para obter as capturas de tela e a funcionalidade mais recentes da interface do usuário.

Apêndice

As seções a seguir fornecem informações adicionais para trabalhar com conectores de origem.

Desativar um fluxo de dados

Quando um fluxo de dados é criado, ele imediatamente se torna ativo e assimila dados de acordo com o cronograma que foi fornecido. Você pode desativar um fluxo de dados ativo a qualquer momento seguindo as instruções abaixo.

No espaço de trabalho Sources, clique na guia Browse. Em seguida, clique no nome da conta associada ao fluxo de dados ativo que você deseja desativar.

A página Source activity é exibida. Selecione o fluxo de dados ativo na lista para abrir sua coluna Properties no lado direito da tela, que contém um botão de alternância Enabled. Clique no botão de alternância para desativar o fluxo de dados. A mesma alternância pode ser usada para reativar um fluxo de dados depois que ele for desativado.

Ativar dados de entrada para a população Profile

Os dados de entrada do conector de origem podem ser usados para enriquecer e preencher os dados de Real-time Customer Profile. Para obter mais informações sobre como preencher os dados Real-time Customer Profile, consulte o tutorial em População do perfil.

Nesta página

Adobe Summit Banner

A virtual event April 27-28.

Expand your skills and get inspired.

Register for free
Adobe Summit Banner

A virtual event April 27-28.

Expand your skills and get inspired.

Register for free
Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now
Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now