Configure um fluxo de dados para assimilar dados em lote de uma fonte de armazenamento em nuvem na interface do usuário do

Este tutorial fornece etapas sobre como configurar um fluxo de dados para trazer dados em lote da fonte de armazenamento na nuvem para o Adobe Experience Platform.

Introdução

OBSERVAÇÃO

Para criar um fluxo de dados para trazer dados em lote de um armazenamento na nuvem, você já deve ter acesso a uma fonte de armazenamento na nuvem autenticada. Caso não tenha acesso, acesse o visão geral das fontes para obter uma lista de fontes de armazenamento em nuvem com as quais você pode criar uma conta.

Este tutorial requer uma compreensão funcional dos seguintes componentes do Experience Platform:

Formatos de arquivo não compatíveis

As fontes de armazenamento em nuvem para dados em lote oferecem suporte aos seguintes formatos de arquivo para assimilação:

  • Valores separados por delimitador (DSV): Qualquer valor de caractere único pode ser usado como delimitador para arquivos de dados formatados em DSV.
  • JavaScript Object Notation (JSON): Os arquivos de dados formatados em JSON devem ser compatíveis com XDM.
  • Apache Parquet: Os arquivos de dados formatados com parâmetro devem ser compatíveis com XDM.
  • Arquivos compactados: JSON e arquivos delimitados podem ser compactados como: bzip2, gzip, deflate, zipDeflate, tarGzipe tar.

Adicionar dados

Depois de criar a conta de armazenamento em nuvem, a variável Adicionar dados será exibida, fornecendo uma interface para explorar sua hierarquia de arquivos de armazenamento na nuvem e selecionar a pasta ou o arquivo específico que deseja trazer para a Platform.

  • A parte esquerda da interface é um navegador de diretório, exibindo sua hierarquia de arquivo de armazenamento em nuvem.
  • A parte direita da interface permite visualizar até 100 linhas de dados de uma pasta ou arquivo compatível.

Selecione a pasta raiz para acessar a hierarquia de pastas. Aqui, você pode selecionar uma única pasta para assimilar todos os arquivos na pasta recursivamente. Ao assimilar uma pasta inteira, você deve garantir que todos os arquivos nessa pasta compartilhem o mesmo formato de dados e esquema.

Após selecionar uma pasta, a interface correta será atualizada para pré-visualizar o conteúdo e a estrutura do primeiro arquivo na pasta selecionada.

Durante essa etapa, você pode fazer várias configurações aos seus dados, antes de continuar. Primeiro, selecione Formato dos dados e, em seguida, selecione o formato de dados apropriado para seu arquivo no painel suspenso exibido.

A tabela a seguir exibe os formatos de dados apropriados para os tipos de arquivos suportados:

Tipo de arquivo Formato dos dados
CSV Delimitado
JSON JSON
Parquet Parqueta XDM

Selecione um delimitador de coluna

Após configurar o formato de dados, é possível definir um delimitador de coluna ao assimilar arquivos delimitados. Selecione o Delimitador e selecione um delimitador no menu suspenso. O menu exibe as opções mais usadas para delimitadores, incluindo uma vírgula (,), uma guia (\t) e uma barra vertical (|).

Se preferir usar um delimitador personalizado, selecione Personalizado e insira um delimitador de caractere único de sua escolha na barra de entrada pop-up.

Assimilar arquivos compactados

Também é possível assimilar arquivos compactados JSON ou delimitados especificando o tipo de compactação.

No Selecionar dados selecione um arquivo compactado para assimilação e selecione o tipo de arquivo apropriado e se ele é compatível com XDM ou não. Em seguida, selecione Tipo de compactação e selecione o tipo de arquivo compactado apropriado para seus dados de origem.

Para trazer um arquivo específico para a Platform, selecione uma pasta e depois selecione o arquivo que deseja assimilar. Durante essa etapa, também é possível visualizar o conteúdo de outros arquivos em uma determinada pasta usando o ícone de visualização ao lado do nome do arquivo.

Quando terminar, selecione Próximo.

Fornecer detalhes do fluxo de dados

O Detalhes do fluxo de dados permite selecionar se deseja usar um conjunto de dados existente ou um novo conjunto de dados. Durante esse processo, você também pode configurar seus dados para serem assimilados no Perfil e ativar configurações como Diagnóstico de erros, Ingestão parciale Alertas.

Usar um conjunto de dados existente

Para assimilar dados em um conjunto de dados existente, selecione Conjunto de dados existente. Você pode recuperar um conjunto de dados existente usando o Pesquisa avançada ou percorrendo a lista de conjuntos de dados existentes no menu suspenso. Depois de selecionar um conjunto de dados, forneça um nome e uma descrição para o seu fluxo de dados.

Usar um novo conjunto de dados

Para assimilar em um novo conjunto de dados, selecione Novo conjunto de dados e, em seguida, forneça um nome de conjunto de dados de saída e uma descrição opcional. Em seguida, selecione um esquema para mapear usando o Pesquisa avançada ou rolando pela lista de schemas existentes no menu suspenso. Depois de selecionar um esquema, forneça um nome e uma descrição para o seu fluxo de dados.

Ativar o diagnóstico de perfil e erro

Em seguida, selecione o Conjunto de dados de perfil alternar para ativar seu conjunto de dados para Perfil. Isso permite criar uma visualização holística dos atributos e comportamentos de uma entidade. Os dados de todos os conjuntos de dados habilitados para perfil serão incluídos no Perfil e as alterações serão aplicadas quando você salvar o fluxo de dados.

Diagnóstico de erros permite a geração detalhada de mensagens de erro para qualquer registro incorreto que ocorra no seu fluxo de dados, enquanto Ingestão parcial O permite assimilar dados contendo erros, até um determinado limite definido manualmente. Consulte a visão geral da ingestão parcial de lote para obter mais informações.

Ativar alertas

Você pode habilitar alertas para receber notificações sobre o status do seu fluxo de dados. Selecione um alerta na lista para assinar e receber notificações sobre o status do seu fluxo de dados. Para obter mais informações sobre alertas, consulte o guia sobre inscrever-se em alertas de origens usando a interface do usuário.

Quando terminar de fornecer detalhes do fluxo de dados, selecione Próximo.

Mapear campos de dados para um esquema XDM

O Mapeamento é exibida, fornecendo uma interface para mapear os campos de origem do esquema de origem para os campos XDM de destino apropriados no esquema de destino.

A Platform fornece recomendações inteligentes para campos mapeados automaticamente com base no esquema de destino ou conjunto de dados selecionado. Você pode ajustar manualmente as regras de mapeamento de acordo com seus casos de uso. Com base em suas necessidades, você pode optar por mapear campos diretamente ou usar funções de preparação de dados para transformar dados de origem em valores calculados ou calculados. Para obter etapas abrangentes sobre o uso da interface do mapeador e dos campos calculados, consulte o Guia da interface do usuário de preparação de dados.

Depois que os dados de origem forem mapeados com êxito, selecione Próximo.

Agendar execução de ingestão

IMPORTANTE

É altamente recomendável agendar seu fluxo de dados para uma ingestão única ao usar a variável Origem FTP.

O Agendamento é exibida, permitindo configurar um agendamento de assimilação para assimilar automaticamente os dados de origem selecionados usando os mapeamentos configurados. Por padrão, a programação está definida como Once. Para ajustar a frequência de ingestão, selecione Frequência e selecione uma opção no menu suspenso.

DICA

O intervalo e o preenchimento retroativo não são visíveis durante uma ingestão única.

programação

Se você definir sua frequência de ingestão como Minute, Hour, Dayou Week, é necessário definir um intervalo para estabelecer um intervalo de tempo definido entre cada ingestão. Por exemplo, uma frequência de assimilação definida como Day e um intervalo definido como 15 significa que o fluxo de dados está agendado para assimilar dados a cada 15 dias.

Durante essa etapa, também é possível ativar preenchimento retroativo e defina uma coluna para a assimilação incremental de dados. O preenchimento retroativo é usado para assimilar dados históricos, enquanto a coluna definida para assimilação incremental permite que novos dados sejam diferenciados dos dados existentes.

Consulte a tabela abaixo para obter mais informações sobre configurações de agendamento.

Campo Descrição
Frequência A frequência em que ocorre uma ingestão. As frequências selecionáveis incluem Once, Minute, Hour, Daye Week.
Intervalo Um número inteiro que define o intervalo para a frequência selecionada. O valor do intervalo deve ser um número inteiro diferente de zero e deve ser definido como maior ou igual a 15.
Hora de início Um carimbo de data e hora UTC indicando quando a primeira assimilação está definida para ocorrer. A hora de início deve ser maior ou igual à hora UTC atual.
Preenchimento retroativo Um valor booleano que determina quais dados são assimilados inicialmente. Se o preenchimento retroativo estiver ativado, todos os arquivos atuais no caminho especificado serão assimilados durante a primeira assimilação programada. Se o preenchimento retroativo estiver desativado, somente os arquivos carregados entre a primeira execução da assimilação e a hora de início serão assimilados. Os arquivos carregados antes da hora de início não serão assimilados.
OBSERVAÇÃO

Para assimilação em lote, cada fluxo de dados subsequente seleciona arquivos a serem assimilados da sua origem com base em seus última modificação timestamp. Isso significa que os fluxos de dados em lote selecionam arquivos da origem que são novos ou foram modificados desde a última execução do fluxo. Além disso, você deve garantir que haja um intervalo de tempo suficiente entre o upload do arquivo e uma execução de fluxo agendado, pois os arquivos que não são carregados totalmente na sua conta de armazenamento em nuvem antes do tempo de execução do fluxo agendado podem não ser coletados para assimilação.

Ao concluir a configuração do agendamento de ingestão, selecione Próximo.

Revisar o fluxo de dados

O Revisão é exibida, permitindo que você revise o novo fluxo de dados antes de criá-lo. Os detalhes são agrupados nas seguintes categorias:

  • Conexão: Mostra o tipo de origem, o caminho relevante do arquivo de origem escolhido e a quantidade de colunas dentro desse arquivo de origem.
  • Atribuir conjunto de dados e mapear campos: Mostra em qual conjunto de dados os dados de origem estão sendo assimilados, incluindo o esquema ao qual o conjunto de dados adere.
  • Agendamento: Mostra o período ativo, a frequência e o intervalo do agendamento de ingestão.

Depois de revisar o fluxo de dados, clique em Concluir e permitir que o fluxo de dados seja criado.

Próximas etapas

Ao seguir este tutorial, você criou com sucesso um fluxo de dados para trazer dados de um armazenamento externo em nuvem e ganhou informações sobre o monitoramento de conjuntos de dados. Para saber mais sobre como criar fluxos de dados, você pode complementar seu aprendizado assistindo ao vídeo abaixo. Além disso, os dados de entrada agora podem ser usados pelo downstream Platform serviços como Real-time Customer Profile e Data Science Workspace. Consulte os seguintes documentos para obter mais detalhes:

AVISO

O Platform A interface do usuário exibida no vídeo a seguir está desatualizada. Consulte a documentação acima para obter as capturas de tela e a funcionalidade mais recentes da interface do usuário.

Apêndice

As seções a seguir fornecem informações adicionais para trabalhar com conectores de origem.

Monitorar o fluxo de dados

Depois que o fluxo de dados for criado, é possível monitorar os dados que estão sendo assimilados por meio dele para exibir informações sobre taxas de ingestão, sucesso e erros. Para obter mais informações sobre como monitorar o fluxo de dados, visite o tutorial em monitoramento de contas e fluxos de dados na interface do usuário.

Atualizar o fluxo de dados

Para atualizar as configurações para o agendamento, mapeamento e informações gerais do fluxo de dados, visite o tutorial em atualização de fluxos de dados de fontes na interface do usuário

Excluir seu fluxo de dados

É possível excluir os fluxos de dados que não são mais necessários ou foram criados incorretamente usando o Excluir disponível na função Fluxos de dados espaço de trabalho. Para obter mais informações sobre como excluir fluxos de dados, visite o tutorial em exclusão de fluxos de dados na interface do usuário.

Nesta página