Um fluxo de dados é uma tarefa programada que recupera e ingere dados de uma fonte para um Platform conjunto de dados. Este tutorial fornece etapas para configurar um novo fluxo de dados usando sua conta de armazenamento em nuvem.
Este tutorial requer uma compreensão funcional dos seguintes componentes do Adobe Experience Platform:
Além disso, este tutorial requer uma conta de armazenamento em nuvem estabelecida. Uma lista de tutoriais para criar diferentes contas de armazenamento na nuvem na interface do usuário pode ser encontrada na visão geral dos conectores deorigem.
Experience Platform oferece suporte aos seguintes formatos de arquivo para serem assimilados de armazenamentos externos:
Depois de criar sua conta de armazenamento em nuvem, a etapa Selecionar dados é exibida, fornecendo uma interface interativa para explorar a hierarquia de armazenamentos em nuvem.
Selecionar uma pasta listada permite que você transfira a hierarquia de pastas para pastas mais profundas. Depois que você tiver um arquivo ou pasta compatível selecionado, a lista suspensa Selecionar formato de dados será exibida, onde você poderá escolher um formato para exibir os dados na janela de pré-visualização.
Quando a janela pré-visualização for preenchida, você poderá selecionar Próximo para fazer upload de todos os arquivos dentro da pasta selecionada. Se você quiser fazer upload para um arquivo específico, selecione esse arquivo na lista antes de selecionar Próximo.
As contas de armazenamento em nuvem também suportam arquivos JSON e Parquet. Os arquivos de parâmetro devem ser compatíveis com XDM, enquanto os arquivos JSON não precisam ser compatíveis com XDM. Para assimilar arquivos JSON ou Parquet, selecione o formato de arquivo apropriado no navegador de diretório e aplique o formato de dados compatível na interface correta.
Se o formato de dados estiver no JSON, uma pré-visualização será exibida, mostrando informações sobre os dados no arquivo. Na tela de pré-visualização, você pode selecionar se o JSON é compatível com XDM usando o menu suspenso compatível com o XDM.
Selecione Avançar para continuar.
Diferentemente dos tipos de arquivos delimitados e JSON, os arquivos formatados Parquet não estão disponíveis para pré-visualização.
A etapa Mapeamento é exibida, fornecendo uma interface interativa para mapear os dados de origem para um Platform conjunto de dados. Os arquivos de origem formatados no Parquet devem ser compatíveis com XDM e não exigem que você configure manualmente o mapeamento, enquanto os arquivos CSV exigem que você configure explicitamente o mapeamento, mas permitem que você escolha quais campos de dados de origem serão mapeados. Os arquivos JSON, se marcados como reclamação XDM, não exigem configuração manual. No entanto, se não estiver marcado como compatível com XDM, será necessário configurar explicitamente o mapeamento.
Escolha um conjunto de dados para os dados de entrada a serem ingeridos. Você pode usar um conjunto de dados existente ou criar um novo.
Usar um conjunto de dados existente
Para assimilar dados em um conjunto de dados existente, selecione Conjunto de dados existente e, em seguida, selecione o ícone do conjunto de dados.
A caixa de diálogo Selecionar conjunto de dados é exibida. Encontre o conjunto de dados que deseja usar, selecione-o e clique em Continuar.
Usar um novo conjunto de dados
Para assimilar dados em um novo conjunto de dados, selecione Novo conjunto de dados e insira um nome e uma descrição para o conjunto de dados nos campos fornecidos. Para adicionar um schema, você pode inserir um nome de schema existente na caixa de diálogo Selecionar schema . Como alternativa, você pode selecionar a pesquisa avançada do Schema para procurar um schema apropriado.
Durante esta etapa, você pode ativar seu conjunto de dados para Real-time Customer Profile e criar uma visualização holística dos atributos e comportamentos de uma entidade. Os dados de todos os conjuntos de dados habilitados serão incluídos e as alterações serão aplicadas quando você salvar seu fluxo de dados. Profile
Alterne o botão Conjunto de dados do Perfil para ativar o conjunto de dados do público alvo para Profile.
A caixa de diálogo Selecionar schema é exibida. Selecione o schema que deseja aplicar ao novo conjunto de dados e, em seguida, selecione Concluído.
Com base em suas necessidades, você pode optar por mapear os campos diretamente ou usar as funções do mapeador para transformar dados de origem para derivar valores calculados ou calculados. Para obter mais informações sobre funções de mapeamento e mapeamento de dados, consulte o tutorial sobre como mapear dados CSV para camposde schema XDM.
Para arquivos JSON, além de mapear campos diretamente para outros campos, é possível mapear objetos diretamente para outros objetos e matrizes para outras matrizes.
Observe que não é possível mapear tipos diferentes. Por exemplo, não é possível mapear um objeto para uma matriz ou um campo para um objeto.
Platform fornece recomendações inteligentes para campos mapeados automaticamente com base no schema ou conjunto de dados do público alvo selecionado. É possível ajustar manualmente as regras de mapeamento para atender aos casos de uso.
Selecione dados de Pré-visualização para ver os resultados de mapeamento de até 100 linhas de dados de amostra do conjunto de dados selecionado.
Durante a pré-visualização, a coluna de identidade é priorizada como o primeiro campo, já que são as principais informações necessárias ao validar os resultados do mapeamento.
Depois que os dados de origem forem mapeados, selecione Fechar.
A etapa Agendamento é exibida, permitindo que você configure um agendamento de ingestão para assimilar automaticamente os dados de origem selecionados usando os mapeamentos configurados. A tabela a seguir descreve os diferentes campos configuráveis para programação:
Campo | Descrição |
---|---|
Frequência | As frequências selecionáveis incluem Once , Minute , Hour , Day e Week . |
Intervalo | Um número inteiro que define o intervalo para a frequência selecionada. |
hora do start | Um carimbo de data e hora UTC indicando quando a primeira ingestão está definida para ocorrer. |
Backfill | Um valor booliano que determina quais dados são inicialmente assimilados. Se o preenchimento retroativo estiver ativado, todos os arquivos atuais no caminho especificado serão ingeridos durante a primeira ingestão programada. Se o preenchimento retroativo estiver desativado, somente os arquivos carregados entre a primeira execução da ingestão e a hora do start serão assimilados. Os arquivos carregados antes da hora do start não serão ingeridos. |
Os fluxos de dados são projetados para assimilar dados automaticamente de acordo com uma programação. Start selecionando a frequência da ingestão. Em seguida, defina o intervalo para designar o período entre duas execuções de fluxo. O valor do intervalo deve ser um número inteiro diferente de zero e deve ser definido como maior ou igual a 15.
Para definir a hora de ingestão do start, ajuste a data e a hora exibidas na caixa da hora do start. Como alternativa, você pode selecionar o ícone de calendário para editar o valor de hora do start. O tempo de start deve ser maior ou igual ao tempo atual em UTC.
Forneça valores para o agendamento e selecione Próximo.
Para configurar a ingestão única, selecione a seta suspensa de frequência e selecione Uma vez. Você pode continuar fazendo edições em um conjunto de fluxo de dados para uma ingestão de frequência única, desde que o tempo de start permaneça no futuro. Depois que a hora do start passar, o valor de frequência única não poderá mais ser editado. O intervalo e o preenchimento retroativo não são visíveis ao configurar um fluxo de dados de ingestão única.
Depois de fornecer os valores apropriados para a programação, selecione Avançar.
A etapa de detalhes do Dataflow é exibida, permitindo que você nomeie e forneça uma breve descrição sobre seu novo dataflow.
Durante esse processo, você também pode ativar a assimilação parcial e o diagnóstico de erro. Habilitar a ingestão parcial fornece a capacidade de assimilar dados que contêm erros, até um certo limite que você pode definir. Ativar o diagnóstico de erro fornecerá detalhes sobre quaisquer dados incorretos armazenados em lote separadamente. Para obter mais informações, consulte a visão geral da ingestão em lote parcial.
Forneça valores para o fluxo de dados e selecione Próximo.
A etapa Revisar é exibida, permitindo que você revise seu novo fluxo de dados antes de ele ser criado. Os detalhes são agrupados nas seguintes categorias:
Depois de revisar seu fluxo de dados, clique em Concluir e aguarde algum tempo para que o fluxo de dados seja criado.
Depois que seu fluxo de dados for criado, você poderá monitorar os dados que estão sendo assimilados por ele para ver informações sobre taxas de ingestão, sucesso e erros. Para obter mais informações sobre como monitorar o fluxo de dados, consulte o tutorial sobre contas de monitoramento e fluxos de dados na interface do usuário.
Você pode excluir fluxos de dados que não são mais necessários ou foram criados incorretamente usando a função Excluir disponível na área de trabalho Fluxos de dados . Para obter mais informações sobre como excluir fluxos de dados, consulte o tutorial sobre como excluir fluxos de dados na interface do usuário.
Ao seguir este tutorial, você criou com êxito um fluxo de dados para trazer dados de um armazenamento de nuvem externo e obteve insight sobre conjuntos de dados de monitoramento. Para saber mais sobre como criar fluxos de dados, você pode complementar seu aprendizado assistindo ao vídeo abaixo. Além disso, os dados de entrada agora podem ser usados por Platform serviços de downstream, como Real-time Customer Profile e Data Science Workspace. Consulte os seguintes documentos para obter mais detalhes:
A Platform interface do usuário exibida no vídeo a seguir está desatualizada. Consulte a documentação acima para obter as capturas de tela e a funcionalidade mais recentes da interface do usuário.
As seções a seguir fornecem informações adicionais para trabalhar com conectores de origem.
Quando um fluxo de dados é criado, ele imediatamente se torna ativo e ingere dados de acordo com o agendamento que foi fornecido. Você pode desativar um fluxo de dados ativo a qualquer momento seguindo as instruções abaixo.
Na área de trabalho Fontes , clique na guia Procurar . Em seguida, clique no nome da conta que está associada ao fluxo de dados ativo que você deseja desativar.
A página atividade de origem é exibida. Selecione o fluxo de dados ativo na lista para abrir sua coluna Propriedades no lado direito da tela, que contém um botão de alternância Ativado . Clique na alternância para desativar o fluxo de dados. A mesma alternância pode ser usada para reativar um fluxo de dados depois que ele for desativado.
Os dados de entrada do conector de origem podem ser usados para enriquecer e preencher seus Real-time Customer Profile dados. Para obter mais informações sobre como preencher seus Real-time Customer Profile dados, consulte o tutorial sobre a população doPerfil.