Visão geral da modelagem estatística avançada com Fluxo Confiável
A modelagem estatística é usada para fazer previsões, detectar padrões e gerar insights dos dados. Isso se aplica a grandes conjuntos de dados de alta dimensão com estruturas complexas de forma distribuída. Use a extensão SQL do Data Distiller para aproveitar modelos estatísticos e transformar dados brutos simplificando e automatizando o pré-processamento de dados em grandes conjuntos de dados de maneira oportuna, paralela e escalável.
Esta série de documentos fornece um guia abrangente sobre o uso da extensão SQL do Data Distiller para executar operações tradicionais de engenharia de recursos e aprendizado de máquina em Fluxo Confiável. Esses documentos foram projetados para ajudá-lo a implementar e aproveitar efetivamente a engenharia de recursos baseada em SQL, a criação de modelos baseados em SQL e o processamento algorítmico. A documentação o orienta pelos aspectos críticos necessários para integrar facilmente a modelagem estatística avançada aos seus workflows de dados SQL regulares.
Recursos capabilities
O Data Distiller fornece as ferramentas necessárias para transformar dados brutos em recursos significativos, criar e treinar modelos estatísticos e usar esses modelos para análise preditiva. A documentação é organizada para ajudar você a entender e aplicar esses recursos passo a passo:
-
Engenharia de recursos: saiba como pré-processar seus dados extraindo, transformando e selecionando os recursos mais relevantes. Saiba mais sobre as funções SQL disponíveis que simplificam e automatizam o processo de engenharia de recursos e como garantir que seus dados estejam preparados de maneira ideal para o treinamento de modelo.
-
Modelos: descubra como gerenciar, avaliar e prever modelos estatísticos de avanços usando SQL. Entenda os principais processos envolvidos no SQL para definir o ciclo de vida desses modelos em seus conjuntos de dados.
-
Algoritmos: explore os algoritmos avançados de modelagem estatística compatíveis com o Data Distiller, incluindo clustering, classificação e regressão. Este documento detalha o processo para usar algoritmos disponíveis, seus parâmetros e como gerar modelos específicos do cliente usando a extensão SQL para atender às suas necessidades comerciais.
Próximas etapas
Para saber como executar tarefas sofisticadas de aprendizado de máquina com recursos do Data Distiller, leia o documento Engenharia de Recursos. Ele descreve como transformar seus dados em recursos prontos para modelagem. Em seguida, prossiga para o documento Modelos, que o orienta pelo processo de criação, treinamento e gerenciamento de modelos confiáveis usando os recursos que você projetou. Por fim, explore o Documento Implementar modelos estatísticos avançados para saber mais sobre os vários modelos confiáveis disponíveis e como implementá-los em seus fluxos de trabalho SQL.