Extensão SQL de engenharia de recursos

AVAILABILITY
Essa funcionalidade está disponível para clientes que compraram o complemento Data Distiller. Para obter mais informações, entre em contato com o(a) representante da Adobe.

Para atender às suas necessidades de engenharia de recursos, use a extensão do transformador SQL para simplificar e automatizar o pré-processamento de dados. Use essa extensão para criar recursos e aproveitar a experimentação contínua com diferentes técnicas de engenharia de recursos, incluindo a associação deles a modelos. Projetado para computação distribuída, você pode realizar a engenharia de recursos em grandes conjuntos de dados de maneira paralela e escalável, reduzindo significativamente o tempo necessário para o pré-processamento de dados com a extensão SQL de engenharia de recursos do Data Distiller.

Visão geral da técnica technique-overview

Os recursos de engenharia de recursos abrangem três áreas principais: Extração de recursos, Transformação de recursos e Seleção de recursos. Cada área inclui funções específicas projetadas para extrair, converter, focalizar e melhorar o pré-processamento de dados.

Extração de recursos feature-extraction

Extraia informações relevantes de seus dados, especialmente dados de texto, e converta-os em um formato numérico que os modelos compatíveis possam consumir ou transformar e derivar conjuntos de dados. Use as seguintes funções para executar a extração de recursos:

  • Transformador textual: converta dados textuais em recursos numéricos.
  • Vetorizador de Contagem: transforma uma coleção de documentos de texto em vetores de contagens de token.
  • N-grama: gerar sequências de n-gramas a partir de dados de texto.
  • Removedor de Palavras Irrelevantes: filtre palavras comuns que não tenham significado significativo.
  • TF-IDF: Meça a importância das palavras em um documento em relação a um corpo.
  • Tokenizer: dividir o texto em termos individuais (palavras).
  • Word2Vec: mapear palavras para vetores de tamanho fixo e criar incorporações de palavras.

Transformação de recursos feature-transformation

Além de extrair recursos, use os seguintes transformadores gerais para preparar seus recursos para modelos estatísticos avançados e conjuntos de dados derivados. Aplique dimensionamento, normalização ou codificação para garantir que seus recursos estejam na mesma escala e tenham uma distribuição semelhante.

Transformadores gerais

Veja abaixo uma lista de ferramentas para processar uma grande variedade de tipos de dados para aprimorar o fluxo de trabalho de pré-processamento de dados.

  • Imputador Numérico: Preencher valores ausentes em colunas numéricas com um valor especificado, como a média ou mediana.
  • Imputador de Cadeia de Caracteres: substitua os valores de cadeia de caracteres ausentes por um valor especificado, como a cadeia de caracteres mais frequente na coluna.
  • Assembler de Vetor: combine várias colunas em uma única coluna de vetor para preparar dados para modelos de aprendizado de máquina.
  • Imputador booleano: preencha os valores booleanos ausentes com um valor especificado, como true ou false.

Transformadores numéricos

Aplique essas técnicas para processar e dimensionar dados numéricos de maneira eficaz e obter um melhor desempenho do modelo.

  • Binarizador: converte recursos contínuos em valores binários com base em um limite.
  • Bucketizer: mapeie recursos contínuos em compartimentos discretos.
  • Escalonador Mín-Máx: redimensione os recursos para um intervalo especificado, normalmente [0, 1].
  • Escalonador Abs Máx: redimensiona os recursos para o intervalo [-1, 1] sem alterar a dispersão.
  • Normalizador: normalize os vetores para ter uma norma de unidade.
  • Discretizer de Quantidade: converta recursos contínuos em recursos categóricos compartimentando-os em quantis.
  • Escalonador Padrão: Normalize os recursos para ter um desvio padrão de unidade e/ou média zero.

Transformadores categóricos

Use esses transformadores para converter e codificar dados categóricos em formatos adequados para modelos de aprendizado de máquina.

Seleção de recursos feature-selection

Em seguida, concentre-se em selecionar um subconjunto dos recursos mais importantes do conjunto original. Esse processo ajuda a reduzir a dimensionalidade dos dados, facilitando o processamento dos modelos e melhorando o desempenho geral do modelo.

Implementar a cláusula OPTIONS options-clause

Ao definir seu modelo, use a cláusula OPTIONS para especificar o algoritmo e seus parâmetros. Comece definindo o parâmetro type para indicar o algoritmo que você está usando, como K-Means. Em seguida, defina os parâmetros relevantes na cláusula OPTIONS como pares de valores-chave para ajustar o modelo. Se você optar por não personalizar determinados parâmetros, o sistema aplicará as configurações padrão. Consulte a documentação relevante para entender a função de cada parâmetro e os valores padrão.

Próximas etapas

Depois de aprender as técnicas de engenharia de recursos descritas neste documento, vá para o documento Modelos. Ele orienta você pelo processo de criação, treinamento e gerenciamento de modelos confiáveis usando os recursos que você projetou. Depois que seus modelos forem criados, prossiga para o Documento Implementar modelos estatísticos avançados.. Este documento serve como uma visão geral, vinculando a guias detalhados para diferentes técnicas de modelagem, incluindo clustering, classificação e regressão. Ao seguir esses documentos, você aprenderá a configurar e implementar vários modelos confiáveis em seus workflows de SQL e a otimizar seus modelos para análise avançada de dados.

recommendation-more-help
ccf2b369-4031-483f-af63-a93b5ae5e3fb