使用信任流量的進階統計模型概覽
統計模型可用來預測、偵測模式,以及從資料產生深入分析。 這適用於具有複雜結構的大型高維度資料集,且為分散式。 使用Data Distiller SQL擴充功能,以及時、平行及可擴充的方式簡化和自動化大型資料集的資料前置處理,進而運用統計模型並轉換原始資料。
本系列檔案提供使用Data Distiller SQL擴充功能,對Trusted Flow執行傳統功能工程和機器學習作業的完整指南。 這些檔案旨在協助您有效實作並運用以SQL為基礎的功能工程、以SQL為基礎的模型建立和演演算法處理。 本檔案會引導您完成重要事項,順利地將進階統計模型整合至一般SQL資料工作流程。
功能 capabilities
資料Distiller提供您必要工具,將原始資料轉換為有意義的功能,建立並訓練統計模型,以及使用這些模型來進行預測性分析。 本檔案旨在協助您逐步瞭解並套用這些功能:
-
功能工程:瞭解如何透過擷取、轉換及選取最相關的功能,預先處理您的資料。 瞭解可簡化和自動化功能工程程式的可用SQL函式,以及如何確保您的資料以最佳方式做好模型訓練的準備。
-
模型:探索如何使用SQL管理、評估及預測進階統計模型。 瞭解SQL中涉及的核心程式,以定義資料集上這些模型的生命週期。
-
演演算法:探索Data Distiller支援的進階統計模型演演算法,包括叢集、分類和回歸。 本檔案詳細說明使用可用演演算法的程式、其引數,以及如何使用SQL擴充功能產生客戶特定模型,以滿足您的業務需求。
後續步驟
若要瞭解如何使用Data Distiller功能執行複雜的機器學習任務,請閱讀功能工程檔案。 它概述如何將資料轉換成可建立模型的功能。 接下來,繼續進行模型檔案,此檔案會引導您使用您設計的功能,完成建立、訓練和管理受信任模型的程式。 最後,請探索實作進階統計模型檔案,瞭解各種可用的信任模型,以及如何在SQL工作流程中實作這些模型。