Trusted Flow による高度な統計モデリングの概要
統計的モデリングは、予測の作成、パターンの検出、データからのインサイトの生成に使用されます。 これは、複雑な構造を持つ大規模で高次元のデータセットに分散して適用できます。 Data Distiller SQL 拡張機能を使用すると、大規模なデータセットに対するデータの前処理をタイムリーかつ並行してスケーラブルにシンプル化および自動化することで、統計モデルを活用し、生データを変換できます。
この一連のドキュメントでは、Data Distiller SQL 拡張機能を使用して、従来の機能エンジニアリングおよび機械学習オペレーションを Trusted Flow で実行する方法について、包括的に説明します。 これらのドキュメントは、SQL ベースの機能エンジニアリング、SQL ベースのモデル作成、アルゴリズム処理を効果的に実装および活用することを目的としています。 このドキュメントでは、高度な統計モデリングを通常の SQL データワークフローにシームレスに統合するために必要な重要な側面について説明します。
機能 capabilities
Data Distillerでは、生データを意味のある機能に変換し、統計モデルを構築およびトレーニングし、これらのモデルを予測分析に使用するために必要なツールを提供します。 ドキュメントは、これらの機能を理解し、適用するのに役立つように構成されています。
-
機能エンジニアリング:最も関連性の高い機能を抽出、変換、選択して、データを前処理する方法を説明します。 機能エンジニアリングプロセスを簡素化し自動化するために使用可能な SQL 関数と、モデルトレーニング用にデータが最適に準備されていることを確認する方法について説明します。
-
モデル:SQL を使用して進歩の統計モデルを管理、評価、予測する方法を説明します。 SQL に関連するコアプロセスを理解し、データセットに対するこれらのモデルのライフサイクルを定義します。
-
アルゴリズム:クラスタリング、分類、回帰など、Data Distillerでサポートされている高度な統計モデリングアルゴリズムについて説明します。 このドキュメントでは、使用可能なアルゴリズムを使用するプロセスとそのパラメータ、およびビジネスニーズを満たすために SQL 拡張機能を使用して顧客固有のモデルを生成する方法について詳しく説明します。
次の手順
Data Distiller機能を使用して高度な機械学習タスクを実行する方法については、 機能エンジニアリング ドキュメントを参照してください。 データをモデリングに対応した機能に変換する方法の概要を説明します。 次に、 モデル ドキュメントに進みます。このドキュメントでは、エンジニアリングした機能を使用して、信頼できるモデルを作成、トレーニング、および管理するプロセスについて説明します。 最後に、 高度な統計モデルの実装 ドキュメントを参照して、使用可能な様々な信頼できるモデルと、SQL ワークフロー内での実装方法について確認します。