注:リファレンスビデオチュートリアル---網易クラウド教室張Wentong「統計モデリングは、簡単に」
-
従来のモデル:
、
Y:従属変数、X:独立変数、 :未知のパラメータ; :摂動関数。
これらの中で、最初の項目に加えて、従属変数に対する独立変数の影響、共通の特徴を反映し、第二は、人格特性を反映するために添加されます。
統計的モデリング、得られた項目を追加する必要があるの最初の発現、及び分布に従ってにおいて、未知パラメータを推定します。
欠点の伝統的なモデル:
- ディスプレイは、単純な式を解くために使用することができ、より複雑な機能を表すことができません。
- 状況は唯一の独立変数と従属変数から使用することができ区別できます
-
測定スケール変数:
測定スケール:関心を測定する高精度のどの程度で。
- 公称スケール:情報の最小量、=多項
- 順序尺度:=整然と分類は、クラスとクラスの数との差を測定することはできません。
- スケールスケール:測定値、絶対零からのNO固定スケールとの間のギャップだけ加算と減算のため、一定の比率の縮尺は、減算、乗算、除算を行うために絶対的にゼロがあります。
レベル | 変数の型 |
---|---|
名前レベル | クラス変数を考えます |
オーダーレベル | 序変数 |
ベイレベル | 固定ピッチ変数 |
プロポーションレベル | 変数の割合 |
順序変数、変数配列と呼ばれる;指定されたクラスは、変数、ランダム変数と呼ばれてもよい、請求スペーサ変数、変数の固定比率、量的変数と呼ばれています。
高レベルの変数は、情報の一部を破棄することができる低レベルに変換され、等:上から下への下位レベルは、それは注目に値するである0-100からクラステストスコア、可変より組の元々の部分が、分割することができます0-60,60-80,80-100は、変数(序変数)の順序に属する、資格、優れた3種類を失敗するように設定された。さらに情報を放棄:60以上の心の中で、「良い」、または心を」 「悪い、それは与えられたクラス変数に属します。
このプロセスは不正確で、多くの場合、情報を追加するために人々を必要とするため、低レベルは、ハイレベルに変換することはできません。
-
モデルカテゴリー:
独立変数と従属変数を区別することができる場合:
(生存解析モデル注:生存結果を。)
独立変数と従属変数を区別することができない場合:
- 分類の目的によると:
クラスタリング方法:アプリケーションの市場細分化、共同の勧告
予測:回帰モデル、時系列モデル
関連する誘導方法:マーケットバスケット分析、配列解析
- 分類のための原則の方法によると:
伝統的な統計モデルに基づいて、1推論方法
在抽样理论的支持下,首先假定预测比那辆和应i选哪个因素间诚信啊某冲公式化的联系,然后采用假设检验的方法来验证相应的假设是否成立,并给出相应的参数估计值。
2. 基于机器识别基数的自动化方法
非推断性方法,没有前提假设,直接从数据集中寻找关联,后采用验证数据集对找到的关联加以验证。
-
损失函数:
损失函数:衡量模型的信息损失或是预测错误程度的函数。
模型拟合的最终目标:损失函数最小。
对不同类型的变量,常见的损失函数有:
- 对分类变量:错分比例,分类预测正确性,熵;
- 对连续变量:残差所代表的信息量的综合及其所导致的损失,最小乘法中的残差平方和,离均值绝对值之和(最小一乘法)。
注意:因为因子分析和主成分分析没有目标,所以也就不存在损失函数。
有监督的学习,才需要损失函数。
凸函数,convex function ,局部最小值是全局最小值。比如图一,图二。
非凸函数,局部最小值不是全局最小值,如图三。
要尽量把损失函数构造成凸函数,这样一来,求最小值较为容易---此时最小值就是极小值。
-
控制模型的复杂程度:惩罚项
惩罚,即扣分。
在理想的损失函数的基础上加一个惩罚项,用于表达模型的复杂程度,以避免一味地追求精确而使得模型过于复杂。
- 由来:
将原模型:原损失函数 = 模型精确性衡量指标;
修正为:新损失函数 = 模型精确性衡量指标 + 模型复杂度衡量指标;
但是,考虑到在不同的实际应用中所要求的精确和复杂也许不是同等地位的,于是加权,进一步地修正如下:
原损失函数 = 模型精确性衡量指标 + 模型复杂度衡量指。
- 正则化的别名:
- 在机器学习中,正则化(regularization);
- 在统计学领域,模型惩罚项(penalty);
- 在数学上,范数(norm);
- 基本作用:
あまりにも多くのパラメータを避けるために、できるだけ簡単なようにモデルは、オーバーフィッティングにつながることを確認してください。制約モデル特性は、そのようなまばらな、低ランクのようないくつかの事前知識を、追加します。モデルの正則関数の複雑さは、一般的に単調増加関数、より複雑なモデルで、大きなコストです。
- いくつかの一般的な正則/ペナルティ項/標準タイプ:
L0正則:複雑なインデックスがゼロ以外のモデルパラメータの数であり、理解しやすいが、数学を解決することは困難です。
L1正則化:そのような幾何学的なマンハッタン距離としてモデルの各パラメータ(重み付き)和の絶対値(ブロック距離、Iは各成分が差分を行うことを考えると、その距離の絶対値をとる)、これは主に機能するために使用されます選択/スクリーニングの変数、インスタンス:ラッソンリターン。
L2正則:リッジ回帰:平方根、すなわち、ユークリッド距離のモデル(重み付き)和のパラメータの二乗は、主に過剰適合例を防止するために使用されます。
LN正則:オープンモデルのn乗のパラメータ(重み付き)合計n乗。