[]機械学習機械学習の基礎

I.はじめに

  いくつかの利益は、それが前方につまずきにも、このブログの学習機械学習過程で記録し、私は、学習過程に感謝を助けた人に感謝します!学習過程で、同時にまた、多くの知識を学ぶために、彼/彼女の無私の共有に非常に感謝のブログをたくさん読んで。少し長い時間を学習するので、最近概要を整理し、可能な限り元の知識を示すようになった。マークされていない場合は、非常に申し訳ありません、私はリンクを追加することができます。

1.基本的な流れ

  次のように基本的な機械学習プロセスを要約することができます。

                                                

 

                                             

  データ収集は、よく理解され、我々はこのようなデータセットを見つける必要があり、データ・クレンジング等「汚れ」に収集されたデータ、ノイズの存在、欠損値を指し、特定のデータ処理の必要性はバックであろう「線形回帰」エンジニアリングは、理論的には、直接データモデリングのデータクリーニング後に適用することができます反映データから抽出したデータの真の分布の特徴を意味し、その必要性を特徴づけるために、なぜそれが動作します。特にの例は、データクリーニングの重要性を強調しました?主にプロジェクトを備えていない場合ので、簡単にモデルの、パフォーマンスの低下「次元の呪い」につながる、と清掃が独立していないため、プロジェクトのもう一つの特徴は、より抽出した後ので、データ間の冗長性の特徴は、そこにありますフィーチャーベースのモデリングの賛成で、それが回帰であれば、それは分類分類モデルを確立した場合、データモデリング、それ、回帰モデルが確立され、性能評価は、評価指標を指し得る私達の訓練のモデル性能のいくつかの種類をどのように適用するかを決定するために、一般的な指標はそうで二乗誤差、リコール、精度、PR曲線、AUC値、および意味します。基本的なプロセスを機械学習はトマトスクランブルエッグでケースに例えることができます。あなたが異常なノイズデータクリーニングを削除するとデータ収集が原因慎重に選んで毎日の激務を購入する時に、食品市場から私たちの購入の卵とトマトに対応して、いくつかの悪いが、彼のクリーンアップにあった、機能が対応する清掃に取り組んでいますスライスしたトマト、卵、よくかき混ぜ、これはさらなる処理のためのプロセスであり、すべての準備が整った、あなたは揚げトマトと卵を開始することができ、それは、機械学習に対応するデータモデリングで、姿勢の様々な料理異なるモデル、アルゴリズムや最適化手法を使用してモデリングするように。鍋の前に、あなたは良いか悪い性能評価モデルのパフォーマンスが決定されるのと同様に、風味を味わうために必要があります。基本的なプロセスの及びからの実施例[1]。

2.基本的な仮定

  伝統的な機械学習では、モデルをより高い精度と信頼性で訓練を受けていることを確実にするためには、二つの基本的な仮定があります。

    (1)優れた分類モデルを学ぶことができるように十分な空き、クリーン学習サンプルが存在する必要があります。

    (2)学習と新しい試験サンプルのためのトレーニングサンプルが独立した同一分布を満たしています。

  どのようにこれらの2つの仮定それを理解するには?機械学習は数学的モデルを構築するためのデータ、この文を循環させる機械学習セッションに依存して、データ駆動型アプローチです:「データおよび特性は、機械学習アルゴリズムの上限を決定し、モデルやアルゴリズムはちょうどこの限界に近いそれを維持します。」機能が正常化するかどうかを、カテゴリのバランス、またはノイズの不在かどうか、など不足しているサンプル値があるかどうかなど、完全にデータの特性のいくつかを検討するためのアルゴリズムを学ぶというように、これらの2つの仮定ことは注目に値するマシンを設計する前に、データに関する仮定は、私たちは良いデータの重要性を見ることができます。

3.基本的な要素

  機械学習法は限られた観測データからの学習(または「推測」)一般的なルールを持つ、非観測サンプルの利用を促進するためにまとめることができています。モデル、学習基準、最適化手法:機械学習方法は、大きく3つの基本要素に分けることができます。[2]

  モデルは、数学的モデル、回帰モデルまたは実際の問題に基づいて分類モデルの種類を確立することを意味し、基準を学ぶことは、最も一般的に使用される機能は、平均二乗誤差など、ターゲットと呼ばれる機能または機能の損失の種類を確立することを意味し、0 1つの損失関数、一般ように、クロスエントロピー損失関数で使用され、深い学習分類。最も一般的に勾配降下法である目的関数を解くために最小値または最大値を最適化する方法を意味するが、なぜなら多くの場合、目的関数は凸関数ではないので、勾配降下法を使用することは必ずしも最もの値に収束しません、

4.定理

(1)はフリーランチ定理ありません[2]

  具体的な分析を必要とする特定の問題のための任意の領域やタスクに適した機械学習アルゴリズムの不在。存在しないアルゴリズムに基づいた反復最適化アルゴリズムのためにすべての問題(制限された探索空間)に対して有効です。アルゴリズムは、特定の問題に対して有効である場合、それはいくつかの他の問題に悪い上、純粋なランダム探索アルゴリズムよりも優れている必要があります。言い換えれば、アルゴリズムのメリットについて話をし、特定の問題から離婚されない、任意のアルゴリズムには限界があります。

(2)オッカムの剃刀

  「必要でない場合は、エンティティによってません。」モデルは二つの特性に類似している場合、我々は単純なモデルを選択する必要があります。

(3)丑小鸭定理
  “丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大”。在没有假设或者先验知识的情况下,我们没有理由偏爱任何一组特征表示,而忽略其它特征表示。

(4)最短描述长度定理
  要求模型的复杂度和该模型描述训练数据的描述长度之和最小化。

       

  以决策树模型为例,决策树中节点的个数可视为模型的复杂度,所有叶节点上数据的熵的加权和可以用来描述模型训练数据的复杂度,最短描述长度定理要求模型的复杂度和模型描述训练数据的描述长度之和最小,也就是说在性能指标相差无几的情况下,决策树越“精炼”,叶节点数据熵加权和越小、越纯,也许这样的决策树模型会更好。

 5.总结

  上面就是我对机器学习的一些总结和认识,为了方便记忆,归纳成“一个流程、两个假设、三个要素、四个定理”,在理解了这些,在选择机器学习模型和算法的时候,也许能提供一些帮助,而不是完全按照经验来选择。

参考文献

[1]邹博.机器学习(网课)

[2]邱锡鹏.神经网络与深度学习

[3]周志华.机器学习[M].北京:清华大学出版社.

おすすめ

転載: www.cnblogs.com/chen-hw/p/11525739.html