机器学习知识梳理一

一、统计学概要

    1、研究X与Y之间的关系,最理想的是找到一个映射,使得Y=f(X),但是实际当中很难找到,也就是搞不清楚X与Y之间到底是什么定量的关系,宏观上表现出来的就是结果的不确定性。尽管,每一次输入X时,得到什么Y是不确定的,但是当重复次数足够多时,出现某个结果的可能性可以计算出来的,研究这种微观的不确定,但是宏观上是确定的学科就是统计学。

    2、大数定律: 实验次数足够多时可以用频率代替概率

    3、中心极限定理 多个相互独立的随机因素来共同影响一个结果时,结果一般遵守正态分布;正态分布是二项分布的极限情况;

设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。

    4、样本(整体是一个随机变量,会得到样本概率):观察n次,每次观察的结果都是一个随机变量,这n个随机变量独立、同分布,这n个随机变量合在一起叫做 样本X=(X1, X2, X3...)  样本整体的分布是每个分布的乘积

    5、最大似然估计:点估计的一种,其基本想法是能取到的样本值肯定是概率大的,所以能使整个的概率最大的参数xita,就是参数的估计值。也就是样本固定,让theta变化,取出哪个theata让整个似然函数取到极值,就认为是那个参数。这个值与样本值有关系。求解时可以先取对数,再求导数=0

    6、回归分析:分析变量之间的关系。确定性:函数关系 不确定性:变量是随机变量,用均值作为参考点

通过点图大概估计形式,之后因为样本值符合正态分布,进而整体的联合分布是确定的,进而极大似然函数确定,进而可以求出参数

    7、估计的评价(使用哪个估计量为结果比较靠谱?):无偏、有效、相合性

二、基本概念

    1、人工智能:让机器像人一样聪明。人工智能发展历史:机器能够推理(符号化和逻辑)、机器需要知识来支撑推理(专家系统)、自动化的获得知识(机器学习)。

    2、机器学习:人工智能的一个分支,主要是让机器学会总结经验(没有办法去创造或“顿悟”,仅仅是归纳)。其输入是训练数据,输出是X、Y的联合分布或者是X、Y之间的映射关系。机器能处理问题不是因为程序员书写了程序,而是因为机器自己可以学习知识,即程序里的算法是机器自己学习到的。

机器学习的发展历史:类似于决策树的符号系统(模拟人类对概念的判断)、类似于神经网络的连接系统(最主要的问题是调整参数,整个思考的过程是黑箱)、统计学习(支持向量机 核方法)、深度学习(自动找到和描述特征)

深度学习的缺点:缺乏理论,需要调参的技巧,需要极大的数据和计算能力,但是容易入门和学习

    3、解决的问题:

    1》分类问题(结果是有限的可能) 如 是否垃圾邮件、股票是否涨、图片里是狗、猫、还是人?

常用算法:逻辑回归(工业界最常用),支持向量机,随机森林,朴素贝叶斯(NLP中常用),深度神经网络(视频、图片、语音等多媒体数据中使用)。

    2》回归问题(结果有无限个可能)如 北京2个月后的房价

常用算法:线性回归,普通最小二乘回归(Ordinary Least Squares Regression),逐步回归(Stepwise Regression),多元自适应回归样条(Multivariate Adaptive Regression Splines)

    3》聚类问题(找到相似的数据) 如 用户群体划分   也叫无监督学习

常用算法:K均值(K-means),基于密度聚类,LDA

    4、三要素

     模型(model):输入、输出的联合分布律或对应的函数族(带有需要确定的参数)

    策略(strategy):模型评价的准则

    算法(algorithm):根据策略,确定模型的算法

损失函数:预测值与真实值之间的差异

风险函数:损失函数的期望,当样本足够多时,可以用经验风险来替代(极大似然估计)

经验风险:对训练集误差的期望

常见的策略:经验风险最小化(极大似然估计)、

结构风险:(structural risk minimization SRM)添加一个惩罚项 J(f)

    5、泛化能力:预测新数据时的准确程度

过拟合:预测的参数比真实的还多(太多的细节反而不是总体的规律),也就是归纳的层次太低(过拟合一定有,关键是怎么减少)

处理方法:在经验风险之外添加一个惩罚项

猜你喜欢

转载自eric-weitm.iteye.com/blog/2348984