西瓜书阅读记(一)

一、绪论

生活中我们经常会根据自己的经验对新的事物做出判断,我们希望计算机也能通过“学习”获得“经验”从而对新的数据进行判断。机器学习的主要内容便是在计算机上通过从数据中产生“模型”的算法,即“学习算法”。有了学习算法,提供一些“经验”数据,基于这些数据产生模型,在得到新的数据时,模型会提供给我们相应的判断。

基本概念

(1)数据集D:数据记录的集合;(2)示例/样本x:每一条记录;(3)属性/特征:反映事件或性质在某方面的表现或性质的事项;(4):属性值/特征值:属性的取值;(5)属性空间/样本空间/输入空间X:属性张成的空间;(6)特征向量:在属性空间中每个示例对应的一个坐标向量;(7)维数d:属性的个数;(8)学习/训练:通过执行某个学习算法从数据中获得模型的过程;(9)假设:学得模型对应了关于数据的某种潜在规律;(10)真相/真实:这种潜在规律自身;(11)标记y:训练样本的“结果”信息;(12)样例(x,y):拥有标记的示例;(13)标记空间/输出空间Y:所有标记的集合。

eg:收集了一批关于西瓜的数据:数据集D={(色泽=青绿;根蒂=硬挺;敲声=清脆),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)};其中样本x有两条;属性有3个:色泽、根蒂、敲声;属性空间X的维数d是3;除了示例数据外,还需要样本空间Y=(好瓜,坏瓜),则对应的((色泽=青绿;根蒂=硬挺;敲声=清脆),好瓜)表示一个样例。

(14)学习任务:根据训练数据是否有标记可以分为:

(I)监督学习:训练数据有标记信息;

    根据预测的标记是否离散可分为:(a).分类:预测的是离散值;类别数为2时:二分类任务;大于2时:多分类任务(b)回归:预测是连续值

(II)无监督学习:训练数据无标记信息。聚类:将训练集中的示例分为若干组。

通过对训练集进行学习,建立一个从输入空间X到输出空间Y的映射f:X-->Y

其中二分类任务,Y={-1,+1}或{0,1};多分类任务:|Y|>2;回归任务:Y=R(R为实数集)

(15)测试:学得模型后,使用其进行预测的过程成为“测试”;(16)测试样本:被预测的样本;

(17)泛化:学得模型使用于新样本的能力;(18)独立同分布:假设样本空间中全体样本服从一个未知分布D,获得的每个样本都是从独立的从这个分布上采样获得的,即独立同分布。

假设空间

科学推理的两种手段:

(1)归纳:从特殊到一般的“泛化”过程;eg:从样例中学习(2)演绎:从一般到特殊的“特化”过程,eg:基于公理和推理规则推导定理。

∵从样例中学习是归纳过程,∴也成为“归纳学习”

归纳学习:

(1)广义:相当于从样例中学习;

(2)狭义:要求从训练数据中获得概念,也称为“概念学习”

假设空间:

所有假设组成的空间:eg:西瓜问题中只有三个属性,每个属性有三种取值,则假设空间规模大小应该为:4*4*4+1=65(4代表3种取值加上通配符,1代表根本极端情况概念不成立)

学习过程:

在假设空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设。

版本空间:

可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”。

归纳偏好

(1)问题:在一个版本空间中,一个模型在面对新样本的时候会产生不同的输出,即该新样本可匹配版本空间中不同的假设。那么该采用哪种模型或假设呢?

解决:根据其“归纳偏好”得到模型,任何一个机器学习算法在学习过程中都会对某种类型假设有偏好,从而得到确定的学习结果。

(2)问题:学习算法怎么选择合适的偏好呢?也就是说有没有“一般性的原则”引导算法确立“正确的”偏好呢?

解决:常用的是“奥卡姆剃刀原则”:若有多个假设与观察一致,选择最简单的那个。

(3)问题:对于一个学习算法,它在某些问题上比另一种学习算法好,但必然存在另外一些问题,另一种学习算法比该学习算法更好。考虑二分类问题,若所有可能的真实目标函数均匀分布,则通过推导学习算法的误差可以发现总误差与学习算法无关!

NFL定理(没有免费的午餐定理):在所有问题出现的机会相同的前提下,无论学习算法A多么聪明,学习算法B多么笨拙,它们的期望性是相同的!

解决:实际情况下,我们只需考虑我们面对的问题,只需要选择最适合面对问题的算法即可。

发展历程

五十年代:推理器;七十年代:知识期;八十年代:学习期

1.二十世纪五十年代初:已出现机器学习的相关研究:A.Samuel的跳棋程序;

2.五十年代中后期:基于神经网络的“连接主义”学习:感知机、Adaline;

3.六七十年代:基于逻辑表示的“符号主义”学习:结构学习系统、基于逻辑的归纳学习系统、概念学习系统;

       以决策理论为基础的学习技术级强化学习技术

二十世纪五十年代到七十年代初:人工智能处于“推理期”;

七十年代中期:人工智能进入了“知识期”,大量专家系统问世;

八十年代:机器学习成为一个独立的学科领域;

4.八十年代:从样例中学习的一大主流:符号主义学习:决策树、基于逻辑的学习(归纳逻辑程序设计ILP);

5.九十年代中期之前:从样例中学习的另一大主流技术是基于神经网络的连接主义学习,重新得到关注;

5.九十年代中期:统计学习(代表技术:支持向量机SVM及核方法);

6.二十一世纪初:连接主义学卷土重来,掀起了深度学习的热潮。

阅读材料

1)         第一本机器学习专业期刊:Machine Learning

2)         人工智能领域的权威期刊:Artificial  Intelligence

3)         第一本机器学习专门性教材:Mitchell, 1997

4)         出色的入门读物:Duda et al.,2001;  Alpaydin, 2004;  Flach, 2012; 

5)         进阶读物:Hastie et al. , 2009;

6)         适合贝叶斯学习偏爱者:Bishop, 2006

7)         基于WEKA撰写的入门读物,有助于初学者通过WEKA实践快速掌握常用的机器学习算法:Witten et al.,2011

8)         国际机器学习会议:ICML

9)         国际神经信息处理系统会议:NIPS

10)     国际学习理论会议:COLT

11)     国际学术期刊Journal of Machine Learning Research 和 Machine Learning

12)     人工智能领域的重要会议:IJCAI, AAAI

13)     人工智能领域重要期刊:Artifical Intelligence;  Journal of Artifical Intelligence Research

14)     数据挖掘领域重要会议:KDD, ICDM

15)     数据挖掘领域重要期刊:ACM Transactions on Knowledge Discovery from Data;  Data Mining and Knowledge Discovery

16)     计算机视觉和模式识别领域的重要会议:CVPR

17)     计算机视觉与模式识别领域的重要期刊:IEEE Transactions on Pattern  Analysis and Machine Intelligence

18)     神经网络领域的重要期刊:Neural Computation, IEEE Transactions on Neural Networks and Learning System

19)     统计学领域的重要期刊:Annals of Statistics

20)     中国机器学习大会:CCML

21)     中国“机器学习及其应用”研讨会:MLA

        


                                                                                    

猜你喜欢

转载自www.cnblogs.com/wangjm63/p/9802999.html