绪论(1)--周志华机器学习学习笔记与课后习题

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010414589/article/details/53192143

0、写在前面的话

目前一段时间打算利用业务时间学习周志华版《机器学习》,周老师在机器学习界的实力很强,所以这本书不仅仅是一本介绍理论和算法的书籍,更是周老师关于机器学习相关问题的心得体会。如果你没有相关基础,学习一遍也会对机器学习有一个整体框架的了解;若你有了一定基础甚至怀着一些迷茫,读这本书更会有恍然大悟、原来如此之感触。在后续章节中,周老师基于篇幅的考虑有些算法不够详尽,我可能会参考李航老师的《统计学习方法》等书再做进一步补充。
总之,我愿与大家一起深入学习这本书,同时有三点说明:
1、内容会尽可能详尽而不繁琐,目录尽可能清晰明确
2、对于涉及到的概念、算法、课后习题,有留言的我会积极交流
3、白天还有其他事情要做,但我会尽力定期更新,也欢迎大家监督

1、机器学习

机器学习这门学科,是致力于研究如何通过计算的手段,利用经验改变自身的性能。在计算机系统中,经验以数据的形式存在,机器学习所研究的内容是关于在计算机上从数据中产生模型的算法,即是学习算法。有了学习算法,我们把经验数据提供给它,它能够基于这些数据产生模型,在面临一个新的情况时,模型会给我们提供相应的判断。

2、特征、记录与数据集

  • 记录是关于一个事件或者对象的描述,也称之为一个样本;
  • 数据集是由一条条记录组合,是记录的集合;
  • 反映事件或者对象在某一个方面的表现或性质的事项,称之为属性或者特征;
  • 属性上的取值称为属性值或者特征值;
  • 属性组成的空间,称之为属性空间或特征空间;
编号 色泽 根蒂 敲声 西瓜类型
1 青绿 蜷缩 浊响
2 乌黑 蜷缩 浊响
3 青绿 硬挺 清脆
4 乌黑 稍蜷 沉闷

在上面的表中,每一条均为描述西瓜的一条样本;这四条记录的集合称之为数据集;其中描述西瓜表现的属性分别有色泽、根蒂和敲声;在每一条样本中均有对应的属性值,比如第一条中的青绿、蜷缩和浊响;将这三个特征作为三个坐标轴,则形成一个用于描述西瓜的三维空间,每个西瓜均可在这个空间中找到自己的坐标位置。

一般地,令 D={x1,x2,...,xn} 表示包含 m 个样本的数据集,每个样本由 d 个属性描述(例如上面西瓜是由三个属性描述)则每个样本 x1={xi1,xi2,...,xid} d 维样本空间中的一个向量。上面的表述通俗的意思即是一个数据集有 m 个样本,每个样本包含 d 个属性。

3、学习/训练

从数据中学到模型的过程称之为学习或者训练;这个过程是通过执行某个学习算法来完成,训练过程中使用到的数据称之为训练数据(也即是刚刚介绍的数据集),每个样本称之为训练样本;学习得到的模型对应了关于数据的某种潜在规律,称之为假设;而这种潜在规律自身,称之为真相。

通俗的来讲,即是给了我们一个数据集,其中已经蕴含着某种数据规律(即是真相),我们通过一种学习算法,来期望通过训练,找到这种真相,训练完之后我们得到的是模型(即是假设)。而且我们永远不知道我们得到的这种模型是不是真相,因为真相不可知,我们总是在尽力的逼近真相而已。

猜你喜欢

转载自blog.csdn.net/u010414589/article/details/53192143
今日推荐