绪论(1)--周志华机器学习学习笔记与课后习题

0、写在前面的话

目前一段时间打算利用业务时间学习周志华版《机器学习》，周老师在机器学习界的实力很强，所以这本书不仅仅是一本介绍理论和算法的书籍，更是周老师关于机器学习相关问题的心得体会。如果你没有相关基础，学习一遍也会对机器学习有一个整体框架的了解；若你有了一定基础甚至怀着一些迷茫，读这本书更会有恍然大悟、原来如此之感触。在后续章节中，周老师基于篇幅的考虑有些算法不够详尽，我可能会参考李航老师的《统计学习方法》等书再做进一步补充。
总之，我愿与大家一起深入学习这本书，同时有三点说明：
1、内容会尽可能详尽而不繁琐，目录尽可能清晰明确
2、对于涉及到的概念、算法、课后习题，有留言的我会积极交流
3、白天还有其他事情要做，但我会尽力定期更新，也欢迎大家监督

1、机器学习

机器学习这门学科，是致力于研究如何通过计算的手段，利用经验改变自身的性能。在计算机系统中，经验以数据的形式存在，机器学习所研究的内容是关于在计算机上从数据中产生模型的算法，即是学习算法。有了学习算法，我们把经验数据提供给它，它能够基于这些数据产生模型，在面临一个新的情况时，模型会给我们提供相应的判断。

2、特征、记录与数据集

记录是关于一个事件或者对象的描述，也称之为一个样本；
数据集是由一条条记录组合，是记录的集合；
反映事件或者对象在某一个方面的表现或性质的事项，称之为属性或者特征；
属性上的取值称为属性值或者特征值；
属性组成的空间，称之为属性空间或特征空间；

编号	色泽	根蒂	敲声	西瓜类型
1	青绿	蜷缩	浊响	是
2	乌黑	蜷缩	浊响	是
3	青绿	硬挺	清脆	否
4	乌黑	稍蜷	沉闷	否

在上面的表中，每一条均为描述西瓜的一条样本；这四条记录的集合称之为数据集；其中描述西瓜表现的属性分别有色泽、根蒂和敲声；在每一条样本中均有对应的属性值，比如第一条中的青绿、蜷缩和浊响；将这三个特征作为三个坐标轴，则形成一个用于描述西瓜的三维空间，每个西瓜均可在这个空间中找到自己的坐标位置。

一般地，令 $D=\{x_1,x_2,...,x_n\}$ 表示包含 $m$ 个样本的数据集，每个样本由 $d$ 个属性描述（例如上面西瓜是由三个属性描述）则每个样本 $x_1 = \{x_{i1},x_{i2},...,x_{id} \}$ 是 $d$ 维样本空间中的一个向量。上面的表述通俗的意思即是一个数据集有 $m$ 个样本，每个样本包含 $d$ 个属性。

3、学习/训练

从数据中学到模型的过程称之为学习或者训练；这个过程是通过执行某个学习算法来完成，训练过程中使用到的数据称之为训练数据（也即是刚刚介绍的数据集），每个样本称之为训练样本；学习得到的模型对应了关于数据的某种潜在规律，称之为假设；而这种潜在规律自身，称之为真相。

通俗的来讲，即是给了我们一个数据集，其中已经蕴含着某种数据规律（即是真相），我们通过一种学习算法，来期望通过训练，找到这种真相，训练完之后我们得到的是模型（即是假设）。而且我们永远不知道我们得到的这种模型是不是真相，因为真相不可知，我们总是在尽力的逼近真相而已。