绪论(2)--周志华机器学习学习笔记与课后习题

写在前面的话

目前一段时间打算利用业务时间学习周志华版《机器学习》，周老师在机器学习界的实力很强，所以这本书不仅仅是一本介绍理论和算法的书籍，更是周老师关于机器学习相关问题的心得体会。如果你没有相关基础，学习一遍也会对机器学习有一个整体框架的了解；若你有了一定基础甚至怀着一些迷茫，读这本书更会有恍然大悟、原来如此之感触。在后续章节中，周老师基于篇幅的考虑有些算法不够详尽，我可能会参考李航老师的《统计学习方法》等书再做进一步补充。
总之，我愿与大家一起深入学习这本书，同时有三点说明：
1、内容会尽可能详尽而不繁琐，目录尽可能清晰明确
2、对于涉及到的概念、算法、课后习题，有留言的我会积极交流
3、白天还有其他事情要做，但我会尽力定期更新，也欢迎大家监督

接绪论(1)继续…

4、测试/检验

如果我们希望学到的模型能够帮助我们判断没刨开的瓜是不是好瓜，在模型的学习阶段不仅要给出训练数据每个样本的特征值，还要给出每个样本所对应的标记（或者叫标签），它属于每条训练样本的结果信息。例如“色泽=青绿，根蒂=蜷缩，敲声=浊响”–>”好瓜”，这个“好瓜”即是标记。

一般地，我们用 $(x_i,y_i)$ 作为一个样本的完整表示，其中 $y_i \in Y$ ， $Y$ 是所有标记的集合，也称之为输出空间。

对于输出空间来说，当我们欲预测的是离散值时，比如“好瓜”“坏瓜”，这类学习任务称之为分类任务；其中只涉及到两个类的分类任务为二分类任务，比较常见；对于多个类的分类任务，为多分类任务。当我们欲预测的是连续值时，比如西瓜的成熟度0.4,0.75，这类学习任务称之为回归任务；

一般地，预测任务是希望通过对训练集 $\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ 进行学习，建立一个从输入空间 $X$ 到输出空间 $Y$ 的映射: $X->Y$ 。

学习得到模型之后，我们还需要通过“测试数据”对模型进行测试，目的是检验模型的性能（我们找到的规律是不是足够接近数据的规律）。那么测试数据与训练数据的关系是给定我们一个数据集，我们可以采用一个比例（比如0.7），选出70%的数据作为训练数据，30%的数据作为测试数据。（后面对训练数据与测试数据的划分还会有更详细的介绍）

5、聚类

以上的介绍都是针对训练数据中有标记的情况。若给的数据集每条样本只有特征值，没有对应的标记，我们可以通过一些学习算法，对数据集中的样本聚集成一些类。

一般地，根据训练数据是否拥有标记信息，学习任务可以分为两大类：监督学习（例如分类与回归任务）和无监督学习（例如聚类任务）。

6、泛化能力

机器学习的目的是学得的模型能很好的适用于新样本（未知标记的样本），而不仅仅是在训练样本中表现良好。学得的模型适用于新样本的能力，称之为泛化能力。具有强泛化能力的模型能够适用于整个样本空间，于是，尽管训练集只是样本空间的一个很小的采样，但我们仍然希望它能够很好地反映出样本空间的特性，否则就很难期望在训练数据上学得的模型在整个样本空间都能表现的良好。

一般地，假设样本空间的全体样本都服从某一个未知的分布 $D$ ,我们获得的每个样本都是独立地从这个分布上采样获得的。即独立同分布。一般而言，训练样本越多，我们得到的关于 $D$ 的信息越多，这样就越有可能通过学习获得具有强泛化能力的模型。