很多不考的没写,仅供参考
第1章 绪论
1.基本术语
- 记录:如(色泽=青白;敲声=浊响)的一对括号是一条记录
- 数据集:记录的集合
- 示例/特征向量:关于一个事件或对象的描述
- 样例:有了标记信息的示例
- 样本:单个示例或数据集
- 标记空间/输出空间:所有标记的集合
- 属性/特征:反映事件或对象在某方面的表现或性质的事项
- 属性值:属性上的取值
- 属性空间/样本空间/输入空间:属性张成的空间
- 学习/训练:从数据中学得模型的过程
- 测试:学的模型后,使用其进行预测的过程
2.学习任务(根据训练数据是否有标记信息)
- 监督学习:分类和回归
- 无监督学习:聚类
3.科学推理的两大基本手段:归纳、演绎
4.三要素
模型,策略,算法
5.任何一个有效的机器学习算法必有其归纳偏好
第二章 模型评估与选择
1.误差
- 错误率:分类错误的样本占总样本数的比例
- 精度:1-错误率
- 误差:学习器的实际预测输出与样本的真实输出之间的差异
- 泛化误差:在新样本上的误差(得到泛化误差小的学习器)
- 经验误差/训练误差:在训练集上的误差
2.划分数据集
- 使用测试集测试,测试集应该与训练集“互斥”
- 留出法
- 交叉验证法
- 自助法
3.留出法 (hold-out)
- 直接划分为两个集合
- 保持数据分布一致性 (例如: 分层采样)
- 多次重复划分 (例如: 100次随机划分)
- 测试集不能太大、不能太小 (例如:1/5~1/3)
4.交叉验证法 (cross validation)***
- 先划分为k个大小相似的互斥子集
- 每次k-1个作为训练集
- 留一法往往准确(不绝对比别的好),但数据规模大开销也大
5. 自助法 (bootstrap)
- 基于“自助采样” (bootsrap sampling)亦称“有放回采样”、“可重复采样”
- 训练集与原样本集同规模,数据分布有所改变
6.性能度量
-
是衡量模型泛化能力的评价标准,反映了任务需求
-
使用不同的性能度量往往会导致不同的评判结果
-
什么样的模型是“好”的,不仅取决于算法和数据,还取决于任务需求
7.回归(regression) 任务
常用均方误差
8.分类任务:
(1)错误率与精度
- 错误率:分类错误的样本数占样本总数的比例
- 精度:分类正确的样本数占样本总数的比例
- 错误率 = 1-精度
(2)查准率查全率与F1***
- 查准率:准确率
- 查全率:召回率
- 查准率查全率 一对矛盾的度量(一个高,另一个就低)
(3)ROC与AUC
(4)代价敏感错误率与代价曲线
9.比较检验
在某种度量下取得评估结果后,不可以直接比较以评判优劣
10.偏差与方差
- 冲突:
(1)训练不足时,学习器拟合能力不强,偏差主导
(2)随着训练程度加深,学习器拟合能力逐渐增强,方差逐渐主导
(3)训练充足后,学习器的拟合能力很强,方差主导
第三章 线性模型
1.基本形式
-
试图学得一个通过属性的线性组合来进行预测的函数
-
简单、基本、可理解性好
2.线性回归
(1)线性回归函数
- 单变量线性回归
- 离散属性的处理:若有“序”(order),则连续化;否则,转化为 k 维向量
- 基于均方误差最小化来进行模型求解的方法称为“最小二乘法”
- 多元线性回归(引入正则化):
- 对数线性回归:
(2)损失函数
-
三要素
(3)参数优化 -
梯度下降
3.对数几率回归(分类学习算法)
(1)二分类任务
(2)最理想的是“单位阶跃函数”
- 但是性质不好,需要“替代函数”
(3)对率回归
-
几率:样本x作为正例的可能性比作为反例的可能性,反映了 x 作为正例的相对可能性
-
对几率取对数得到对数几率
-
特点
无需事先假设数据分布 可得到“类别”的近似概率预测 可直接应用现有数值优化算法求取最优解
- 可使用“极大似然法”估计参数,令每个样本属于其真实标记的概率越大越好
4.多分类学习
(1)基本思路-拆解法
- 将一个多分类任务拆分为若干个二分类任务求解
(2)三种策略
-
一对一(OvO)
训练N(N-1)/2个分类器,开销大,测试时间大,训练只用两个类的样例,训练时间短
-
一对其余(OvR)
训练N个分类器,开销小,测试时间小,训练用全部样例,训练时间长
-
多对多(MvM)
将若干类作为正类,若干类作为反类 常用技术:纠错输出码,ECOC编码对分类器错误有一定容忍和修正能力 编码越长、纠错能力越强,同等长度编码距离越远,则纠错能力越强 距离最小的类为最终结果
第四章 决策树
1.基本流程
-
分而治之策略,获得最优划分属性
-
递归返回
1.当前结点包含的样本全属于同一类别 2.当前属性集为空, 或是所有样本在所有属性上取值相同,将当前节点标记为叶节点,将其类别设定为该节点所含样本最多的类别 3.当前结点包含的样本集合为空,将当前节点标记为叶节点,将其类别设定其父节点所含样本最多的类别
2.划分选择
- 信息增益
- 增益率
- 基尼指数
3.信息熵
- 度量样本集合“纯度”最常用的一种指标
- Ent(D) 的值越小,则D的纯度越高
4.信息增益
- 计算(这次不考)
(1)首先计算属性值,然后计算属性
(2)比较所有属性,选择最大的
(3)接着往下划分直到满足递归结束条件
5.增益率
- 先从候选划分属性中找出信息增益高于平均水平的,再从中选取增益率最高的
- 缺点是:对取值数目少的属性有偏好
6.基尼指数
- 反映了从 D 中随机抽取两个样例,其类别标记不一致的概率
- 在候选属性集合中,选取那个使划分后基尼指数最小的属性
7.剪枝处理
- 划分选择的各种准则虽然对决策树的尺寸有较大影响,但对泛化性能的影响很有限
- 剪枝方法和程度对决策树泛化性能的影响更为显著
- 主动去掉一些分支来降低过拟合风险
- 分类:预剪枝和后剪枝
- 用验证集来检验精度
8.预剪枝
- 在决策树生成过程中,对每个节点在划分之前先进行估计,若当前节点的划分不能带来决策树泛化性能提升,则停止划分,并将当前节点标记为叶节点(划分时剪枝)
- 例:是否划分脐部
(1)不划分,全为是的验证集
(2)划分后,凹陷=是,平坦=否,稍凹=是,验证集如下
9.后剪枝
- 先从训练集生成一颗完整的决策树,然后自底向上对非叶子结点进行考察,若将该结点对应的子树替换为叶子节点能带来决策树泛化性能提升,则将该子树替换为叶结点(划分完剪枝)
10.两种剪枝对比
(1)时间开销:
• 预剪枝:训练时间开销降低,测试时间开销降低
• 后剪枝:训练时间开销增加,测试时间开销降低
(2)过/欠拟合风险:
• 预剪枝:过拟合风险降低,欠拟合风险增加
• 后剪枝:过拟合风险降低,欠拟合风险基本不变
(3)泛化性能
后剪枝 通常优于 预剪枝
11.连续值处理
-
基本思路:连续属性离散化
-
常见做法:二分法
-
例子
(1)从小到大排序,前后两个求均值
对于数据集中的属性“密度”,在决策树开始学习时,根节点包含的17个训练样本在该属性上取值均不同。该属性的候选划分点集合包括16个候选值:
T密度 = {0.244,0.294,0.351,0.381,0.42.,0.459,0.518,0.574,0.600,0.621,0.636,0.648,0.661,0.681,0.708,0.746}
(2)根据4.8计算,选择最大的信息增益
可知属性“密度”信息增益为0.262,对应划分点0.381.
(3)递归划分
- 与离散属性不同,若当前结点划分属性为连续属性,该属性还可作为其后代结点的划分属性
12.缺失值处理
- 基本思路:样本赋权,权重划分
第五章 神经网络
1.神经网络
- 神经网络是一个具有适应性的简单单元组成的广泛并行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。
- 神经网络学得的知识蕴含在连接权与阈值中
2.激活函数(响应函数)
- 神经元通过激活函数的处理产生输出
- 理想激活函数是阶跃函数 , 0表示抑制神经元而1表示激活神经元
- 阶跃函数具有不连续、不光滑等不好的性质 , 常用的是 Sigmoid 函数
3.神经网络学习
- 利用事先提供的训练数据(学习数据)来调整神经元之间的连接权以及每个功能神经元的阈值
- 学习逻辑:使得神经网络算出的预测值与学习数据的正解(实际值)的总体误差达到最小即可
4.多层前馈网络结构
- 多层网络:包含隐层的网络
- 前馈网络:神经元之间不存在同层连接也不存在跨层连接,即 网络中无环或者回路。
- 隐层和输出层神经元亦称“功能单元”(functional unit),无隐藏层的又称“感知机(Perceptron)”
- 只需一个包含足够多神经元的隐层 , 多层前馈神经网络就能以任意精度逼近任意复杂度的连续函数
- 设置隐层神经元数实际常用“试错法”
5.误差逆传播算法(BP)
(1) 最成功、最常用的神经网络算法,可被用于多种任务
概括:样本输入,隐藏层计算,得到输出结果,误差逆传播算法计算与更新,重复。目标是最小化训练集上的累积误差
(2)基于梯度下降 策略,以目标的负梯度方向对参数进行调整
(3)预处理:属性值一般伸缩到[-1,1], Y伸缩到[0,1]
(4)两种BP差别
(5)BP算法常常导致过拟合
(6)缓解过拟合策略***
-
早停 (early stopping)
• 若训练误差连续 a 轮的变化小于 b, 则停止训练 • 使用验证集:若训练误差降低、验证误差升高 , 则停止训练
-
正则化 (regularization)
• 在误差目标函数中增加一项描述网络复杂度 • 偏好比较小的连接权和阈值,使网络输出更“光滑”
6.“跳出”局部极小的常见策略
-
不同的初始参数
-
模拟退火
-
随机扰动
-
遗传算法
7.最常用的深度学习模型:卷积神经网络
第六章 支持向量机
1.引子
2.间隔与支持向量
将平面写作一个方程:
如图所示:
则距离超平面最近的这几个训练样本点使6.3成立,它们被称为“支持向量”
两个异类支持向量到超平面的距离之和为间隔,即:
所以最合适的超平面就是间隔最大,即寻找
也可等同于寻找:
这就是支持向量机哦的基本型
间隔貌似仅与 w w w有关,但事实上b通过约束隐式也产生影响
3.对偶问题!!!
即求解6.6
(1)
(2)
(3)代入得
再转化一下:
(4)KKT条件
(5)
(6)
别慌,只要你还会求导就问题不大
不会那就慌吧,没救了,除非你能把公式全部背下来(((┏(; ̄▽ ̄)┛装完逼就跑
4.例题
(1)首先这是一个二维平面
所以超平面方程就是 w 1 x 1 + w 2 x 2 + b = 0 w1x1+w2x2+b=0 w1x1+w2x2+b=0
(2)然后根据方程意义,正实例y为1,负实例y为-1,我们将三个点代入可得
这个可以很容易求得
然后就是
emmm,这个问题吧,就这么算就没了…
那你肯定要问就这?就这?
那必然不是就这,下面才是对偶问题的方法
5.真·对偶问题计算
(1)转化为对偶问题
然后列出来,y3还是-1,注意x是(a,b)
总的来说就是:
6.核函数
基本想法:不显式地设计核映射, 而是设计核函数
文本数据使用线性核,情况不明使用高斯核
7.正则化
第七章 贝叶斯分类器
1.贝叶斯决策论
在分类问题情况下,在所有相关概率都已知的理想情形下,贝叶斯决策考虑如何基于这些概率和误判损失来选择最优的类别标记。
2.贝叶斯最优分类器
即对每个样本,选择能使后验概率最大的类别标记
3.后验概率
4.朴素贝叶斯分类器
- 对已知类别,假设所有属性相互独立
计算!!!
5.半朴素贝叶斯分类器
假设每个属性在类别之外最多仅依赖一个其他属性,即
6.EM算法
- 为什么需要EM算法:概率模型有时既含有观测变量,又含有隐变量或者潜在变量
- 如果概率模型的变量都是观测变量,那么给定数据, 可以直接用极大似然估计法,或者贝叶斯估计法估计模型参数。但是,当模型含有隐变量时,就不能简单地使用这些估计方法。
- EM算法就是含有隐变量的概率模型参数的极大似然估计法
- 第一步计算期望(E步),利用当前估计的参数值计算对数似然的期望值;第二步最大化(M步),寻找能使E步产生的似然期望最大化的参数值
- 简单性和普适性
- 收敛,不一定全局极大值,是局部极大值
第八章 集成学习
1.集成学习
- 通过构建并结合多个学习器来提升性能
2.集成个体应:好而不同
准确性和多样性
3.集成学习两大类
- 序列化方法(强依赖关系,串行)
Boosting - 并行化方法(不强依赖,可同时生成)
Bagging和随机森林
4.Boosting
-
可将弱学习器提升为强学习器的算法
-
过程
1.从初始训练集训练出一个基学习器 2.根据基学习器表现对训练样本分布进行调整 3.重复直到基学习器数目达到事先指定的值T,将这T个基学习器进行加权结合
-
主要关注降低偏差,可对泛化性能相当弱的学习器构造出很强的集成
-
Boosting族算法最著名的代表是AdaBoost
-
两个问题
1.如何改变训练数据的权值或概率分布 2.如何将弱分类器合成一个强分类器
-
数据分布的学习
重赋权法
重采样法
5.Bagging
- 并行化生成(基于每个采样集训练出一个基学习器)
- 自助采样法(样本放回)
- 降低方差,在不剪枝的决策树、神经网络等易受样本影响的学习器上效果更好
6.随机森林
-
是bagging的一个扩展变种,以决策树为基学习器构建的bagging集成的基础上,引入随机属性选择
-
属性选择的随机性:对于决策树每个结点,从该节点的属性集合中随机选择一个包含k个属性的子集,从中选择一个最优属性用于划分
7.多样性增强
-
数据样本扰动***
Bagging中的自助采样法 Adaboost中的序列采样 对数据样本的扰动敏感的基学习器(不稳定基学习器) 决策树,神经网络等 对数据样本的扰动不敏感的基学习器(稳定基学习器) 线性学习器,支持向量机,朴素贝叶斯,k近邻等
-
输入属性扰动***
随机子空间算法
-
输出表示扰动
-
算法参数扰动
第九章 聚类
1.聚类任务
- 在“无监督学习”任务中研究最多、应用最广
- 聚类目标:将数据集中的样本划分为若干个通常不相交的子集(“簇”,cluster)
2.距离计算
3.原型聚类
- 也称为“基于原型的聚类” (prototype-based clustering),此类算法假设聚类结构能通过一组原型刻画。
- 原型是指样本空间中具有代表性的点。
4.k均值!!!
初始化每个簇的均值向量
repeat
1. (更新)簇划分;
2. 计算每个簇的均值向量
until 当前均值向量均未更新
四轮与五轮一样,停止