机器学习练习题（二）

从牛客网找来得题目，解析是题目下的高赞答案。

1.下面有关分类算法的准确率，召回率，F1 值的描述，错误的是？

a.准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率

b.召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率

c.正确率、召回率和 F 值取值都在0和1之间，数值越接近0，查准率或查全率就越高

d.为了解决准确率和召回率冲突问题，引入了F1分数

答案：C

解析：对于二类分类问题常用的评价指标是精准度（precision）与召回率（recall）。通常以关注的类为正类，其他类为负类，分类器在测试数据集上的预测或正确或不正确，4种情况出现的总数分别记作：

TP——将正类预测为正类数

FN——将正类预测为负类数

FP——将负类预测为正类数

TN——将负类预测为负类数

由此：

精准率定义为：P = TP / (TP + FP)

召回率定义为：R = TP / (TP + FN)

F1值定义为： F1 = 2 P R / (P + R)

精准率和召回率和F1取值都在0和1之间，精准率和召回率高，F1值也会高，不存在数值越接近0越高的说法，应该是数值越接近1越高。

2.以下哪些方法不可以直接来对文本分类？

a.Kmeans

b.决策树

c.支持向量机

d.KNN

答案：A

解析：Kmeans是聚类方法，典型的无监督学习方法。分类是监督学习方法，BCD都是常见的分类方法。

3.以下哪个是常见的时间序列算法模型?

a.RSI

b.MACD

c.ARMA

d.KDJ

答案：C

解析：时间序列中常用预测技术一个时间序列是一组对于某一变量连续时间点或连续时段上的观测值。

1. 移动平均法 (MA)

1.1. 简单移动平均法

设有一时间序列y1,y2,..., 则按数据点的顺序逐点推移求出N个数的平均数，即可得到一次移动平均数.

1.2 趋势移动平均法

当时间序列没有明显的趋势变动时，使用一次移动平均就能够准确地反映实际情况，直接用第t周期的一次移动平均数就可预测第1t+周期之值。

时间序列出现线性变动趋势时，用一次移动平均数来预测就会出现滞后偏差。修正的方法是在一次移动平均的基础上再做二次移动平均，利用移动平均滞后偏差的规律找出曲线的发展方向和发展趋势，然后才建立直线趋势的预测模型。故称为趋势移动平均法。

2. 自回归模型(AR)

AR模型是一种线性预测，即已知N个数据，可由模型推出第N点前面或后面的数据（设推出P点）.

本质类似于插值，其目的都是为了增加有效数据，只是AR模型是由N点递推，而插值是由两点（或少数几点）去推导多点，所以AR模型要比插值方法效果更好。

3. 自回归滑动平均模型(ARMA)

其建模思想可概括为：逐渐增加模型的阶数，拟合较高阶模型，直到再增加模型的阶数而剩余残差方差不再显著减小为止。

4. GARCH模型

回归模型。除去和普通回归模型相同的之处，GARCH对误差的方差进行了进一步的建模。特别适用于波动性的分析和预测。

5. 指数平滑法

移动平均法的预测值实质上是以前观测值的加权和，且对不同时期的数据给予相同的加权。这往往不符合实际情况。

指数平滑法则对移动平均法进行了改进和发展，其应用较为广泛。

基本思想都是：预测值是以前观测值的加权和，且对不同的数据给予不同的权，新数据给较大的权，旧数据给较小的权。

根据平滑次数不同，指数平滑法分为：一次指数平滑法、二次指数平滑法和三次指数平滑法等。

4.SPSS的界面中，以下是主窗口是（）

答案：数据编辑窗口。

5.在Logistic Regression 中,如果同时加入L1和L2范数,会产生什么效果()

a.可以做特征选择,并在一定程度上防止过拟合

b.能解决维度灾难问题

c.能加快计算速度

d.可以获得更准确的结果

答案：A

解析：此解析是我看特征选择的博客看到的，是做特征选择看可以使用L1，L2范数，具体如下：
Ｌ１范数具有系数解的特性，但是要注意的是，Ｌ１没有选到的特征不代表不重要，原因是两个高相关性的特征可能只保留一个。如果需要确定哪个特征重要，再通过交叉验证。
为什么L1，L2范数可以防止过拟合呢
在代价函数后面加上正则项，Ｌ１即是Ｌｏｓｓｏ回归，Ｌ２是岭回归
但是它为什么能防止过拟合呢？
奥卡姆剃刀原理：能很好的拟合数据且模型简单
模型参数在更新时，正则项可使参数的绝对值趋于０，使得部分参数为０，降低了模型的复杂度（模型的复杂度由参数决定），从而防止了过拟合。提高模型的泛化能力。

6.一般，k-NN最近邻方法在( )的情况下效果较好

a.样本较多但典型性不好

b.样本较少但典型性好

c.样本呈团状分布

d.样本呈链状分布

答案：B

解析：样本呈团状颇有迷惑性，这里应该指的是整个样本都是呈团状分布，这样kNN就发挥不出其求近邻的优势了，整体样本应该具有典型性好，样本较少，比较适宜。

7.以下几种模型方法属于判别式模型的有（）

a.混合高斯

b.CRF

c.区分度训练

d.隐马尔科夫模型

答案：BC

解析：判别式模型与生成式模型的区别

产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念，它们的区别在于：

对于输入x，类别标签y：
产生式模型估计它们的联合概率分布P(x,y)
判别式模型估计条件概率分布P(y|x)

产生式模型可以根据贝叶斯公式得到判别式模型，但反过来不行。

Andrew Ng在NIPS2001年有一篇专门比较判别模型和产生式模型的文章：
On Discrimitive vs. Generative classifiers: A comparision of logistic regression and naive Bayes

(http://robotics.stanford.edu/~ang/papers/nips01-discriminativegenerative.pdf)

判别式模型常见的主要有：

Logistic Regression

SVM

Traditional Neural Networks

Nearest Neighbor

CRF

Linear Discriminant Analysis

Boosting

Linear Regression

产生式模型常见的主要有：

Gaussians

Naive Bayes

Mixtures of Multinomials

Mixtures of Gaussians

Mixtures of Experts

HMMs

Sigmoidal Belief Networks, Bayesian Networks

Markov Random Fields

Latent Dirichlet Allocation

8.下列不是SVM核函数的是：

a.多项式核函数

b.logistic核函数

c.径向基核函数

d.Sigmoid核函数

答案：B

解析：SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数。

9.已知一组数据的协方差矩阵P,下面关于主分量说法错误的是()

a.主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量分量的条件下,以均方误差计算截尾误差最小

b.在经主分量分解后,协方差矩阵成为对角矩阵

c.主分量分析就是K-L变换

d.主分量是通过求协方差矩阵的特征值得到

答案:C

解析:K-L变换与PCA变换是不同的概念，PCA的变换矩阵是协方差矩阵，K-L变换的变换矩阵可以有很多种（二阶矩阵、协方差矩阵、总类内离散度矩阵等等）。当K-L变换矩阵为协方差矩阵时，等同于PCA。

10.机器学习中L1正则化和L2正则化的区别是？

a.使用L1可以得到稀疏的权值

b.使用L1可以得到平滑的权值

c.使用L2可以得到稀疏的权值

d.使用L2可以得到平滑的权值

答案：AD

解析：使用L1正则后的权值更新规则多了一项η * λ * sgn(w)/n，这一项当w为正时，更新后的w变小。当w为负时，更新后的w变大——因此它的效果就是让w往0靠，使网络中的权重尽可能为0，也就相当于减小了网络复杂度，防止过拟合。所以说L1可以得到更稀疏的权值。

11.关于线性回归的描述,以下正确的有:

a.基本假设包括随机干扰项是均值为0,方差为1的标准正态分布

b.基本假设包括随机干扰项是均值为0的同方差正态分布

c.在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量

d.在违背基本假设时,模型不再可以估计

e.可以用DW检验残差是否存在序列相关性

f.多重共线性会使得参数估计值方差减小

答案：BCE

解析：一元线性回归的基本假设有
1、随机误差项是一个期望值或平均值为0的随机变量；
2、对于解释变量的所有观测值，随机误差项有相同的方差；
3、随机误差项彼此不相关；
4、解释变量是确定性变量，不是随机变量，与随机误差项彼此之间相互独立；
5、解释变量之间不存在精确的（完全的）线性关系，即解释变量的样本观测值矩阵是满秩矩阵；
6、随机误差项服从正态分布

违背基本假设的计量经济学模型还是可以估计的，只是不能使用普通最小二乘法进行估计。
当存在异方差时，普通最小二乘法估计存在以下问题：参数估计值虽然是无偏的，但不是最小方差线性无偏估计。

杜宾-瓦特森（DW）检验，计量经济，统计分析中常用的一种检验序列一阶 自相关 最常用的方法。

所谓多重共线性（Multicollinearity）是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响

（1）完全共线性下参数估计量不存在

（2）近似共线性下OLS估计量非有效

多重共线性使参数估计值的方差增大，1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)

（3）参数估计量经济含义不合理

（4）变量的显著性检验失去意义，可能将重要的解释变量排除在模型之外

（5）模型的预测功能失效。变大的方差容易使区间预测的“区间”变大，使预测失去意义。

12.下列方法中，可以用于特征降维的方法包括（）

a.主成分分析PCA

b.线性判别分析LDA

c.深度学习SparseAutoEncoder

d.矩阵奇异值分解SVD

e.最小二乘法LeastSquares

答案：ABCD

13.以下()属于线性分类器最佳准则?

a.感知准则函数

b.贝叶斯分类

c.支持向量机

d.Fisher准则

答案：ACD

解析：线性分类器有三大类：感知器准则函数、SVM、Fisher准则，而贝叶斯分类器不是线性分类器。

感知器准则函数：代价函数J=-(W*X+w0)，分类的准则是最小化代价函数。感知器是神经网络（NN）的基础，网上有很多介绍。

SVM：支持向量机也是很经典的算法，优化目标是最大化间隔（margin），又称最大间隔分类器，是一种典型的线性分类器。（使用核函数可解决非线性问题）

Fisher准则：更广泛的称呼是线性判别分析（LDA），将所有样本投影到一条远点出发的直线，使得同类样本距离尽可能小，不同类样本距离尽可能大，具体为最大化“广义瑞利商”。

贝叶斯分类器：一种基于统计方法的分类器，要求先了解样本的分布特点（高斯、指数等），所以使用起来限制很多。在满足一些特定条件下，其优化目标与线性分类器有相同结构（同方差高斯分布等），其余条件下不是线性分类。

14.在统计模式识分类问题中，当先验概率未知时，可以使用()?

a.最小损失准则

b.N-P判决

c.最小最大损失准则

d.最小误判概率准则

答案：BC

解析：在贝叶斯决策中，对于先验概率p(y)，分为已知和未知两种情况。

1. p(y)已知，直接使用贝叶斯公式求后验概率即可；

2. p(y)未知，可以使用 聂曼-皮尔逊决策(N-P决策)来计算决策面。

而 最大最小损失规则主要就是使用解决 最小损失规则时先验概率未知或难以计算的问题的。

15.以下描述错误的是：

a.SVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimal margin classifier）

b.在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。

c.在决策树中，随着树中结点数变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题。

d.聚类分析可以看作是一种非监督的分类。

答案：ABC

解析：1、SVM的策略就是最大间隔分类器

2、簇内的相似性越大，簇间的差别越大，聚类的效果就越好。你想啊，分类或者聚类效果的好坏其实就看同一类中的样本相似度，当然是越高越好，说明你分类越准确。

3、训练误差减少与测试误差逐渐增大，是明显的过拟合的特征。

16.下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测？

a.AR模型

b.MA模型

c.ARMA模型

d.GARCH模型

答案：D

解析：AR模型：自回归模型，是一种线性模型

MA模型：移动平均法模型，其中使用趋势移动平均法建立直线趋势的预测模型

ARMA模型：自回归滑动平均模型，拟合较高阶模型

GARCH模型：广义回归模型，对误差的方差建模，适用于波动性的分析和预测