一个月刷完机器学习笔试题300题（3）

第三天

1、以下不属于影响聚类算法结果的主要因素有（）
A
已知类别的样本质量
B
分类准则
C
特征选取
D
模式相似性测度
正确答案是：A
都已知了，就不必再进行聚类了。
2、模式识别中，不属于马式距离较之于欧式距离的优点的是（）
A
平移不变性
B
尺度不变性
C
考虑了模式的分布
正确答案是：A
欧氏距离定义：欧氏距离（ Euclidean distance）是一个通常采用的距离定义，它是在m维空间中两个点之间的真实距离。
在二维和三维空间中的欧式距离的就是两点之间的距离，二维的公式是
d = sqrt((x1-x2)^+(y1-y2))
三维的公式是
d=sqrt(x1-x2)^+(y1-y2)+(z1-z2)^)
推广到n维空间，欧式距离的公式是
d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2…n
xi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标
n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),…x(n)),其中x(i)(i=1,2…n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)…y(n))之间的距离d(x,y)定义为上面的公式.
欧氏距离看作信号的相似程度。距离越近就越相似，就越容易相互干扰，误码率就越高。
马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧式距离不同的是它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的），并且是尺度无关的(scale-invariant)，即独立于测量尺度。
3、影响基本K-均值算法的主要因素有（）
A
样本输入顺序
B
模式相似性测度
C
聚类准则
正确答案：B
有三个因素，样本输入顺序和初试类中心选取，对模型在误差下降图中造成不同的最优。以及模型相似性测度，是下降到最优的途径。
4、在统计模式分类问题中，当先验概率未知时，可以使用（）
A
最小损失准则
B
最小最大损失准则
C
最小误判概率准则
正确答案：B
在统计模式分类问题中，当先验概率未知时，可以使用最小最大损失准则、N-P判决。
5、如果以特征向量的相关系数作为模式相似性测度，则影响聚类算法结果的主要因素有（）
A
已知类别样本质量
B
分类准则
C
量纲
正确答案是： B
如果以特征向量的相关系数作为模式相似性测度，则影响聚类算法结果的主要因素有：分类准则、特征选取。

6、以下属于欧式距离特性的有（）
A
旋转不变性
B
尺度缩放不变性
C
不受量纲影响的特性
正确答案是：A
欧式距离特性有：平移不变性、旋转不变性。
马式距离特性有：平移不变性、旋转不变性、尺度缩放不变性、不受量纲影响的特性、考虑了模式的分布。
7、以下( )不属于线性分类器最佳准则？
A
感知准则函数
B
贝叶斯分类
C
支持向量机
D
Fisher准则
正确答案是： B
线性分类器有三大类：感知器准则函数、SVM、Fisher准则，而贝叶斯分类器不是线性分类器。
感知准则函数：准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元网络多层感知器的基础。
支持向量机：基本思想是在两类线性可分条件下，所设计的分类器界面使两类之间的间隔为最大，它的基本出发点是使期望泛化风险尽可能小。（使用核函数可解决非线性问题）
Fisher 准则：更广泛的称呼是线性判别分析（LDA），将所有样本投影到一条远点出发的直线，使得同类样本距离尽可能小，不同类样本距离尽可能大，具体为最大化“广义瑞利商”。
根据两类样本一般类内密集，类间分离的特点，寻找线性分类器最佳的法线向量方向，使两类样本在该方向上的投影满足类内尽可能密集，类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。
8、一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别4种不同的人员：狱警，小偷，送餐员，其他。下面哪种学习方法最适合此种应用需求：
A
二分类问题
B
多分类问题
C
层次聚类问题
D
k-中心点聚类问题
E
回归问题
F
结构分析问题
正确答案是： B
识别4种，那么就是多分类。
9、关于 logit 回归和 SVM 不正确的是（）
A
Logit回归目标函数是最小化后验概率
B
Logit回归可以用于预测事件发生概率的大小
C
SVM目标是结构风险最小化
D
SVM可以有效避免模型过拟合
正确答案是：A
A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法，而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数，并没有最大化后验概率，更谈不上最小化后验概率。而最小化后验概率是朴素贝叶斯算法要做的。A错误
B. Logit回归的输出就是样本属于正类别的几率，可以计算出概率，正确
C. SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面，应该属于结构风险最小化。
D. SVM可以通过正则化系数控制模型的复杂度，避免过拟合。
10、有两个样本点，第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是( )
A
2x+y=4
B
x+2y=5
C
x+2y=3
D
2x-y=0
正确答案是：C
这道题简化了，对于两个点来说，最大间隔就是垂直平分线，因此求出垂直平分线即可。斜率是两点连线的斜率的负倒数-1/((-1-3)/(0-2)) = -1/2, 可得y=-(1/2)x + c, 过中点((0+2)/2, (-1+3)/2) = (1, 1), 可得c=3/2, 故选C.

一个月刷完机器学习笔试题300题（3）

第三天

猜你喜欢