一个月刷完机器学习笔试题300题(3)

第三天

1、以下不属于影响聚类算法结果的主要因素有()
A
已知类别的样本质量
B
分类准则
C
特征选取
D
模式相似性测度
正确答案是:A
都已知了,就不必再进行聚类了。
2、模式识别中,不属于马式距离较之于欧式距离的优点的是( )
A
平移不变性
B
尺度不变性
C
考虑了模式的分布
正确答案是:A
欧氏距离定义:欧氏距离( Euclidean distance)是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。
在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是
d = sqrt((x1-x2)+(y1-y2))
三维的公式是
d=sqrt(x1-x2)+(y1-y2)+(z1-z2)^)
推广到n维空间,欧式距离的公式是
d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2…n
xi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标
n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),…x(n)),其中x(i)(i=1,2…n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)…y(n))之间的距离d(x,y)定义为上面的公式.
欧氏距离看作信号的相似程度。距离越近就越相似,就越容易相互干扰,误码率就越高。
马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧式距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的),并且是尺度无关的(scale-invariant),即独立于测量尺度。
3、影响基本K-均值算法的主要因素有()
A
样本输入顺序
B
模式相似性测度
C
聚类准则
正确答案:B
有三个因素,样本输入顺序和初试类中心选取,对模型在误差下降图中造成不同的最优。以及模型相似性测度,是下降到最优的途径。
4、在统计模式分类问题中,当先验概率未知时,可以使用()
A
最小损失准则
B
最小最大损失准则
C
最小误判概率准则
正确答案:B
在统计模式分类问题中,当先验概率未知时,可以使用最小最大损失准则、N-P判决。
5、如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有( )
A
已知类别样本质量
B
分类准则
C
量纲
正确答案是: B
如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有:分类准则、特征选取。

6、以下属于欧式距离特性的有()
A
旋转不变性
B
尺度缩放不变性
C
不受量纲影响的特性
正确答案是:A
欧式距离特性有:平移不变性、旋转不变性。
马式距离特性有:平移不变性、旋转不变性、尺度缩放不变性、不受量纲影响的特性、考虑了模式的分布。
7、以下( )不属于线性分类器最佳准则?
A
感知准则函数
B
贝叶斯分类
C
支持向量机
D
Fisher准则
正确答案是: B
线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。
感知准则函数 :准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。
支持向量机 :基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基本出发点是使期望泛化风险尽可能小。(使用核函数可解决非线性问题)
Fisher 准则 :更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出发的直线,使得同类样本距离尽可能小,不同类样本距离尽可能大,具体为最大化“广义瑞利商”。
根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。
8、一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求:
A
二分类问题
B
多分类问题
C
层次聚类问题
D
k-中心点聚类问题
E
回归问题
F
结构分析问题
正确答案是: B
识别4种,那么就是多分类。
9、关于 logit 回归和 SVM 不正确的是()
A
Logit回归目标函数是最小化后验概率
B
Logit回归可以用于预测事件发生概率的大小
C
SVM目标是结构风险最小化
D
SVM可以有效避免模型过拟合
正确答案是:A
A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。而最小化后验概率是朴素贝叶斯算法要做的。A错误
B. Logit回归的输出就是样本属于正类别的几率,可以计算出概率,正确
C. SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化。
D. SVM可以通过正则化系数控制模型的复杂度,避免过拟合。
10、有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是( )
A
2x+y=4
B
x+2y=5
C
x+2y=3
D
2x-y=0
正确答案是:C
这道题简化了,对于两个点来说,最大间隔就是垂直平分线,因此求出垂直平分线即可。斜率是两点连线的斜率的负倒数-1/((-1-3)/(0-2)) = -1/2, 可得y=-(1/2)x + c, 过中点((0+2)/2, (-1+3)/2) = (1, 1), 可得c=3/2, 故选C.

猜你喜欢

转载自blog.csdn.net/ZHANG781068447/article/details/83690245