一个月刷完机器学习笔试题300题

第一天

1、以下哪种方法属于判别式模型(discriminative model)（）
A 隐马模型(HMM)
B 朴素贝叶斯
C LDA
D 支持向量机
正确答案是：D
已知输入变量x，判别模型(discriminative model)通过求解条件概率分布P(y|x)或者直接计算y的值来预测y。生成模型（generative model）通过对观测值和标注数据计算联合概率分布P(x,y)来达到判定估算y的目的。
常见的判别模型有线性回归（Linear Regression）,逻辑回归（Logistic Regression）,支持向量机（SVM）, 传统神经网络（Traditional Neural Networks）,线性判别分析（Linear Discriminative Analysis），条件随机场（Conditional Random Field）；常见的生成模型有朴素贝叶斯（Naive Bayes）, 隐马尔科夫模型（HMM）,贝叶斯网络（Bayesian Networks）和隐含狄利克雷分布（Latent Dirichlet Allocation）。
A选项的隐马尔科夫模型和 B选项的朴素贝叶斯属于生成模型。 C选项的LDA，如果是指Linear Discriminative Analysis，那么属于判别模型，如果是指 Latent Dirichlet Allocation，那么属于生成模型。 D选项的支持向量机属于判别模型。
2、以P(w)表示词条w的概率，假设已知P（南京）=0.8，P（市长）=0.6，P（江大桥）=0.4：P（南京市）=0.3，P（长江大桥）=0.5：如果假设前后两个词的出现是独立的，那么分词结果就是（）
A 南京市长江大桥
B 南京市长江大桥
C 南京市长江大桥
D 南京市长江大桥
正确答案是： B
解析：
该题考察的是最大概率分词，其基本思想是：一个待切分的汉字串可能包含多种分词结果，将其中概率最大的作为该字串的分词结果。若某候选词在训练语料中未出现，其概率为0。
A分词结果的概率为P(A)=P(南京市)*P(长江)*P(大桥)，由于“长江”未在语料中出现，所以P(长江)=0，从而P(A)=0;
同理可以算出B, C, D分词结果的概率分别是：
P(B)=P(南京)P(市长)P(江大桥)=0.80.60.4=0.192；
P©=P(南京市长)P(江大桥)=00.4=0；
P(D)=P(南京市)P(长江大桥)=0.30.5=0.15。
因为P(B)最大，所以为正确的分词结果。
3、基于统计的分词方法为（）
A
正向量最大匹配法
B
逆向量最大匹配法
C
最少切分
D
条件随机场
正确答案：D
中文分词的基本方法可以分为基于语法规则的方法、基于词典的方法和基于统计的方法。
基于语法规则的分词法基本思想是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂, 基于语法和规则的分词法所能达到的精确度远远还不能令人满意, 目前这种分词系统应用较少。
在基于词典的方法中，可以进一步分为最大匹配法，最大概率法，最短路径法等。最大匹配法指的是按照一定顺序选取字符串中的若干个字当做一个词，去词典中查找。根据扫描方式可细分为：正向最大匹配，反向最大匹配，双向最大匹配，最小切分。最大概率法指的是一个待切分的汉字串可能包含多种分词结果，将其中概率最大的那个作为该字串的分词结果。最短路径法指的是在词图上选择一条词数最少的路径。
基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合，相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。常用的方法有HMM（隐马尔科夫模型），MAXENT（最大熵模型），MEMM（最大熵隐马尔科夫模型），CRF（条件随机场）。
本题中，基于统计的方法为条件随机场。ABC三个选项为基于词典的方法。

4、下列哪个不属于CRF模型对于HMM和MEMM模型的优势（）
A
特征灵活
B
速度快
C
可容纳较多上下文信息
D
全局最优
正确答案是： B
HMM模型是对转移概率和表现概率直接建模，统计共现概率。而MEMM模型是对转移概率和表现概率建立联合概率，统计时统计的是条件概率。CRF是在给定需要标记的观察序列的条件下，计算整个标记序列的联合概率分布，而不是在给定当前状态条件下，定义下一个状态的状态分布。MEMM容易陷入局部最优，是因为MEMM只在局部做归一化。CRF模型中，统计了全局概率，在做归一化时，考虑了数据在全局的分布，而不是仅仅在局部归一化，这样就解决了MEMM中的标记偏置的问题。
CRF没有HMM那样严格的独立性假设条件，因而可以容纳任意的上下文信息，特征设计灵活。CRF需要训练的参数更多，与MEMM和HMM相比，它存在训练代价大、复杂度高的缺点。
5、隐马尔可夫模型（HMM），设其观察值
空间为
状态空间为
如果用维特比算法(Viterbi algorithm)进行解码，时间复杂度为（）
A
O(NK)
B
O(NK^2)
C
O(N^2K)
D
以上都不是
正确答案是：D

6、在二分类问题中，当测试集的正例和负例数量不均衡时，以下评价方案哪个是相对不合理的（）（假设precision=TP/(TP+FP),recall=TP/(TP+FN)。）
A
Accuracy:(TP+TN)/all
B
F-value:2recallprecision/(recall+precision)
C
G-mean:sqrt(precision*recall)
D
AUC:ROC曲线下面积
正确答案是：A
对于分类器，主要的评价指标有precision，recall，F-score，以及ROC曲线等。
在二分类问题中，我们主要关注的是测试集的正样本能否正确分类。当样本不均衡时，比如样本中负样本数量远远多于正样本，此时如果负样本能够全部正确分类，而正样本只能部分正确分类，那么(TP+TN)可以得到很高的值，也就是Accuracy是个较大的值，但是正样本并没有取得良好的分类效果。因此A选项是不合理的。在样本不均衡时，可以采用BCD选项方法来评价。
7、下面关于ID3算法中说法错误的是（）
A
ID3算法要求特征必须离散化
B
信息增益可以用熵，而不是GINI系数来计算
C
选取信息增益最大的特征，作为树的根节点
D
ID3算法是一个二叉树模型
正确答案是：D
D3算法（IterativeDichotomiser3迭代二叉树3代）是一个由RossQuinlan发明的用于决策树的算法。可以归纳为以下几点：
使用所有没有使用的属性并计算与之相关的样本熵值
选取其中熵值最小的属性
生成包含该属性的节点

D3算法对数据的要求：
1)所有属性必须为离散量；
2)所有的训练例的所有属性必须有一个明确的值；
3)相同的因素必须得到相同的结论且训练例必须唯一。
8、如下表是用户是否使用某产品的调查结果（）
请计算年龄、地区、学历、收入中对用户是否使用调查产品信息增益最大的属性。
（）

A 年龄
B 地区
C 学历
D 收入
正确答案是：C

9、在其它条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题（）
A
增加训练集数量
B
减少神经网络隐藏层节点数
C
删除稀疏的特征
D
SVM算法中使用高斯核/RBF核代替
正确答案是：D
机器学习中发生过拟合的主要原因有：
（1）使用过于复杂的模型；
（2）数据噪声较大；
（3）训练数据少。
由此对应的降低过拟合的方法有：
（1）简化模型假设，或者使用惩罚项限制模型复杂度；
（2）进行数据清洗，减少噪声；
（3）收集更多训练数据。

本题中，A对应于增加训练数据，B为简化模型假设，C为数据清洗。D选项中，高斯核的使用增加了模型复杂度，容易引起过拟合。选择合适的核函数以及软边缘参数C就是训练SVM的重要因素。一般来讲，核函数越复杂，模型越偏向于过拟合；C越大模型越偏向于过拟合，反之则拟合不足。
10、如果线性回归模型中的随机误差存在异方差性，那么参数的OLS估计量是（）
A
无偏的，有效的
B
无偏的，非有效的
C
有偏的，有效的
D
有偏的，非有效的
正确答案是： B
OLS即普通最小二乘法。由高斯—马尔可夫定理，在给定经典线性回归的假定下，最小二乘估计量是具有最小方差的线性无偏估计量。根据证明过程可知，随机误差中存在异方差性不会影响其无偏性，而有效性证明中涉及同方差性，即异方差会影响参数OLS估计量的有效性。

一个月刷完机器学习笔试题300题

第一天

猜你喜欢