清华大学数据挖掘课程幕课习题(第二章)

第二章第一节

多选1. 以下关于数据预处理的描述正确的是:
(1分)
需要借助领域知识
核心内容就是缺失数据填充
数据挖掘工作的基础性工作
主要靠标准化算法自动处理
单选2. 小张的个人信息中身份证号倒数第二位是单数,性别为女。这种情况被称为:
(1分)
Missing Data
Inconsistent Data
Noisy Data
Redundant Data
单选3. 学生小明在调查问卷中没有回答下述问题:“你去年的工资收入和前年相比是否有所增加?” 对这种情况最恰当的描述是:
(1分)
完全随机缺失
N/A
数据未提供
异常数据
单选4. 以下针对缺失值问题的阐述正确的是:
(1分)
删就一个字
用均值填充即可
用中位数填充即可
具体问题具体分析
单选5. 某大一男生体检数据中体重值缺失,相对合理的填充值是:
(1分)
40公斤
60公斤
80公斤
100公斤
单选6. 假设男生用1表示,女生用0表示,某人的性别未填,应该如何处理?
(1分)
填1
填0
填均值0.5,必须的
可根据其它信息(如身高、体重)推测
单选7. 以下关于离群点(Outlier)和异常点(Anomaly)关系的论述正确的是:
(1分)
一回事,说法不同而已
离群点一定是异常点
异常点一定是离群点
不能简单判定

第二章第二节

  1. 关于离群点的判定:
    (1分)
    主要看其与近邻的平均距离
    主要看其与近邻的最大距离
    需要考虑相对距离因素
    主要靠感觉
    单选2. 采用LOF方法进行离群点检测时:
    (1分)
    LOF值越小越疑似离群点
    LOF值越大越疑似离群点
    LOF值越接近1越疑似离群点
    LOF值越接近0.5越疑似离群点
    单选3. Case A:两人名字不同,身份证号相同。 Case B:两人同名同姓,身份证号不同。
    (1分)
    A为重复数据可能性大
    B为重复数据可能性大
    我读书少,看不出什么区别
    单选4. 在记录手机号码的时候,相对而言:
    (1分)
    前三位不容易记错
    末尾三位不容易记错
    中间三位不容易记错
    都一样
    单选5. 在记录英语国家人名时:
    (1分)
    姓容易写错
    名容易写错
    没有明显区别
    单选6. 对英语国家的人群而言:
    (1分)
    姓的区分度大
    名的区分度大
    没有明显区别

第二章第三节

单选1. 按A, B, C, D打分的考试成绩数据属于:
(1分)
数值型(连续)
数值型(离散)
序数型(Ordinal)
标称型(Nominal)
字符串
多选2. 在对标称型数据(如颜色、职业等)进行编码时:
(1分)
按1,2,3,4…顺序编码即可
类别较少时,可考虑采用扩维法
不同编码可能会影响数据的空间分布
不好处理,删了算了
多选3. 在大数据分析中,利用采样技术可以:
(1分)
降低获取数据的成本
减少需要处理的数据量
有助于处理不平衡数据
提高数据的稳定性
单选4. 对于极度不平衡的二分类数据集,应特别注意:
(1分)
整体的准确率
多数类样本的准确率
少数类样本的准确率
两类样本准确率的均值
单选5. SMOTE的工作原理是:
(1分)
对多数类样本进行下采样
对少数类样本进行克隆复制
对少数类样本通过插值进行上采样
对整体样本进行随机采样

第二章第四节

单选1. 很多人感觉到自己的收入与官方公布的平均收入相去甚远,最有可能的解释是:
(1分)
自己工作不够努力,怨不得别人
统计样本不具有代表性
个体收入分布极度不均衡
错觉,都是错觉
多选2. Pearson’s product moment correlation coefficient 可用来判断:
(1分)
X和Y是否正相关
X和Y是否负相关
X和Y是否不相关
X和Y之间的因果关系
单选3. 在Box Plots当中,一个盒子越扁说明在该维度上:
(1分)
25%到75%之间的数据分布较为集中
25%到75%之间的数据分布较为分散
离群点较少
离群点较多
单选4. 适合可视化高维数据的方法是:
(1分)
圆饼图
散点图
平行坐标
直方图
单选5. 数据可视化工作:
(1分)
锦上添花,可有可无
不学就懂,一看就会
主要用于展示最终结果
贯穿数据挖掘工作全过程

第二章第五节

  1. 熵衡量的是系统的不确定性,熵值越大(接近于1)说明系统的不确定性越低。
    (1分)
    正确
    错误
    单选2. 假设某数据集的原始熵值为0.7, 已知某属性的信息增益为0.2,那么利用该属性进行划分后数据集的熵值为:
    (1分)
    0.9
    0.7
    0.5
    0.2
    单选3. 以下方法中可以确保获得最优属性子集的是:
    (1分)
    Top K Individual Features
    Sequential Forward Selection
    Sequential Backward Selection
    Simulated Annealing
    Exhaustive Search
    单选4. 关于分支定界法不正确的描述是:
    (1分)
    树状搜索算法
    随机搜索算法
    依赖属性的单调性假设
    能够减少搜索空间
    多选5. 进行属性选择的原因是:
    (1分)
    属性可能存在冗余
    属性可能存在噪声
    降低问题复杂度
    个人喜好

第二章第六节

  1. 特征选择与特征提取的关系是:
    (1分)
    特征提取包含特征选择
    特征选择包含特征提取
    一码事,说法不同而已
    It is like comparing apples and oranges.
    单选2. 平面图中的老鹰能够被人们识别的原因是:
    (1分)
    体积大
    为人所熟知
    长得有个性
    观察角度合适
    单选3. 在PCA变换中,应尽量把数据向什么方向投影:
    (1分)
    数据集中的方向
    数据散布大的方向
    数据分组特征明显的方向
    平行于原始坐标轴的方向
    单选4. PCA变换中不包含以下哪一种操作:
    (1分)
    去均值
    矩阵特征值分解
    属性值标准化
    坐标变换
    单选5. 假设样本数大于维数,利用PCA技术,可以把N维数据降到:
    (1分)
    只能到1维
    只能到N-1维
    1到N-1维
    取决于样本的类别数

第二章第七节

  1. 如果将PCA应用于带标签的分类数据:
    (1分)
    程序直接崩溃
    效果杠杠的
    驴唇不对马嘴
    视情况而定
    单选2. LDA与PCA最本质的区别是:
    (1分)
    能够降到的维数不同
    计算效率不同
    降维的目标不同
    我读书少,看不出来
    单选3. 当样本个数小于数据维数的时候,LDA不能正常工作的原因是:
    (1分)
    类间散布矩阵不满秩
    类内散布矩阵不满秩
    计算量过高
    Fisher准则无意义
    单选4. 当类中心重合的时候,LDA不能正常工作的原因是:
    (1分)
    Fisher准则函数分母为零
    类内散布矩阵奇异
    Fisher准则函数恒等于零
    类间散布矩阵满秩
    单选5. 对于二分类问题,LDA只能将原始数据降到1维的原因是:
    (1分)
    类间散布矩阵秩为1
    类内散布矩阵秩为1
    原始数据维度过高
    原始数据维度过低
    单选6. 关于LDA和PCA投影方向描述正确的是:
    (1分)
    必然相同
    必然不同
    LDA总是优于PCA
    世事难料
发布了5 篇原创文章 · 获赞 0 · 访问量 302

猜你喜欢

转载自blog.csdn.net/weixin_41927456/article/details/105185940
今日推荐