数据挖掘练习题(1)

1.公司要构建淘宝商家健康指数,所以要对最近1年内有交易的淘宝商家进行问卷调研。为不过于打搅商 家,问卷调研采取抽样的方式进行确定商家名单。怎么抽样比较好?

可以考虑采用分层随机抽样的方式。 首先根据销售额或销售量对商家进行分层,这样可能会将商家分为高销售额(量) 商户,中销售额(量)商户,低销售额(量)商户等,然后根据这三者的比例确定 各个层次应抽取的商户数。 对抽取出来的样本,根据相应的指标,如访问量、购买量、买家评级,评论数,发 货速度等指标来综合考虑商家的健康指数。

2.查询成交表a中的城市city的成交金额大于0的购买人数(buyer_id)和成交金额(amt)
city buyer_id order_id amt
a 1 1 100
a 1 2 100
b 2 3 100
b 3 4 20
c 4 5 0

select buyer_id,sum(amt) as amt from a
where city in
(
select city from
(
select city,sum(amt) as amt from a
group by city
)t
where t.amt>0
)

3.下列哪些方法可以用来对高维数据进行降维:

ALASSO
B主成分分析法
D小波分析法
E线性判别法
F拉普拉斯特征映射

4.关于线性回归的描述,以下正确的有:
正确答案 : BCE 您的答案 : AC

A基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B基本假设包括随机干扰下是均值为0的同方差正态分布
C在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
D在违背基本假设时,模型不再可以估计
E可以用DW检验残差是否存在序列相关性
F多重共线性会使得参数估计值方差减小

5.excel工作簿a中有两列id、age,工作簿b中有一列id,需要找到工作薄b中id对应的age,可用的函数包括
index+match
vlookup
hlookup
find
if
like

INDEX: 函数返回表格或区域中的值或值的引用 .
MATCH: 在范围单元格中搜索特定的项 , 然后返回该项在此区域中的相对位置 .
VLOOKUP&HLOOKUP: 在表格的首行或数值数组中搜索值 , 然后返回表格或数组中指定 行的所在列中的值 . 当比较值位于数据表格的首行时 , 如果要向下查看指定的行数 , 则可 使用 HLOOKUP; 当比较值位于所需查找的数据的左边一列时 , 则可使用 VLOOKUP.
FIND: 返回一个字符串在另一个字符串中出现的起始位置 ( 区分大小写 ).
IF: 可以对值和期待值进行逻辑比较 .
LIKE: 可用Like运算符自定义字符比较函数之类的, 应该是VBA的函数.
如果查找范围的数据是纵向的,即,A列是姓名,B列是成绩,你要找姓名对应的成绩就用VLOOKUP  V代表垂直
如果查找范围的数据是横向的,即,第一行是姓名,第二行是成绩,你要找姓名对应的成绩就用HLOOKUP  H代表水平

在Excel中MATCH函数可以返回指定内容所在的位置,而INDEX又可以根据指定位置查询到位置所对应的数据,各取其优点,我们可以返回指定位置相关联的数据。

    MATCH函数(返回指定内容所在的位置)    
        MATCH(lookup-value,lookup-array,match-type)    
        lookup-value:表示要在区域或数组中查找的值,可以是直接输入的数组或单元格引用。    
        lookup-array:表示可能包含所要查找的数值的连续单元格区域,应为数组或数组引用。    
        match-type:表示查找方式,用于指定精确查找(查找区域无序排列)或模糊查找(查找区域升序排列)。取值为-110 。其中0为精确查找。    
       INDEX(array,row-num,column-num)       
        array:要返回值的单元格区域或数组。    
        row-num:返回值所在的行号。    
        column-num:返回值所在的列号。  

excel里根据一个工作簿的一个工作表的A列内容搜索另外一个工作簿对应A列的B列值
在sheet1的B1输入:=vlookup(A1,sheet2!A1:B?,2,1) 
其中?指sheet2的最后一行号。 
下拖时应该将第二项改为绝对引用,即:$A$1:$B$

6.下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测
正确答案 : D您的答案 : D

A    AR模型
B    MA模型
C   ARMA模型
D   GARCH模型
AR模型是一种线性预测,即已知N个数据,可由模型推出第N点前面或后面的数据(设推出P点),所以其本质类似于插值。
MA模型(moving average model)滑动平均模型,其中使用趋势移动平均法建立直线趋势的预测模型。
ARMA模型(auto regressive moving average model)自回归滑动平均模型,模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法。它比AR模型法与MA模型法有较精确的谱估计及较优良的谱分辨率性能,但其参数估算比较繁琐。
GARCH模型称为广义ARCH模型,是ARCH模型的拓展,由Bollerslev(1986)发展起来的。它是ARCH模型的推广。GARCH(p,0)模型,相当于ARCH(p)模型。GARCH模型是一个专门针对金融数据所量体订做的回归模型,除去和普通回归模型相同的之处,GARCH对误差的方差进行了进一步的建模。特别适用于波动性的分析和预测,这样的分析对投资者的决策能起到非常重要的指导性作用,其意义很多时候超过了对数值本身的分析和预测。

7.关于正态分布,下列说法错误的是:
正确答案 : C您的答案 : C

A正态分布具有集中性和对称性
B正态分布的均值和方差能够决定正态分布的位置和形态
C正态分布的偏度为0,峰度为1
D标准正态分布的均值为0,方差为1
如果是正态分布,那么偏度,峰度均为0.

8.SQL语言允许使用通配符进行字符串匹配的操作,其中‘%’可以表示

通配符需要和LIKE一起使用
% 代表任意个字符
_ 下划线代表一个字符

9.一组数据,均值>中位数>众数,问这组数据
左偏
右偏
钟型
对称
左偏:

算术平均数<中位数<众数
右偏:算术平均数>中位数>众数
对称的钟型分布 (正态分布):算术平均数=中位数=众数
中位数一定是位于众数和均值之间的!
10.有个袋子装有2个红球,2个蓝球,1个黄球,取出球以后不再放回,请问取两次出来的球是相同颜色的概率是多少?
11.有个袋子装有2个红球,2个蓝球,1个黄球,取出球以后不再放回,请问取两次出来的球是相同颜色的概率是多少
0.3333
0.25
0.2
0.1667
2/5 * 1/4 + 2/5 * 1/4 = 0.2
12.k-means聚类算法解释正确的是:不能自动识别类的个数,随即挑选初始点为中心点计算
13.卡方分布的方差为2倍的自由度为?
A.n
B.1
C.2n
D.4n
参考答案:C

解析:
卡方分布:若 n 个相互独立的随机变量ξ ₁ 、ξ ₂ 、……、ξ n ,均服从标准正态分布(也称独立同分布于标准正态分布),则这 n 个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布( chi-square distribution )。

分布的均值为自由度 n ,记为 E( χ2χ2 ) = n 。

分布的方差为 2 倍的自由度 (2n) ,记为 D( χ2χ2 ) = 2n 。

14..每台物理计算机可以虚拟出 20 台虚拟机,假设一台虚拟机发生故障当且仅当它所宿主的物理机发生故障。通过 5 台物理机虚拟出100 台虚拟机,那么关于这 100 台虚拟机的故障的说法正确的是:__?
A.单台虚拟机的故障率高于单台物理机的故障率
B.这 100 台虚拟机发生故障是彼此独立的
C.这100台虚拟机单位时间内出现故障的个数高于100台物理机单位时间内出现故障的个数
D.无法判断这 100 台虚拟机和 100 台物理机哪个更可靠
E.如果随机选出 5 台虚拟机组成集群, 那么这个集群的可靠性和 5 台物理机的可靠性相同
F.可能有一段时间只有 1 台虚拟机发生故障
参考答案:C

解析: 
A是相等的。 
B20台为一组,不独立。 
C既然虚拟机并不是相互独立的,那么也自然没有办法应用常规的求数学期望的办法了。所以求数学期望的那种办法行不通。

这里应该主要考察独立分布和非独立分布之间的差异,这样理解就好理解多了。同为100台机器,虚拟机每台发生故障概率与物理机发生故障概率相同,但是虚拟机每20台是会互相影响,其中一台发生故障,其他19台也会发生故障,这样故障率就会提升20倍,因此C正确。

D这就相当于判断100台虚拟机和2000台虚拟机哪个更可靠是一样的。

E如果挑选出的5台虚拟机在五台物理机上,则是相同,否则不同。

F一旦发生故障必须是20起步。

关于相关系数,下列描述中正确的有:ace
A 相关系数为0.8时,说明两个变量之间呈正相关关系
B 相关系数等于1相较于相关系数等于-1,前者的相关性更强
C 相关性等于1相较于相关系数等于0,前者的相关性更强
D Pearson相关系数衡量了两个定序变量之间的相关程度
E Spearman相关系数可以衡量两个定序变量之间的相关程度
F相关系数为0.2相较于-0.8,前者的相关性更强

相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以, 就是效率没有pearson相关系数高。 
2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。 
3.两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数。

猜你喜欢

转载自blog.csdn.net/wuhuimin521/article/details/80869686