数据挖掘导论课后习题答案-第七章

最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。

第七章

在这里插入图片描述
在这里插入图片描述
(a)
在这里插入图片描述
(b) 5
(c)
候选项集:10+28+3=41
频繁项集:8+10+0=18
(d)
在这里插入图片描述
候选项集:5+10+0=15
频繁项集:5+3+0=8
(e)
d中产生较少的项集
在这里插入图片描述
在这里插入图片描述
(a)
D1:
温度分为X1 ( 80 - 87 ),X2 ( 88 - 95 ),X3 ( 96 - 103 )
气压分为Y1 ( 1025 - 1051 ),Y2 ( 1052 - 1078 ),Y3 ( 1079 - 1105 )
在这里插入图片描述
产生7个频繁1-项集、12个频繁2-项集( (X1,Y1)、(X3,Y3)、(X1,Alarm1)、(X3,Alarm1)、(Y1,Alarm1)、(Y3,Alarm1)、(X3,Alarm2)、(Y3,Alarm2)、(Y3,Alarm3)、(Alarm1,Alarm2)、(Alarm1,Alarm3)、(Alarm2,Alarm3) )、5个频繁3-项集( (X1,Y1,Alarm1)、(X3,Y3,Alarm1)、(X3,Y3,Alarm2)、(X3,Alarm1,Alarm2)、(Y3,Alarm1,Alarm2))

D2:
温度分为X1 ( 80 - 85 ),X2 ( 86 - 97 ),X3 ( 100 - 103 )
气压分为Y1 ( 1025 - 1038 ),Y2 ( 1039 - 1084 ),Y3 ( 1085 - 1105 )
在这里插入图片描述
产生9个频繁1-项集,7个频繁2-项集((X3,Alarm1)、(X3,Alarm2)、(Y2,Alarm1)、(Y3,Alarm3)、(Alarm1,Alarm2)、(Alarm2,Alarm3)、(Alarm1,Alarm3)),1个频繁3-项集((X3,Alarm1,Alarm2))
(b)
在这里插入图片描述
(ii)有两个自然聚类。(iii)用K-均值聚类算法。
(iv)
在这里插入图片描述
(v)产生5个频繁1-项集,7个频繁2-项集,1个频繁3-项集((C2,Alarm1,Alarm2))
在这里插入图片描述
在这里插入图片描述
(a)
(i):S=1/6,C=1
(ii):S=1/6,C=1

(b)
当 bin-width = 2 时,A1=1≤A≤2,A2=3≤A≤4,A3=5≤A≤6,A4=7≤A≤8,A5=9≤A≤10,A6=11≤A≤12,
在这里插入图片描述
对于第一个规则{(1≤A≤2),B=1}→{C=1}有对应的规则{A1=1,B=1}→{C=1}
S({A1=1,B=1}→{C=1})=1/6
C({A1=1,B=1}→{C=1})=1
因此能发现这个规则

对于第二个规则{(5≤A≤8),B=1}→{C=1}有对应的规则{A3=1,B=1}→{C=1}和{A4=1,B=1}→{C=1}
S({A3=1,B=1}→{C=1})=1/12
C({A3=1,B=1}→{C=1})=1
S({A4=1,B=1}→{C=1})=1/12
C({A4=1,B=1}→{C=1})=1
支持度小于阈值15%,不能发现

当 bin-width = 3 时,A1=1≤A≤3,A2=4≤A≤6,A3=7≤A≤9,A4=10≤A≤12
在这里插入图片描述
对于第一个规则{(1≤A≤2),B=1}→{C=1}有对应的规则{A1=1,B=1}→{C=1}
S({A1=1,B=1}→{C=1})=1/6
C({A1=1,B=1}→{C=1})=2/3
因此能发现这个规则

对于第二个规则{(5≤A≤8),B=1}→{C=1}有对应的规则{A2=1,B=1}→{C=1}和{A3=1,B=1}→{C=1}
S({A2=1,B=1}→{C=1})=1/12
C({A2=1,B=1}→{C=1})=1
S({A3=1,B=1}→{C=1})=1/12
C({A3=1,B=1}→{C=1})=1
支持度小于阈值15%,不能发现

当 bin-width = 4 时,A1=1≤A≤4,A2=5≤A≤8,A3=9≤A≤12
在这里插入图片描述
对于第一个规则{(1≤A≤2),B=1}→{C=1}有对应的规则{A1=1,B=1}→{C=1}
S({A1=1,B=1}→{C=1})=1/6
C({A1=1,B=1}→{C=1})=1/2
置信度小于阈值60%,不能发现

对于第二个规则{(5≤A≤8),B=1}→{C=1}有对应的规则{A2=1,B=1}→{C=1}
S({A2=1,B=1}→{C=1})=1/6
C({A2=1,B=1}→{C=1})=1
能发现这个规则

(c)
没有一种宽度可以同时发现这两种规则,解决办法是结合考虑多个宽度。
在这里插入图片描述
(a)
(i):C({15<A<25→10<B<20})= 10/30 = 33.3%,C({10<A<25→10<B<20})= 15/45 = 33.3%,C({15<A<35→10<B<20})= 15/65 = 23.1%,
(ii):C({15<A<25→10<B<20})= 10/30 = 33.3%,C({15<A<25→5<B<20})= 15/30 = 50.0%,C({15<A<25→5<B<30})= 25/30 = 83.3%,
(iii):C({15<A<25→10<B<20})= 10/30 = 33.3%,C({10<A<35→5<B<30})= 59/80 = 73.8%,

(b)
年龄在15到35之间的因特网用户有65个
平均上网小时数为:( 2.5×12+7.5×20+15×15+25×13+35×5 ) / 65 = 13.82
因此基于统计学的规则为:15<A<35→B:μ = 13.82
(c)
其他用户有35个
平均上网小时数为:( 2.5×6+7.5×9+15×10+25×6+35×4 ) / 35 = 14.93
年龄在15到35之间用户上网小时的方差=9.786
其他用户上网小时的方差=10.203
Z = ( 14.93 - 13.82 )/ (9.7862/65 + 10.2032/35)= 0.476 < 1.64
因此在95%置信度下不显著。
在这里插入图片描述
年级:
(a)7个
(b)比如一年级学生则一年级二元属性为1,其他属性为0
(c)分为本科生、研究生、专业人员
邮政编码:
(a)有很多
(b)对于每个邮政编码,对应的二元属性取1,其他取0
(c)可以按照地理位置分
院:
(a)14个
(b)比如农学则农学二元属性取1,其他取0
(c)按照大类分,比如理学,工学等
住校:
(a)1个
(b)住校为1不住校为0
(c)无
语言:
(a)7个
(b)比如说汉语则汉语二元属性取1,其他取0
(c)按大洲分,比如亚洲,北美洲等
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(a)区间为[ 9 , 17 ]、[ 19 , 29 ]、[ 33 , 47 ]。满足的区间为[ 19 , 29 ],支持度为16.7%,置信度为100%
(b)区间为[ 9 , 14 ]、[ 17 , 21 ]、[ 25 , 33 ]、[ 39 , 47 ]。没有满足的区间
(c)区间为[ 9 , 11 ]、[ 14 , 17 ]、[ 19 , 21 ]、[ 25 , 29 ]、[ 33 , 39 ]、[ 41 , 47 ]。满足的区间为[ 9 , 11 ],支持度为16.7%,置信度为100%
(d)离散化区间时,既不能太宽也不能太窄,否则有些规则无法被发现。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(a)困难是确定合适的支持度和置信度
(b)产生8个频繁1-项集,25个频繁2-项集,34个频繁3-项集,20个频繁4-项集
(c)产生8个频繁1-项集,6个频繁2-项集,1个频繁3-项集
(d)C更有效但可能丢失一些频繁项
在这里插入图片描述
(a)当没有分层包含多于1个的X的子女时,取等号
(b)这三个都肯定是频繁的
(c){p}→{q^}
在这里插入图片描述
(a)
在这里插入图片描述
(b)
在这里插入图片描述
(c)
在这里插入图片描述
(d)
在这里插入图片描述
在这里插入图片描述
答:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(a)
是。
否。不是子序列
否。不满足mingap=0
是。
否。不是子序列
(b)
在这里插入图片描述
是。是。是。是。是。
在这里插入图片描述
是。是。是。是。是。
在这里插入图片描述
是。是。否。是。是。
在这里插入图片描述
否。否。否。是。是。
在这里插入图片描述
是。
否。不满足mingap=0
否。不满足mingap=0和ws=1
否。不满足mingap=0
否。不满足mingap=0和ws=1
在这里插入图片描述
(a)
在这里插入图片描述
(b)
在这里插入图片描述
(c)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
限定ws=0,mingap=0,maxgap=3,maxspan=5
(a)1。该方法在对象时线中查找给定序列的至少一次出现,出现多次也只会计数一次。
(b)2。观察到的序列是{p(t=1),q(t=4),r(t=5)}、{p(t=6),q(t=7/8),r(t=10)},而{p(t=4),q(t=7),r(t=10)}超过窗口限制大小5
(c)2。最小出现窗口即窗口的子窗口中不含该序列,是CWIN的限制版,b中观察到的两个窗口都符合要求。
(d)3。{p(t=1),q(t=4),r(t=5)}、{p(t=6),q(t=7/8),r(t=10)}和{p(t=4),q(t=7),r(t=10)}
(e)2。当一个事件-时间戳对被使用后就不允许再次使用,因此{p(t=6),q(t=7/8),r(t=10)}和{p(t=4),q(t=7),r(t=10)}只计数一次。
在这里插入图片描述
答:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(b)中图有错误,左图的右上角应该为a
答:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(b)|V|!
(c)k
(d)k-1
在这里插入图片描述
(a)
在这里插入图片描述
(b)
无法产生候选。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(a)
i.21000 - 1
ii.22000 - 1
iii.这种方法产生的候选项集太多,其中很多都是无用的
(b)
在这里插入图片描述
i.S = 3/7 = 42.9% , C = 3/3 = 100%
ii.S = 3/7 = 42.9% , C = 3/3 = 100%
iii.S = 3/7 = 42.9% , C = 3/3 = 100%
iv.S = 3/7 = 42.9% , C = 3/3 = 100%
在这里插入图片描述
(a)22d
(b)
在这里插入图片描述
在这里插入图片描述
(a)反单调
(b)非单调

猜你喜欢

转载自blog.csdn.net/KeEN_Xwh/article/details/90085126