weka dblp数据集挖掘

weka dblp数据集挖掘)

任务描述:DBLP数据集作者关系挖掘
DBLP数据集是一个XML格式文件,这里可以下载压缩数据集
18年11月数据包大小约为2g,txt打不开这么大的文件,想看的话可以用UltraEdit打开。
在这里插入图片描述
可以看到每个以article 开头,以article结尾,weka中是不能直接导入XML格式的,所以要将XML格式先转换为CSV格式,具体可以参考Python解析DBLP的xml文件
挖掘作者关系可以只保留作者信息,weka对csv格式文件的读取要求每行数据量是一样的,否则会报错。所以在这里将作者信息全部解析出来之后用excel去处理。
在这里插入图片描述
每篇文章作者数量可能不一样,我这里每篇文章只保留四个作者。把第第五列以后的所有数据格子都删掉,再保存为CSV格式,这样EXCEL会自动帮你生成一个非常规整的weka能读出来的数据,在txt中打开看是这样的
在这里插入图片描述
也就是说,每行多余四个作者的会帮你删掉,少于四个作者会帮你补“,”号,这样weka就可以正确读进去了
打开weka-explorer-openfile,把你的文件打开
在这里插入图片描述
year数据在这里没用,作者4可以看到miss挺多的,把这俩都给remove了,只保留三个作者去挖掘。
选associate-choose-apriori关联算法,点choose旁边的框框可以出现参数设置。
在这里插入图片描述
这里几个重要的参数要设置一下,minsupport,就是最小支持度。一百万的数据集我这里设置的万分之0.5,就是说挖出合著超过50篇的作者,metrictype选confidence,就是置信度,minmetric就是代表最小置信度设置的值了,合著百分之二十以上的文章算很亲密的了。numrule代表你想最后显示满足要求的数据的数量。还有一个delta步长,程序会以最大支持度1开始运行,以步长递减,如1-0.95-0.9。。。,一直算到满足你的numrule数量。DBLP数据集数据量太大,这个如果以默认0.05的步长开始运行,程序跑完大约需要30个小时,效率太慢。直接将步长设置为1,weka会将支持度直接从1降到你的最小支持度,我这里大约是50例,程序运行完大约需要两个小时。
最后结果如下:
在这里插入图片描述
在这个支持度下只有四条满足规则的数据出现,有时间的朋友可以降低最小支持度试试,运行时间可能会更长。

猜你喜欢

转载自blog.csdn.net/weixin_43774880/article/details/84351144