华中科技大学数据挖掘课程关联规则挖掘答案一键生成
使用说明
项目源码地址:
https://github.com/DullPinard/DataMining
环境准备
安装好 requirements.txt
以后运行 app.py
出现如下界面:
点击 帮助
按钮可以获得使用说明。
我们以2024年华中科技大学研究生课程数据挖掘技术考试试题举例:
可以使用微信图像的文字识别功能或其他的文字识别工具识别表格中的信息,准备好数据,把数据按照列合并成一列:
Major
Arts
Arts
Arts
Appl_science
Appl_science
Science
Science
Status
Graduate
Graduate
Undergraduate
Graduate
Undergraduate
Graduate
Undergraduate
Age
Old
Old
Young
Young
Young
Old
Young
Gender
Female
Male
Female
Male
Female
Male
Female
Gpa
Good
Exellent
Good
Exellent
Good
Good
Good
Count
80
50
120
140
80
180
120
中间有空的空行是无所谓的,然后设置界面中 统计列关键字
,一般默认为 Count
,表示的是该行对应的数值。点击 读取数据
可以读数据,读取成功数据会在右侧按照列显示。
记得检查一下所有的规则名称是否都是正确的。
第一问(强关联规则)求取
设置 最小支持度阈值
和 最小置信度阈值
,然后在右下侧表格设置强关联规则。
可以右键添加,在这个强关联规则表格中设置的是频繁三项集的求取,每个项都是不重复的,因此除了 Age
一列也可以设置为 All
,效果相同。
点击 开始计算(强关联规则)
可以在弹窗中看到所有结果:
这就是第一问的全部结果,如果答题空间够可以把过程全部抄上。
第二问(判定树)求取
选择判定树的输出列,以本题 Gender
为例,然后点击 开始计算(判定树)
即可看到生成结果,全部抄上即可满分。
结语
本项目还提供了其他示例数据,在项目地址的 ./data/
,有兴趣可以试试哦。
别忘了点赞收藏哦!还有给我的项目点个 Star!