关于本科毕业设计期间对数据挖掘工具rapidminer的使用体验和心得,案例分享

1.前言:本科生毕业设计有好多人说没有什么用处,自己又做不出来什么新东西,全是抄抄改改的,浪费大家时间。但是对此事我的态度不同,我觉得就像我们小时候玩过家家一样,别的孩子都在玩,我不参与进去显得会有遗憾,而且本次毕设我并没有那么难受,也学到了新的东西,说句心里话,其实也是有收获的。

2.rapidminer软件简介:它是一款可视化软件,用于数u据挖掘,我们需要做的事情就是去不停地联系,核心代码都有人帮我们写好了。在这款软件面前,你完全可以是编程小白也没有什么关系,因为我们不需要考虑那么底层的技术问题,我们只需要会用就足够了。当然这款软件还是提供给我们开发者一些很好的开发余地的。我们可以自己写代码去处理业务逻辑,甚至可以直接去对现有算子进行改造,然后让自己的思路进行运算,总之,对于不是那么复杂的业务逻辑,rapidminer软件处理起来可以说是游刃有余。

3.软件介绍:

下载安装后我们可以在桌面看到这个图标,下图所示:

点击打开,我们看到如下界面:

直接选择blank来新建一个空白程序,

我把这些分为了7个区域,分别用A,B,C,D,E,F,G来表示,他们分别代表着导航栏,快捷功能,中央仓库,算子区,程序设计窗口,参数设置区,帮助区等7个区域。我们的程序设计就是把原始数据导入B区,将数据和算子拖到E区,在F区设置算子的参数,然后点击B区的run(三角标号)来运行程序,最后会在B区的Result展示程序结果。

4.案例简介:我本次课程设计过程中有3000多条实验数据存在Excel中,我现在把它导入rapidminer软件里边,找到数据存放位置(我的是在C:\Users\Administrator\Desktop\毕设论文\实验数据),然后回到软件,点击C区的Add Data,导入数据

导入后就开始设计流程了。首先把刚刚导入的数据从C区拖到E区

我的目的是筛选出实验误差小于5%的数据,对其进行聚类分析,来寻找规律。好的,那么首先就是对数据进行清洗和筛选了

在算子区搜索栏可以搜索自己进行处理的算子,以便快速锁定,如图1,输入select后会列出所有的select来,接下来就是选择合适的算子,我这里选择的是select attributes(选择属性)算子,如图2,然后把它拖到E区,接下来就是设置参数了,我们把算子拖到F区后首先要做的就是设置参数,以便让算子能够理解你的标准。我这里是选择没有缺失值的所有数据,如图3。接下来完成后续的步骤,过程和刚刚的select 算子一样,搜索,拖拽,设参,连线。接下来我再次拖拽一个select attributes算子,设置参数区选择subset(子集),即我要过滤掉和我目的不相关的数据

接下来就是决定过滤掉什么了,要什么,点击参量就可以了,点击apply。

接下来就是找误差小于5%的数据,明显输入filter来查询过滤算子,然后拖到E区

设置参量,点击filters的add后看到如图展示,如果有多个条件,设置多个条件就是了。

接下来就是聚类分析,聚类算子默认k-means,用来对数据进行聚类,只需要在F区设置k的值即可,k默认是2,我设置为5,即要聚成5类,该算子即可帮你完成剩下的工作。

为了对照方便我还需要将误差大于等于5%的数据进行一次归类,这时候filter examples算子的unm出口就很有用了,它代表unmatched(即不匹配的,回忆一下我们之前设置的条件是σ<5%)那unm出口就对应它的互补面了。我们同样设置为5类,有对照性。

最后运行,结果如图, 有两个结果集一个是小于5%的(clustering),另一个是大于等于5%的(clustering2),好多种展现形式。

猜你喜欢

转载自www.cnblogs.com/g177w/p/9238302.html