python数据挖掘入门与实践（一）

第一章开启数据挖掘之旅
打开jupyter notebook的方式：
在命令提示符（cmd）中输入：jupyter notebook就可以打开Web浏览器创建新的实例。
关闭：在cmd中输入Ctrl+C，确认关闭即可。
1.3 亲和性分析
应用场景：超市商品的摆放、向网站用户推送、电影推荐等。
找出规则。对于找出的规则需要判断其优劣，通过支持度（support）和置信度（confidence）。
支持度指数据集中规则应验的次数，或者是次数除以规则有效前提下的总数量。衡量的是给定规则应验比例。
置信度是指符合给定条件的所有规则里，跟当前规则结论一致的比例有多大，衡量的是规则准确率。计算方法：当前规则的出现次数除以条件相同的规则的数量。
举例：顾客购买了苹果，也购买了香蕉为例。
给定条件即为：购买了苹果，该事件发生的次数：num_occurances
规则应验的次数为：购买了苹果而且购买了香蕉：valid_rules
规则失效的次数为：购买了苹果但是没有购买香蕉：invalid_rules
则支持度=valid_rules，置信度=valid_rules/num_occurances。
根据支持度和置信度对rules进行排名，就能得到可靠性比较高的关联规则，然后做出反应。
在该亲和性问题中，我们关心的是两个变量之间的关系，比如：如何卖出更过的苹果。
亲和性分析算法的目标是从数据集中发现用以指导实践的规则。
也可以将是否购买苹果作为标签，转化成一个二分类问题，只寻求顾客购买苹果的规则
1.4 分类问题。建立一个能够根据已有知识对没有见过的个体进行分类的模型。
以莺尾花分类为例，使用sklearn.datasets中的iris数据。
（使用的算法为，要求使用类别型特征值）首先将数据集中的连续值特征转化为离散值，该过程叫作离散化。
最简单的离散化算法，莫过于确定一个阈值，将低于该阈值的特征值置为0，高于阈值的置
为1。我们把某项特征的阈值设定为该特征所有特征值的均值。每个特征的均值计算方法如下。

attribute_means = X.mean(axis=0)

将数据集打散，把连续的特征值转换为类别型。

X_d = np.array(X >= attribute_means, dtype='int')

OneR算法（One Rule）
表示只选取四个特征中分类效果最好的一个作为分类依据
思路：遍历每一个特征的每一个取值，对于每一个取值，计算它在各个类别中出现的次数，找到出现次数最多的类别，就判定如果样本为该特征值是属于该类别，错误率即为该特征值出现在其他类别的次数除以该特征值在每个类别出现的次数和。每个特征的错误率即为该特征各个取值错误率之和，选取错误率最低的特征作为唯一的分类准则，用于接下来的分类。

python数据挖掘入门与实践（一）

猜你喜欢