吃西瓜—先磨刀1

一、什么是数据挖掘?

基于对大量的数据进行深度分析,发现其有价值的信息!利用这些信息提高企业预测分析与推断决策能力。针对不同用户进行个性化推荐,优化用户体验。我个人理解是,在大量数据中发现模式与规律,也就是咱们人类所说的知识,所以为什么叫机器学习?让机器像人类一样从一堆数据中学到知识! 

数据挖掘所使用的方法论是什么?包括统计学、机器学习、数据库、云计算等等。所以在研究生生活开始之前我应该学习完李航老师的《统计学方法》、周志华老师的西瓜书《机器学习》,为以后研究打下深厚的基础。数据挖掘包括四大基本模型,包括分类、聚类、预测、关联四大模型。


二、概率定义

简单回顾一下大学期间所学到的概率论的基本概率:

随机试验E:符合三个条件,1、相同条件下能够重复进行;2、试验结果不止一个但能明确试验所有可能;3、试验前无法确定结果但肯定是所有可能结果之一;例如掷骰子、王者排位。

样本空间S:随机试验E中所有可能的结果组合成的集合称为样本空间,例如掷骰子有 1、2、3、4、5、6种点数,这个集合为样本空间S。样本空间可以是无限的,例如到达教室的时间[8am,9am]。

样本点:样本空间中的每个结果或者说元素为样本空间,例如掷骰子 点数1 是一个样本空间。

基本事件:一个样本点事件为一个基本事件,基本事件我发再分割;通常把事件分为必然事件、偶然事件、不可能事件。

随机事件:若干个基本事件(样本点)组成,样本空间的子集。

未完待续。。。

猜你喜欢

转载自blog.csdn.net/cj151525/article/details/115407789