吃西瓜—先磨刀1

一、什么是数据挖掘？

基于对大量的数据进行深度分析，发现其有价值的信息！利用这些信息提高企业预测分析与推断决策能力。针对不同用户进行个性化推荐，优化用户体验。我个人理解是，在大量数据中发现模式与规律，也就是咱们人类所说的知识，所以为什么叫机器学习？让机器像人类一样从一堆数据中学到知识！

数据挖掘所使用的方法论是什么？包括统计学、机器学习、数据库、云计算等等。所以在研究生生活开始之前我应该学习完李航老师的《统计学方法》、周志华老师的西瓜书《机器学习》，为以后研究打下深厚的基础。数据挖掘包括四大基本模型，包括分类、聚类、预测、关联四大模型。

简单回顾一下大学期间所学到的概率论的基本概率：

随机试验E：符合三个条件，1、相同条件下能够重复进行；2、试验结果不止一个但能明确试验所有可能；3、试验前无法确定结果但肯定是所有可能结果之一；例如掷骰子、王者排位。

样本空间S：随机试验E中所有可能的结果组合成的集合称为样本空间，例如掷骰子有 1、2、3、4、5、6种点数，这个集合为样本空间S。样本空间可以是无限的，例如到达教室的时间[8am,9am]。

样本点：样本空间中的每个结果或者说元素为样本空间，例如掷骰子点数1 是一个样本空间。

基本事件：一个样本点事件为一个基本事件，基本事件我发再分割；通常把事件分为必然事件、偶然事件、不可能事件。

随机事件：若干个基本事件（样本点）组成，样本空间的子集。

未完待续。。。