数据挖掘导论

1.1 数据挖掘的发展背景

数据富有但知识贫乏,数据库是知识发现的一个重要环节。

推动数据挖掘发展的原因:1)超大规模的数据库出现 2)先进的计算机技术 3)对巨大量数据的快速访问 4)对这些数据挖掘相关的挖掘算法的深入研究

1.2  数据挖掘的定义

a)数据挖掘就是从大量的、不完全的、有噪声的、模糊的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。

b)具体而言,数据源必须是真实的、大量的、喊噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要放之四海而皆准的知识,仅需支持特定的发现问题。

c)数据的特征:1)存储在数据库中的结构化数据 2)半结构数据,文本、图形、和图像数据 3)分布在网络上的异构数据

d)所有发现的知识都是相对的,是有特定前提和约束条件的,面向特定领域的,同时还能够易于被用户理解。

e)影响数据挖掘质量的因素:数据挖掘算法与数据挖掘数据质量和规模。

f)数据挖掘是一个不断反馈修正的过程,对参数的处理。

1.3 数据挖掘的过程:

(1)问题的定义:发现何种知识是整个数据挖掘中最关键的阶段

(2)数据收集与预处理:1)数据选择:根据数据挖掘的任务从相关数据源中抽取出与挖掘任务相关的数据集

                                      2)数据预处理:消除噪声、遗漏数据处理、消除重复数据、数据类型转换

                                      3)数据转换:降维,选择与任务相关的数据维度

(3)数据挖掘的实施:算法(分类、聚类、回归与关联),结合数据特点和结果知识描述方法

(4)结果解释与评估

1.4 数据挖掘的数据来源

美国NASA的地球观测系统(EOS)每小时向地面发回约50GB的图像数据;美国沃尔玛零售系统每天会产生约2亿条交易数据;

1.5 数据挖掘案例

典型是数据挖掘案例:数据库营销、客户群体划分、背景分析、交叉销售、客户流失分析、客户信用评欺诈检测

(1)金融服务:金融市场分析和预测、账户分类、银行担保和信用评估

(2)市场营销:市场定位和消费者分析

(3)工程和科学研究:在天文学和生物学上应用

(4)产品制造业:零部件故障诊断、资源优化、生产过程分析

(5)司法:案件调查、诈骗检测、洗钱认证、犯罪组织分析

加拿大BC省电话公司根据十多年的客户数据,分析、总结提出新的电话收费和管理方法,制定出对消费者和公司均有利的优惠政策。

NBA教练利用数据挖掘工具替换球员。

Mellon银行使用Intelligent Agent数据挖掘软件提高销售和定价金融产品的精确度,如普通家庭贷款。

美国Firstar银行使用Marksman数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。

1.6 数据挖掘的功能:概念知识、关联知识、分类知识、预测型知识、偏差型知识

1.7 数据挖掘相关的研究焦点:数据挖掘使用语言(PYTHON)、数据挖掘方法(算法)、数据挖掘与数据仓库结合(SQL)、数据挖掘的数据(文本、图形、多媒体)。

1.8 网站数据挖掘的关注点:内容、层次、用词、标题、奖励方案、服务等,数据获取:客户背景信息和浏览者的点击流。

1.9数据准备:从多数据源去综合数据挖掘所需要的数据,保证数据的综合性、易用性、质量和时效性,另外是如何从现有的数据中衍生出所需要的指标。


猜你喜欢

转载自blog.csdn.net/wanpi931014/article/details/80110990
今日推荐