《人人都会数据分析》笔记:数据的类型

数据的结构属性分类:结构化数据、非结构化数据

(1)结构化数据:即为联想的各种数值;数据库存储的对象基本都是结构化数据。如生活中的企业系统

财务系统等。结构化数据可以直接用于检索、分析和结果可视化。

(2)非结构化数据:无统一的存在形式,如:视频、音频、图片图像、文本文档等。非结构化能存储在数据

库中;它们无法被直接用于数据分析,只能通过量化的方法将非结构化数据量化为结构化数据。

数据的连续性特征分类:离散型数据、连续型数据

(1)连续型数据:数据不是单独的整十整百的数字,包含若干位小数且取值密集。

(2)离散型数据:数据全部都是整数,而且不能再细分,也不能进一步提高他们的精确度。

example:实线为连续型数据,只要在该区间都能取任意值,且值与值之间间隙可以很小。

虚线(看作并排的点)为离散型数据,点与点之间不连接,取值只能取区间中存在的点。

数据的测量尺度:定类数据、定序数据、定距数据、定比数据

(1)定类数据:仅能标识不同数据的类别(判断数据属于哪一类),不能进行数学运算和排序。

如超市的商品能分为:零食、酒水饮料、日用产品、蔬菜水果四大类。

(2)定序数据:不仅能标识数据类别,还能对数据进行大小比较高低次序(大于号、小于号)。

如一个班同学成绩排名。

(3)定据数据:能标识类别、比较还能进行加减乘除的数学运算。如:一个班级同学的考试成绩。

描述数据的三个维度:集中趋势描述、离散程度描述、分布形态描述

 

猜你喜欢

转载自blog.csdn.net/weixin_44649331/article/details/89209558