什么是大数据?
大数据:指数据集的大小超过了现有典型的数据库软件和工具的处理能力的数据。
大数据的特点
主要特点
海量化(Volume):数据量从TB到PB级别
多样化(Variety):数据类型复杂,超过80%的数据是非结构化的
快速化(Velocity):数据量在持续增加(两位数的念增长率)数据的处理速度要求高
高价值(Value):在海量多样数据的快速分析下能够发挥出更高的数据价值
大数据能做什么
海量数据背景下
快速查询 - 全量查询
数据存储 - 量大、文件大
快速计算 - 对比传统方案
实时计算 - 最新数据
数据挖掘 - 新价值
海量数据快速查询
在海量数据的背景下,进行数据的快速查找、快速提取.(快速指查找或提取效率3秒内)
传统数据计算特点:
数据量小(基本单位是MB、GB)、数据种类少(大都为结构化数据)、增长速度慢
海量数据存储
A:大数据能够存储海量数据
大数据时代数据量巨大
1TB=1024*1G约26万首歌
1PB=1024*1024*1G约2.68亿首歌(一首歌4M)
B:大数据能够存储单个大文件
目前市面上最大的单个硬盘大小约为10T左右。若有一个文件20T,将无法存储。
大数据可以存储单个20T文件,甚至更大
海里数据快速计算(离线)
能够在海量数据的基础上进行快速计算,这里的 “快速” 是与传统计算方案对比。
海量数据背景下,使用传统方案计算可能需要一星期时间。使用大数据基数计算只需要30分钟
海量数据实时计算(实时)
在海量数据的背景下,对于实时生成的最新数据,需要立刻、马上传递到大数据环境,并立刻、马上进行相关
业务指标的分析,并把分析完的结果立刻、马上展示给客户或领导。
挖掘前所未有的新的价值点。
原始企业内数据无法计算出的结果,使用大数据能够计算出。