由于新技术、新设备和社交网站等通信手段的出现,人类产生的数据量每年都在迅速增长。2003年之前的所有数据量总和是50亿G。如果你把数据以磁盘的形式堆起来,它可能会填满整个足球场。到了2011年,每两天就能创造同样的数量,2013年每十分钟创造同样的数量。这一比例仍在大幅增长。虽然所有这些信息都是有意义的,并且在处理时很有用,但它却被忽略了。
世界上90%的数据是在过去几年生成的。
什么是大数据
大数据其实就是海量的数据,它是不能用传统计算技术处理的海量数据集的集合。大数据不仅仅是一种数据,它已经成为一门完整的学科,涉及到各种工具、技术和框架。
大数据的来源
大数据涉及不同设备和应用产生的数据。以下是大数据保护下的一些领域。
- 黑匣子数据:是直升机、飞机、喷气机等的组成部分,它可以捕捉机组人员的声音、麦克风和耳机的录音,以及飞机的性能信息。
- 社交媒体数据:Facebook和Twitter等社交媒体包含全球数百万人发布的信息和观点。
- 股票交易数据:股票交易数据包含客户对不同公司股票的“买入”和“卖出”决策的信息。
- 电网数据:电网数据包含特定节点相对于基站所消耗的信息。
- 搜索引擎数据:搜索引擎从不同的数据库检索大量数据。
因此,大数据包括大容量、高速度和可扩展的各种数据。其中的数据有三种类型。
- 结构化数据: 关系型数据库。
- **半结构化数据: **XML数据。
- 非结构化数据: Word、PDF、文本、媒体日志。
大数据带来的好处
大数据对我们的生活至关重要,它正在成为现代世界最重要的技术之一。下面是我们大家都知道的几个好处:
- 利用Facebook等社交网络中保存的信息,营销机构正在了解他们的活动、促销和其他广告媒介的效果。
- 利用社交媒体上的信息,如消费者的喜好和对产品满意度,产品公司和零售组织正在优化他们的生产。
- 利用患者既往病史资料,医院提供更好、更快的服务。
大数据技术
大数据技术在提供更准确的分析方面有很重要的作用,这可以提供更具体的决策,从而提高运营效率,降低成本,降低业务风险。
想要利用大数据的力量,你需要一个能够实时管理和处理海量结构化和非结构化数据、能够保护数据隐私和安全的基础设施。
市场上有来自亚马逊、IBM、微软等不同厂商的各种处理大数据的技术。在研究处理大数据的技术时,我们考察了以下两类技术:
大数据操作
这包括像MongoDB这样的系统,它提供了实时、交互式工作负载的操作能力,数据主要是在这些工作负载中捕获和存储的。
NoSQL大数据系统旨在利用过去十年出现的新的云计算架构,以低成本和高效率运行大量计算。这使得操作大数据工作负载更容易管理、更便宜、实现更快。
一些NoSQL系统可以提供基于实时数据的模式和趋势的洞察,而只需最少的编码,并且不需要数据科学家和额外的基础设施。
大数据分析
这包括大规模并行处理(Massively Parallel Processing)数据库系统和MapReduce系统,它们提供可追溯和复杂的分析能力,可能涉及大部分或所有数据的分析。
MapReduce提供了一种新的数据分析方法,它是SQL提供的功能的补充,并且基于MapReduce的系统可以从单个服务器扩展到数千台高端和低端机器。
这两类技术是互补的,经常一起部署。
操作VS分析
操作 | 分析 | |
---|---|---|
延迟 | 1 ms - 100 ms | 1 min - 100 min |
并发 | 1000 - 100,000 | 1 - 10 |
访问模式 | Writes and Reads | Reads |
查询 | Selective | Unselective |
数据使用范围 | Operational | Retrospective |
End User | Customer | Data Scientist |
技术 | NoSQL | MapReduce, MPP Database |
大数据的挑战
与大数据相关的主要挑战如下:
- 数据采集
- 管理
- 存储
- 搜索
- 共享
- 传输
- 分析
- 展示
为了完成上述挑战,通常需要企业服务器的帮助。
原文链接:https://www.tutorialspoint.com/hadoop/hadoop_big_data_overview.htm