一、大数据概念

1.1 什么是大数据

大数据并没有确切的定义，不同的组织机构有不同的定义。

百度百科：
大数据（big data）是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
谷歌公司:
大数据是通过传统数据库技术和数据处理工具不能处理的庞大而复杂的数据集合。

1.2 大数据的基本特征

容量（Volume）：数据的大小决定所考虑的数据的价值和潜在的信息
　　种类（Variety）：数据类型的多样性
　　速度（Velocity）：指获得数据的速度
　　可变性（Variability）：妨碍了处理和有效地管理数据的过程
　　真实性（Veracity）：数据的质量

复杂性（Complexity）：数据量巨大，来源多渠道
　　价值（Value）：合理运用大数据，以低成本创造高价值

1.3 大数据的意义

大数据的价值体现在以下几个方面：
(1) 对大量消费者提供产品或服务的企业可以利用大数据进行精准营销
(2)做小而美模式的中小微企业可以利用大数据做服务转型
(3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值
(4)企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。

二、Hadoop概述

2.1 什么是Hadoop

1）Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。
2）用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。
3）Hadoop 实现了一个分布式文件系统（Hadoop Distributed File System），简称 HDFS。 HDFS 有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；
　　而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。
　　HDFS 放宽了（relax） POSIX 的要求，可以以流的形式访问（streaming access）文件系统中的数据。
4）Hadoop 的框架最核心的设计就是： HDFS 和 MapReduce。 HDFS 为海量的数据提供了存储，则 MapReduce 为海量的数据提供了计算。

2.2 Hadoop的优点

1）Hadoop 是一个能够对大量数据进行分布式处理的软件框架。

2）Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
　　3）Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。
　　4）Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。
　　5）Hadoop 还是可伸缩的，能够处理 PB 级数据。
　　6）Hadoop 依赖于社区服务，因此它的成本比较低，任何人都可以使用。
　　7）Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：
　　　　高可靠性：Hadoop 按位存储和处理数据的能力值得人们信赖
　　　　高扩展性：Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
　　　　高效性：Hadoop 能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快
　　　　高容错性：Hadoop 能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配
　　　　低成本:与一体机、商用数据仓库以及 QlikView、 Yonghong Z-Suite 等数据集市相比， hadoop 是开源的，项目的软件成本因此会大大降低。
　　8）Hadoop 带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。 Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

3.4、Hadoop生态圈

经过几年的发展，Hadoop已经发展成包含多个相关项目的软件生态系统。（也就是说Hadoop包含着许多的子项目）

1）狭义的Hadoop

核心项目：

Hadoop Common：在 0.20 及以前的版本中，包含 HDFS、 MapReduce 和其他项目公共内容，从 0.21 开始 HDFS和 MapReduce 被分离为独立的子项目，其余内容为 Hadoop Common

为Hadoop其他项目提供一些常用工具，如系统配置工具Configuration、远程过程调用RPC序列化机制、Had抽象文件系统FileSystem等。
　　　　HDFS： Hadoop 分布式文件系统(Distributed File System)，运行大型商用机集群，是Hadoop体系中海量数据储存管理的基础。

MapReduce：并行计算框架， 0.20 前使用 org.apache.hadoop.mapred 旧接口， 0.20 版本开始引入 org.apache.hadoop.mapreduce 的新 API。

分布式数据处理模型和执行环境，是Hadoop体系中海量数据处理的基础。
2）广义的Hadoop

核心项目+其他项目（Avro、Zppkeeper、Hive、Pig、Hbase等）：

上面为基础，面向具体领域或应用的项目有：mahout、X-Rime、Crissbow、lvory等

数据交换、工作流等外围支撑系统：Chukwa、Flume、Sqoop、Oozie

花开蝶自来-liu

发布了33 篇原创文章 · 获赞 12 · 访问量 1万+

私信关注

初识大数据与Hadoop