为什么学校里学习云计算或者大数据都要从hadoop开始?

1、 hadoop开源，更容易拿到源代码等，微软等相关产品都是闭源的。Hadoop和微软就好比安卓和ios。市面上华为，小米，三星基本上都在Google开源Android的基础上二次开发成自己的rom。

2、大数据现在是中国的十三五国家战略，大数据火啊，而Apache hadoop现在已经发展成一个庞大的生态圈。全球各地的开发者都在贡献者自己的代码。各个分支也是相当火爆，例如spark。

3、现在普遍认为，大数据狭义的代表就是hadoop，其实并不是这样，现在大数据公司有很多，

有做大数据基础平台的，例如星环科技，MapR，Hortonwork，Cloudera，这四家应该是现在全球顶尖top4了，3家美国硅谷的，一家中国上海的。这四家都是基于开源hadoop发展起来的。

有MPP架构的DW产品，例如Teredata，GP，IBM等

有做上层数据应用的，这类公司非常多，很多需要卖人力工时。

也有现在卖数据的公司，这种公司也非常多。

下面给个图大家随便看看

Hadoop生态系统

当今的Hadoop已经成长为一个庞大的体系，只要有和海量数据相关的领域。都有Hadoop的身影。
Hadoop生态系统图谱

大家知道，Hadoop的两大核心就是HDFS和MapReduce，而整个Hadoop的体系结构主要是通过HDFS的分布式存储作为底层数据支持的。并且会通过MapReduce来进行计算分析。 Hadoop1.x的核心：

1. Hadoop Common

2. Hadoop Distributed File System（HDFS）

3. Hadoop MapReduce

Hadoop2.x的核心：

1. Hadoop Common

2. Hadoop Distributed File System（HDFS）

3. Hadoop MapReduce

4. Hadoop YARN

Hadoop1.x 生态系统图

Hadoop2.x 生态系统图

1. HDFS

分布式文件系统，将一个文件分成多个块，分别存储(拷贝)到不同的节点上.它是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。

2. MapReduce

分布式计算框架，它是一种分布式计算处理模型和执行环境，用于进行大数据量的计算。共包括Map和Reduce部分。其中Map接受一个键值对（key-value），产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。Reduce函数：接受一个键，以及相关的一组值，将这组值进行合并产生一组规模更小的值（通常只有一个或零个值）。

3. hive

基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类似SQL一样的查询语言HiveQL来管理这些数据。Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。

4. Pig

Pig是一个基于Hadoop的大数据分析平台，它提供了一个叫PigLatin的高级语言来表达大数据分析程序，将脚本转换为MapReduce任务在Hadoop上执行。通常用于进行离线分析。

5. Mahout

数据挖掘算法库，Mahout起源于2008年，最初是Apache Lucent的子项目，它在极短的时间内取得了长足的发展，现在是Apache的顶级项目。Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout现在已经包含了聚类、分类、推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法。除了算法，Mahout还包含数据的输入/输出工具、与其他存储系统（如数据库、MongoDB 或Cassandra）集成等数据挖掘支持架构。

6. ZooKeeper

分布式协作服务，是一个针对大型分布式系统的可靠协调系统，提供包括配置维护，名字服务，分布式同步和组服务等功能。Hadoop的管理就是用的ZooKeeper

7. HBase

HBase是一个分布式列存数据库，它基于Hadoop之上提供了类似BigTable的功能。HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同，HBase采用了BigTable的数据模型：增强的稀疏排序映射表（Key/Value），其中，键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。

8. Sqoop

数据同步工具，SQL-to-Hadoop的缩写。Sqoop是一个Hadoop和关系型数据库之间的数据转移工具。可将关系型数据库中的数据导入到Hadoop的HDFS中，也可将HDFS中的数据导进到关系型数据库中主要用于传统数据库和Hadoop之前传输数据。数据的导入和导出本质上是Mapreduce程序，充分利用了MR的并行化和容错性。

9. Flume

日志收集工具，Cloudera开源的日志收集系统，具有分布式、高可靠、高容错、易于定制和扩展的特点。它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在Flume中定制数据发送方，从而支持收集各种不同协议数据。同时，Flume数据流提供对日志数据进行简单处理的能力，如过滤、格式转换等。此外，Flume还具有能够将日志写往各种数据目标（可定制）的能力。总的来说，Flume是一个可扩展、适合复杂环境的海量日志收集系统。

10. Ambari

是一个对Hadoop集群进行监控和管理的基于Web的系统。目前已经支持HDFS，MapReduce，Hive，HCatalog，HBase，ZooKeeper，Oozie，Pig和Sqoop等组件。

11.Apache Spark：Apache Spark是提供大数据集上快速进行数据分析的计算引擎。它建立在HDFS之上，却绕过了MapReduce使用自己的数据处理框架。Spark常用于实时查询、流处理、迭代算法、复杂操作运算和机器学习。

现在hadoop发展很快，也有很多新的技术，以上也有很多技术不是那么火爆了，有更优的选择，不过我觉得如果你想学习大数据，作为技术宅，这些组件还是都需要了解的。

juan777

发布了37 篇原创文章 · 获赞 1 · 访问量 3477

私信关注

为什么学校里学习云计算或者大数据都要从hadoop开始?

猜你喜欢