Hadoop老当益壮,求学者该如何进行hadoop的学习?

Hadoop自雅虎诞生之日起,已经走过了 10 来个年头,且从2016年开始,对于hadoop唱衰的观点就一直存在,但时至今日,看似年老的hadoop实际上仍是壮年。随着腾讯近一步加强对于hadoop的应用,也让众多的机构、企业和个人明确hadoop老当益壮,学习仍是重中之重。

关于hadoop的学习,我们首先应该先了解其概念和含义是什么。只有将概念了解清楚,我们才能够更好的进行理解和学习。

总体而言,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

Hadoop最为核心的点就是HDFS和MapReduce。HDFS为海量的数据提供了存储, MapReduce为海量的数据提供了计算。一句话来讲Hadoop就是存储加计算。hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有5大优点:高可靠性、高扩展性、高效性、高容错性、低成本 等,凭借自身的优点和特性,hadoop这员老将的地位,并不是谁都能够取代的。

对于求学者而言,先要学好hadoop,可以从一下的这些分类去逐个攻破。

1、Hadoop Common :Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。

2、HDFS:分布式文件系统,提供高吞吐量的应用程序数据访问,对外部客户机而言,HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是 HDFS 的架构是基于一组特定的节点构建的(参见图 1),这是由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在 HDFS 内部提供元数据服务;DataNode,它为 HDFS 提供存储块。由于仅存在一个 NameNode,因此这是 HDFS 的一个缺点(单点失败)。

存储在 HDFS 中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的 RAID 架构大不相同。块的大小(通常为 64MB)和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。

3、MapReduce :一个分布式海量数据处理的软件框架集计算集群。

4、Avro :doug cutting主持的RPC项目,主要负责数据的序列化。有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。

5、Hive :类似CloudBase,也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总,即席查询简单化。hive提供了一套QL的查询语言,以sql为基础,使用起来很方便。

6、HBase :基于Hadoop Distributed File System,是一个开源的,基于列存储模型的可扩展的分布式数据库,支持大型表的存储结构化数据。

7、Pig :是一个并行计算的高级的数据流语言和执行框架 ,SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。

8、ZooKeeper :Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

9、Chukwa :一个管理大型分布式系统的数据采集系统 由yahoo贡献。

10、Cassandra :无单点故障的可扩展的多主数据库 。

11、Mahout :一个可扩展的机器学习和数据挖掘库 。

Hadoop在我国应用的时间并不长,但应用却很深刻,所以,求学者在学习的过程中能在现实中找到很多的案例。当年,学习hadoop并不能够一蹴而就,需要求学者至少会一门编程语言,且有一颗持续学习、坚持学习的心。hadoop未老,且功能强大,目前市场上对于hadoop工程师的招聘信息并不少,所以,不论是作为从业者、求学者还是求职者,学懂hadoop都至关重要。

                                                                         本文转自:海牛学院

猜你喜欢

转载自blog.csdn.net/hainiubuluo/article/details/81221939