Hadoop凉凉?不,它仍是大厂铁饭碗

关于Hadoop可能很多都是坏消息。

在2018年10月,最大的两个Hadoop发行版厂商Cloudera和Hortonworks宣布合并,抱团取暖,由于财报不太好,高层也离职了。还有第三大Hadoop发行版厂商MapR差点破产,幸亏最后被HPE收购.......

1Hadoop的整体印象

一句话概括:Hadoop就是存储海量数据和分析海量数据的工具。

Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。

HDFS是一个分布式文件系统:引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode,对数据进行分布式储存和读取。

MapReduce是一个计算框架:MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算/Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算。

2Hadoop的优势

高可靠性 :Hadoop 按位存储和处理数据的能力值得人们信赖。

高扩展性 : Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以干计的节点中。

高效性 : Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

高容错性 : Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分。

低成本 : 与一体机、商用数据仓库以及 QlikView、 Yonghong Z- Suites 等数据集市相比,Hadoop 是开源的,项目的软件成本因此会大大降低。Hadoop 带有用 Java 语言编写的框架,因此运行在 linux 生产平台上是非常理想的, Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。

3Hadoop 生态圈

HDFS:Hadoop 分布式文件系统(Hadoop Distributed File System),建立在集群之上,适合PB级大量数据的存储,扩展性强,容错性高。

MapReduce:Hadoop 的计算框架,由 Map 和 Reduce 两部分组成,由Map生成计算的任务,分配到各个节点上,Reduce执行计算。

HBase:源自谷歌的 BigTable,是一个分布式的、面向列存储的开源数据库,性能高,可靠性高,扩展性强。

Hive:Hadoop 的数据仓库工具,将个结构化的数据文件映射为一张数据库表,通过类 SQL 语句快速实现简单的 MapReduce 统计,十分适合数据仓库统计。

Sqoop:Hadoop 的数据同步工具,将关系型数据库(MySQL、Oracle等)中的数据表和 HDFS 中的文件进性相互导入导出。

Flume:Hadoop 的日志收集工具,一个分布式、可靠的、高可用的海量日志聚合系统,用于日志数据收集、处理和传输。

Zookeeper:Hadoop 的分布式协作服务,主要作用于统一命名、状态同步、集群管理、配置同步,简化分布式应用协调及其管理难度,提供高性能的分布式服务。 

Mahout:Hadoop 的机器学习和数据挖掘算法库,实现了大量数据挖掘算法,解决了并行挖掘的问题。 

Spark:Hadoop 的内存计算框架,为大规模数据处理而设计的快速通用的计算引擎。

Pig:Hadoop的大规模数据分析工具,类似于Hive,它提供了 Plight 语言将类 SQL 的数据分析请求转化为一系列经过优化的 MapReduce 运算。

 Ambari:一种基于Web的工具,支持Hadoop集群的供应、管理和监控等统一部署。

4Hadoop实际应用

 Hadoop+HBase建立NoSQL分布式数据库应用

 Flume+Hadoop+Hive建立离线日志分析系统

 Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析

 在线旅游、移动数据、电子商务、IT安全、医疗保健、图像处理等

5Hadoop三大发行版本

Apache Hadoop:免费开源,拥有全世界的开源贡献者,代码更新迭代版本比较快,但难以维护,适合学习使用。

               官网地址:http://hadoop.apache.org/releases.html

               下载地址:https://archive.apache.org/dist/hadoop/common/

Cloudera Hadoop:版本兼容性更好,适用于互联网企业。

               官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html

               下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/

 Hortonworks Hadoop:核心免费开源产品软件HDP(ambari),提供一整套的web管理界面来管理集群。

               官网地址:https://hortonworks.com/products/data-center/hdp/

               下载地址:https://hortonworks.com/downloads/#data-platform

6怎么学习Hadoop

Hadoop的学习不仅仅是学习Hadoop,还要学习Linux,网络知识,Java、还有数据结构和算法等等,所以万里长征才开始第一步,希望Hadoop学习不是从了解到放弃。

长按识别直达→

《Hadoop大数据实战手册》

如需PDF版

请关注“程序员面试吧”,回复“Hadoop大数据实战手册”领取。

猜你喜欢

转载自www.cnblogs.com/douhua7458/p/13373410.html