hadoop系列-hadoop版本选择

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/projim_tao/article/details/102712997

引言

Hadoop自从出现到现在被广泛应用,经理了很多个版本的衍化,甚至各个公司都在原生apache hadoop的基础上进行了一些改造以及特性优化,有些是完善了一整套的集群部署工具,在这衍化的过程中出现了Apache hadoop官方版本,还有很多第三方版本,例如Cloudera,Hortonworks,IBM,华为等提供的版本。那么这么多的版本,我们在进行学习开发或者生产环境部署的时候应该如何选择呢?

一、Apache Hadoop

Apache Hadoop是apache提供的官方版本,以yarn框架的出现为标志分为Hadoop第一代和Hadoop第二代,第一代的Hadoop包含三个大版本:0.20.x 、0.21.x 、0.22.x,其中除了0.20.x(后来演变为了1.0.x版本)是稳定的版本之外,其他的皆为不稳定版本。第二代Hadoop跟第一代相比有了明显的不同,包含了HDFS Federation和 YARN系统。
Apache Hadoop下载地址:http://hadoop.apache.org/releases.html

二、CDH(Cloudera Distribution Hadoop)

Cloudera公司的发行版,市场上称之为CDH(Cloudera Distribution Hadoop),截止目前为止已经到了CDH6,目前较常用的是CDH3以上的版本,CDH3对应于hadoop 1.0,而CDH4和CDH5对应于hadoop2.0.Cloudera,版本层次明确,代码也是完全开源,并且集群部署工具比较完善以及教程等相对较多,社区活跃。
各版本下载地址:

Hortonworks

Hortonworks提供的hadoop发行版称为HDP(Hortonworks Data Platform),也是全开源的系统。HDP除了包含常见的项目外还包含了Ambari,一款开源的安装和管理系统。一个元数据管理系统HCatlog,还包含HBase、Hive、Pig等一整套大数据解决方案技术。
Hortonworks在管理工具和集群部署方面有其独特优势。

IBM

IBM不提供只针对Hadoop的发行版,而是在原生hadoop的基础上进行了增强,例如增强了安全认证、作业调度等,采用Pig,Hive,HBase等技术开发了IBM的InfoSphere BigInsights大数据平台,一般面向IBM企业用户。

华为

华为在国内大数据领域也是走在前列的,其在Apache Hadoop的基础上利用本身的硬件能力进行了一些增强,例如故障自动Failover,增强HA功能等,其发布的版本为FusionInsight Hadoop。

总结

众多版本应该如何选择?综上所述,Apache Hadoop原生版本以及Cloudera CDH版本无论在开源或者社区活跃度,学习资料等方面都位列前茅,如果是用来研究学习建议选择这两个版本,基于目前两者更新的版本已经较多的情况,建议直接选择Hadoop2.0之后的版本或者CDH4之后的版本进行学习。如果是用于生产环境部署,则可根据情况选择稳定的版本,或者选择Hortonworks可以使用ambari等管理工具较为方便地进行部署。

猜你喜欢

转载自blog.csdn.net/projim_tao/article/details/102712997