大数据入门学习笔记(贰)- 初识Hadoop

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/bingdianone/article/details/83829989


学习建议官网地址: https://hadoop.apache.org

Hadoop概述

Hadoop概述之Hadoop名字的由来;
Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名
看下图:
在这里插入图片描述
Apache Hadoop软件库是一个框架,它允许使用简单的编程模型在计算机集群之间对大型数据集进行分布式处理。它被设计成从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身的设计目的不是依赖硬件来提供高可用性,而是检测和处理应用层上的故障,因此在一组计算机上提供高可用性的服务,而每组计算机都可能出现故障。主要包括Hadoop Distributed File System (HDFS™)、Hadoop YARN、Hadoop MapReduce。

Hadoop能做什么

在这里插入图片描述
Hadoop主要做以下工作:商业智能、搜索引擎、日志分析、数据挖掘
在这里插入图片描述

Hadoop核心组件

分布式文件系统HDFS

  • 源自FGoogle的GFS论X,论发表于2003年10月
  • HDFS 是GFS的克隆版
  • HDFS特点:扩展性&容错性&海量数量存储
  • 将文件切分成指定大小的数据块并以多副本的存储在多个机器上
  • 数据切分、多副本、容错等操作对用户是透明
    在这里插入图片描述

分布式文件系统HDDS

Hadoop3.1开始的一个新模块 https://hadoop.apache.org/ozone/
Hadoop Ozone: An object store for Hadoop.

  • 可扩展
    Ozone旨在扩展到数百亿个文件和块,并在未来甚至更多。
    小文件或大量数据节点不再是限制。
  • 一致性
    存储层使用RAFT协议来保持一致性。
  • 云本土
    Hadoop Ozone设计用于YARN和Kubernetes等集装箱化环境。

资源调度系统YARN

  • YARN: Yet Another Resource Negotiator
  • 负责整个集群资源的管理和调度
  • YARN特点:扩展性&容错性&多框架资源统一调度
    在这里插入图片描述

分布式计算框架MapReduce

  • 源自于Google的MapReduce论X,iX 2004年12月
  • MapReduce是Google MapReduce的克隆版
  • MapReduce特点:扩展性&容错性&海量数量离线处理
    在这里插入图片描述

Hadoop优势

高可靠性

  • 数据存储:数据块多副本
  • 数据计算:重新调度作业计算

扩展性

  • 存储/计算资源不够时,可以横向的线性扩展机器
  • 一个集群中可以包含数以干计的节点

其他

  • 存储在廉价机器上,降低成本
  • 成熟的生态圈

Hadoop发展史

参考博文 http://www.infoq.com/cn/articles/hadoop-ten-years-interpretation-and-development-forecast

Hadoop生态系统

侠义Hadoop VS 广义Hadoop

  • 狭义的Hadoop :是一个适合大数据分布式存储( HDFS ) .分布式计算(MapReduce)和资源调度(YARN )的平台
  • 广义的Hadoop :指的是Hadoop生态系统, Hadoop生态系统是一个很庞大的概念, hadoop是其中最重要最基础的一个部分;生态系统中的每一子系统只解决某一个特定的问题域(甚至可能很窄)不搞统一型的一个全能系统,而是小而精的多个小系统
    在这里插入图片描述
    特点
  • 开源、社区活跃
  • 囊括了大数据处理的方方面面
  • 成熟的生态圈

Hadoop发行版的选择

Apache Hadoop(单个侠义Hadoop学习可以使用)(开源)
CDH(市场份额60-70%):Cloudera DIstributed Hadoop(不开源)(广义生态圈综合使用)
HDP(市场份额10-20%):Hortonworks Data Platform(开源)

猜你喜欢

转载自blog.csdn.net/bingdianone/article/details/83829989
今日推荐