20190314-Hadoop概述

Apache开源软件基金会开发的,运行于大规模普通服务器上的,大数据存储、计算、分析的,分布式存储系统和分布式运算框架

组成

1.分布式存储系统HDFS(Hadoop Distributed File System)

  • namenode
    管理者,在主节点。
    存放元数据信息:文件大小、位置、块、索引等

  • datanode
    在从节点,存数据的位置,是数据落地的地方
    存放

2.资源管理系统YARN

  • resourcemanager
    对资源的总的管理

  • nodemanager
    在从节点上,把节点的资源信息汇报给resourcemanager

3.分布式计算框架MapReduce

  • 1.0和2.0的差别

在这里插入图片描述
1.0块的默认大小是64M,2.0以后是128M

Hadoop生态圈

在这里插入图片描述
1.Hive
构建在Hadoop之上的数据仓库,no sql的类SQL数据库
2.pig
由Yahoo!开源,设计动机是提供一种基于MapReduce的数据分析工具
3.Mahout
基于Hadoop的机器学习和数据挖掘的分布式计算框架
4.Hbase
面向列的数据库
5.Zookeeper
来源于Google的Chubby论文
6.Sqoop
连接Hadoop与传统数据库之间的桥梁
7.Flume
Cloudera开源的日志收集系统
8.Oozie
统一管理和调度这些框架和作业

猜你喜欢

转载自blog.csdn.net/shayuwei/article/details/88747551