Hadoop--组件了解

准备接触大数据体系,所以我优先去了解一下Hadoop这个大生态环境,并且去了解这个生态的整体组件内容,都有什么。Apache Hadoop官网,了解到Hadoop是一个开源软件作为可靠,可升级的分布式计算。要了解Hadoop我觉得先去了解其中的组件,了解其对应的组件都有什么,这样方便你有一个大范围的了解,并可以更好的深入了解其中各个内容,并串联起来。
这里写图片描述

模块名
Hadoop Common 公用的工具模块
Hadoop Distributed File System(HDFS) 高效的数据处理分布式文件系统
Hadoop YARN 工作时序和从机资源管理
Hadoop MapReduce 基于YARN系统的平行处理大数据集
Ambari 一个基于Web的工具,用于提供、管理和监视ApacheHadoop集群,更加友好的图形化展示界面
Avro 数据序列化系统。
Cassandra 没有单点故障的可扩展多数据库
Chukwa 管理大型分布式系统的数据收集系统。
HBase 支持数据结构化存储的可扩展的分布式数据库
Hive 提供数据摘要和临时查询的数据仓库基础结构。
Mahout 可扩展的机器学习和数据挖掘库
Pig 并行计算的高级数据流语言和执行框架
Spark Hadoop数据的快速通用计算引擎。SMARK提供了一个简单而有表现力的编程模型,它支持广泛的应用程序,包括ETL、机器学习、流处理和图形计算。
Tez 它提供了一个强大而灵活的引擎来执行任意DAG任务,为批处理和交互用例处理数据。Hadoop生态系统中的Hive™、Pig™和其他框架以及其他商业软件(例如ETL工具)都采用了TEZ,以取代Hadoop™MapReduce作为底层执行引擎。
Zookeeper 高性能的分布式应用程序协调服务。

参考的资料

  1. Hadoop Intro
  2. Apache Hadoop 官网
  3. Hadoop中文实战

猜你喜欢

转载自blog.csdn.net/qq_15807167/article/details/80459810