第1章 初识Hadoop/1.4 Hadoop发展简史
第1章 初识Hadoop/1.5 Apache Hadoop和Hadoop生态系统
- Common:一序列组件和接口,用于分布式文件系统和通用的I/O,I/O包括:
- Avro:一种序列化系统,用于支持高效、跨语言的RPC和持久化数据存储
- MapReduce:分布式数据处理模型和执行环境,适用于商业集群
- HDFS:分布式文件系统,适用于商业集群
- Pig:数据流语言和运行环境,用于处理非常庞大的数据集。Pig运行在MapReduce和HDFS上
- Hive:一种分布式的、按列存储的数据仓库,管理HDFS中存储的数据,并提供基于SQL的查询语言
- HBase:一种分布式的、按列存储的数据库
- Zookeeper:一种分布式的、可用性高的协调服务,提供分布式锁构建分布式服务
- Sqoop:用于结构化数据和HDFS之间进行高效数据传输
- Oozie:该服务用于运行和调度Hadoop作业