易学笔记-第1章 初识Hadoop(2)

第1章 初识Hadoop/1.4 Hadoop发展简史

  1. Hadoop 是Apache Nutch子项目,Lucene是应用广泛的文本搜索系统库,目的就是为了网络搜索
  2. Hadoop取名:
  3. 发展历程
    1. 2002年,Nutch网页爬虫和搜索引擎
    2. 2003年,GFS:谷歌分布式文件系统,用于存储超大文本
    3. 2004年,NDFS,Nutch分布式文件系统
    4. 2005年,谷歌实现MapReduce系统
    5. 2005年,MapReduce和NDFS移出Nutch,形成Lucene的一个子项目,命名为Hadoop
    6. 2006年,Hadoop发展为处理WEB数据的系统
    7. 2008年,Hadoop成为Apache的顶级项目
    8. 2008年4月,Hadoop成为世界上处理TB级数据排序系统,1TB数据排序只需要68秒

第1章 初识Hadoop/1.5 Apache Hadoop和Hadoop生态系统

  1. Common:一序列组件和接口,用于分布式文件系统和通用的I/O,I/O包括:
    1. 序列化
    2. Java RPC(远程请求调用)
    3. 持久化数据结构
  2. Avro:一种序列化系统,用于支持高效、跨语言的RPC和持久化数据存储
  3. MapReduce:分布式数据处理模型和执行环境,适用于商业集群
  4. HDFS:分布式文件系统,适用于商业集群
  5. Pig:数据流语言和运行环境,用于处理非常庞大的数据集。Pig运行在MapReduce和HDFS上
  6. Hive:一种分布式的、按列存储的数据仓库,管理HDFS中存储的数据,并提供基于SQL的查询语言
  7. HBase:一种分布式的、按列存储的数据库
  8. Zookeeper:一种分布式的、可用性高的协调服务,提供分布式锁构建分布式服务
  9. Sqoop:用于结构化数据和HDFS之间进行高效数据传输
  10. Oozie:该服务用于运行和调度Hadoop作业

第1章 初识Hadoop/1.6 Hadoop的发型版本

猜你喜欢

转载自blog.csdn.net/u011830122/article/details/83986922
今日推荐