hadoop2.x概览

一、hadoop2.x概览

  1. hadoop生态圈
    相比于一般的软件工具:tomcat、mysql等,它们的功能比较单一。但是由于hadoop包含大量工具,可以完成许多事情,包括:数据管理功能、大规模并行处理框架等。虽然hadoop提供了这么多的功能,但是仍然应该把它归类为多个组件组成的Hadoop生态圈,这些组件包括数据存储、数据集成、数据处理和其他进行数据分析的专门工具。
    这里写图片描述

  2. hadoop核心组件/体系结构
    抛除Spark、Storm等内存/实时计算框架以及Hadoop相关安全框架外,Hadoop生态圈剩下的就是hadoop生态圈的基本组件。
    这里写图片描述

  3. hadoop企业级应用
    Hadoop的企业级应用主要包括四个大的层次,分别为数据存储层、数据处理层、实时访问层和安全层(可选)。
    数据存储层包括源数据和中间数据。源数据主要来自外部数据:业务数据库、日志和其他数据源;中间数据结果来自hadoop程序,被hadoop的实时应用程序使用,并交付给其他应用程序和终端用户。通过sqoop、flume等软件或者工具将外部数据转移到hadoop中。
    数据处理层中使用oozie调度mr、hive等任务进行数据处理,并产生中间数据,供其他模块使用。
    对于实时访问层,hadoop的实时应用程序即支持直接数据访问,也支持数据集的访问。
    安全性主要是保证数据不被没有权限的人员修改。
    这里写图片描述

  4. hadoop的扩展性
    虽然Hadoop对开发人员隐藏了底层的实现复杂性,但是可以通过设计hadoop的实现方式,集成新的功能到hadoop中执行,hadoop中可以自定义一下内容:
    1. 自定义Hadoop并行执行问题的方式,包括被分割的方式和执行的位置。
    2. 支持新的输出数据类型和数据定位。
    3. 支持新的输出数据类型。
    4. 支持自定义输出数据的位置。
    5. 支持自定义服务(Service)

猜你喜欢

转载自blog.csdn.net/zyshappy/article/details/73864859