易学笔记-第1章 初识Hadoop(1)

第1章 初识Hadoop/1.1 数据换算单位

  1. 数据换算单位
    1. Kilo    K  1K = 1,024个字节
    2. Meg     M  1M = 1024K
    3. Giga    G  1G = 1024M
    4. Tera    T  1T = 1024G
    5. Peta    P  1P = 1024T
    6. Exa     E  1E = 1024P
    7. Zetta   Z  1Z = 1024E
    8. Yotta   Y  1Y = 1024Z

第1章 初识Hadoop/1.2 数据的存储与分析

  1. Hadoop
    1. HDFS(Hadoop Distributed File System):文件系统,用于分布式存储数据,特点
      1. 一个文件保存3个副本
    2. MapReduce:分布式计算,擅长于整个数据集的动态查询

第1章 初识Hadoop/1.3 相对于其他系统的优势


第1章 初识Hadoop/1.3 相对于其他系统的优势/1.3.1 关系型数据库管理系统

  1. 问题:为什么用MapReduce,而不使用关系型数据库进行批量分析呢?
    1. 关系型数据库
      1. 往往存在大量的数据更新,这就存在着一个寻址成本(寻址:将磁头移动到特定硬盘位置读写操作的过程)
      2. 适合点查询和更新
    2. MapReduce
      1. 比较适合以批处理的方式分析整个数据集的问题,尤其是动态分析
      2. 适合一次写入,多次读取
  2. 两者差异:
    1. 结构化程度对比
      1. 数据库适合结构化数据
      2. MapReduce比较适合半结构化数据或者非结构化数据
    2. MapReduce的运行时间随时集群化而降低,但是数据库的SQL查询一般不具备这种特性

第1章 初识Hadoop/1.3 相对于其他系统的优势/1.3.2 高性能计算

  1. 高性能计算采用作业分散到集群的各个节点上,然后节点访问共有的文件系统。如果数据量巨大,各个节点的带宽瓶颈问题会非常突出
  2. MapReduce
    1. 尽量在节点上存储本地数据,以降低数据的本地快速访问,同时采用网络拓扑结构保留带宽
    2. MapReduce能够实现失效检查,这意味着各个任务之间是独立的

第1章 初识Hadoop/1.3 相对于其他系统的优势/1.3.3 志愿计算

  1. 志愿项目
    1. SETI(对外星智能的探索(search for extraterrestrial intelligence))
    2. SLPN:搜索大素数(Search large prime number)
    3. Folding
  2. 志愿服务:志愿服务将问题分解为多个块,每一块称为一个工作单元,然后将往世界各地进行分析
  3. 与MapReduce的比较:
    1. 志愿计算适合成千上万的CPU并行工作,花费的是CPU时间,而MapReduce花费的是网络带宽时间
    2. 志愿计算不要求高速网络,而MapReduce 数据中心内有高速的网络
    3. 志愿服务的接入的计算机是不可信的,而MapReduce 连接数据中心的计算机是安全可靠的

猜你喜欢

转载自blog.csdn.net/u011830122/article/details/83986880
今日推荐