hardoop 入门

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/gang950502/article/details/73350948

hardoop 入门

标签(空格分隔): hardoop



hadoop 计算框架

  1. MapReduce
    • 离线型计算框架
    • 分布式计算框架
    • 易编程,高容错,高拓展
  2. JStorm
    • 使用JAVA实现的storm流式计算框架
  3. Spark
    • 内存计算框架,并行计算框架
    • 参考资料少,成熟框架但发行晚,因此使用量较少
    • 发展趋势(计算速度快,不写入HDFS直接写入内存)

HDFS

优点

  1. 高容错性
    • 数据自动保存多个副本
    • 副本丢失后,自动恢复
  2. 适合批处理(对各种计算框架兼容性好)
    • 移动计算而非数据
    • 数据位置暴露给计算框架
  3. 适合大数据处理
    • GB 、TB 、甚至PB 级数据
    • 百万规模以上的文件数量
    • 10K+ 节点
  4. 可构建在廉价机器上
    • 通过多副本提高可靠性
    • 提供了容错和恢复 机制

缺点

  1. 低延迟数据访问
    • 比如毫秒级
    • 低延迟与高吞吐率
  2. 小文件存取
    • 占用NameNode 大量内存
    • 寻道时间超过读取时间
  3. 并发写入、文件随机修改(一般不支持修改,修改成本最高)
    • 一个文件只能有一个写者
    • 仅支持append(一般情况对内也不开放,追加成本高)

框架图

这里写图片描述

关于hadoop 版本选择

目前一般采用2.X 版本
0.23X 为开发版
3.X目前目前兼容性差
1. 首先要求查看hbase 的版本要求
image_1bi1fbdvpa3q106p14iqgu81amq9.png-17.6kB
image_1bi1fkb7mqj6hnf1js611991n7km.png-52.7kB
2. 系统要求
* 各个机器要求时间差小于30S
* 各个机器要求主节点可以远程登录

猜你喜欢

转载自blog.csdn.net/gang950502/article/details/73350948