hadoop权威指南第4版笔记

hadoop权威指南第4版笔记

第一章 初始hadoop

 1、对多个硬盘中的数据并行进行读/写数据所面临的问题有:

  1.1、第一个需要解决的问题就是硬盘的故障问题,当其中个别硬盘发生故障时,为了防止数据丢失,最常见的做法是复制(copy):系统保存数据的复本(replica),一旦有硬盘发生故障,就可以启用另外的复本。

  1.2、第二个问题就是多个分析任务需要以某种方式结合大部分数据来共同完成分析,即从一个硬盘读取的数据可能需要从另外99个硬盘中读取的数据结合使用。MapReduce提出一个编程模型,该模型抽象出这些硬盘读/写问题并将其转换为一个数据集(有键-值对组成)的计算。这样的计算由map和reduce两部分组成。

猜你喜欢

转载自www.cnblogs.com/guyuangang/p/12187452.html