《Hadoop权威指南》笔记(一) --- 初识Hadoop与MapReduce

第1章初识Hadoop

Hadoop为我们提供了一个可靠的且可扩展的存储和分析平台。

shared-nothing(SN)架构：是一种分布式计算架构，这种架构中，每一个节点都是独立的，自给的，在系统中不存在单点竞争。这种架构中不存在集中存储的状态，整个系统中没有资源竞争。更明确地说，没有节点共享存储器和硬盘。shared noting在web应用中广泛使用，原因就在于它的可扩展性。一个完全的SN系统可以通过增加廉价的计算机来实现极大的扩展，因为在系统中没有单点瓶颈去降低系统的速度，谷歌把这种特性成为sharding。一个典型的SN系统把它的数据划分为不同的部分存储在不同节点的数据库中，并且为不用的用户和请求分配不同的节点，要求系统中的每个节点使用某种协议维护自己的应用程序数据的副本，这通常被称为数据库分片。

第2章关于MapReduce

MapReduce是一种可用于数据处理的编程模型。Hadoop可以运行各种语言版本的MapReduce程序，如Java、Ruby、Python等。MapReduce程序本质上是并行运行的，因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心。MapReduce的优势在于处理大规模数据集。

通常，处理少量的大型文件比处理大量的小型文件更容易、更高效。因此，将小型文件经过预处理，拼接成一些大型文件后来处理。