Hadoop初识（一）

1.hadoop
（1）提供一个可靠的共享存储和分析系统。HDFS和MapReduct是它的核心价值（虽然Hadoop还有其他功能）。
（2）HDFS实现数据的存储
（3）MapReduce实现数据的分析和处理

2.MapReduce
（1）是一个批量查询处理器
（2）每个查询需要处理整个数据集或至少数据集的绝大部分
（3）能够在合理的时间范围内处理针对整个数据集的动态查询，改变我们对数据的传统看法

3.为什么用MapReduce，而不用关系型数据库来对大量硬盘的大规模数据进行批量分析呢？
（1）答案来源于计算机硬盘的另一个发展趋势：寻址时间的提升远远不敌于传输速率的提升
（2）寻址是将磁头移动到特定硬盘位置进行读写操作的过程，它是导致硬盘操作延迟的主要原因
（3）传输速率取决于硬盘的带宽
（4）流数据读取模式，主要取决于传输速率
（5）数据库访问模式中包含大量的硬盘寻址

4.MapReduce与关系型数据库对比
（1）MapReduce比较适合于批处理方式处理需要分析整个数据集的问题，尤其是动态分析
（2）RDBMS比较适合于点查询和更新，数据集被索引后，数据库系统能够低延时的数据检索和快速的少量数据更新。
（3）MapReduce适合一次写入，多次读取
（4）RDBMS适合持续更新的数据集

5.MapReduce核心特征
（1）数据本地化，即尽量在计算节点上存储数据，以实现数据的本地快速访问。
（2）网络带宽是数据中心最珍贵的资源(到处复制数据很容易耗尽网络带宽)
（3）MapReduce通过显示网络拓扑结构来保留网络带宽。

6.MapReduce三大设计目标
（1）为只需短短几分钟或几小时就可完成的作业提供服务
（2）运行于同一个内部有高速网络连接的数据中心内
（3）数据中心内的计算机都是可靠的，定制的硬件

猜你喜欢