大数据学习笔记3 - 并行编程模型MapReduce

分布式并行编程用于解决大规模数据的高效处理问题。分布式程序运行在大规模计算机集群上,集群中计算机并行执行大规模数据处理任务,从而获得海量计算能力。

MapReduce是一种并行编程模型,用于大规模数据集的并行运算,将复杂的运行于大规模集群上的并行计算过程抽象到Map和Reduce两个函数。MapReduce采用“分而治之”的策略,将存储在分布式文件系统的大数据集切分成独立小数据块(即Split,分片),这些分片可以被多个Map任务并行处理。MapReduce强调“计算向数据靠拢”而非“数据向计算靠拢”,传统模式下,对数据进行处理时需要将待处理的数据集中到程序所在机器上(数据向计算靠拢),数据的移动需要-,MapReduce模型下,一般将

猜你喜欢

转载自www.cnblogs.com/Jing-Wang/p/10533708.html