Apache的Hadoop是一个开源的、可靠的、可扩展的系统架构,可利用分布式架构来存储海量数据、以及实现分布式的计算。
Hadoop的两个作用
- 存储海量数据
- 计算海量数据
Hadoop应用场景
- 做网页内容的分析处理
- 做用户访问行为的分析处理,可以借此建立用户画像
- 用户推荐系统的数据分析和处理
- 在线广告的点击分析和流量分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce。
HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。 把HDFS理解为一个分布式的,有冗余备份的,可以动态扩展的用来存储大规模数据的大硬盘。
把MapReduce理解成为一个计算引擎,按照MapReduce的规则编写Map计算/Reduce计算的程序,可以完成计算任务。