Hadoop主要任务部署分为三部分:
1.客户端机器
2.主节点
3.从节点
主节点的核心特点分为两部分:
1.HDFS(Hadoop distrubuted File System)Hadoop分布式文件系统
2.MapReduce的监督
HDFS的特点:
1.大数据,存储T级数据
2.文件分块存储,将大文件拆分为多个快文件存储
3.流式数据访问,一次写入多次读写,但提前的写入不可修改,只能在文件末尾做增加操作
扫描二维码关注公众号,回复:
1985053 查看本文章
4.廉价硬件,即可以利用多台PC机组成集群
5.硬件故障保险,虽然已将大数据文件拆分为多个块文件存储在不同机器上,但是如果一个机器出故障,如何处理?解决方法是其他机器保存了副本,当机器出故障则调用其他机器的副本块文件
HDFS关键元素:
1.Block 将文件分块,64M
2.NameNode 保存文件系统的信息,如目录信息,文件信息,分块信息
3.DataNode 存储Block块文件
MapReduce 基本原理是将大数据分析分成多个小块逐个分析
Hadoop的典型应用:搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存
Hadoop集群组成:NameNode, DataNode, Secondary NameNode, JobTracker, TaskTracker