大数据Hadoop需要了解哪些内容?

一、Hadoop环境搭建

1. Hadoop生态环境介绍

2. Hadoop云计算中的位置和关系

3. 国内外Hadoop应用案例介绍

4. Hadoop概念、版本、历史

5. Hadoop核心组成介绍及hdfs、mapreduce体系结构

6. Hadoop独立模式安装和测试

7. Hadoop的集群结构

8. Hadoop伪分布的详细安装步骤

9. 通过命令行和浏览器观察Hadoop

10. Hadoop启动脚本分析

11. Hadoop完全分布式环境搭建

12. Hadoop安全模式、回收站介绍

二、HDFS体系结构和Shell以及Java操作

1. HDFS底层工作原理

2. HDFSdatanode,namenode详解

3. 单点故障(SP0F)和高可用(HA)

4. 通过API访问HDFS

5. 常用压缩算法介绍和安装使用

6. Maven介绍和安装,eclipse中使用Maven,搭建Maven本地仓库

三、Mapreduce学习

1. Mapreduce四个阶段介绍

2. Job、Task介绍

3. 默认工作机制

4. 创建MR应用开发,获取年度的最高气温

5. 在Windows上运行MR作业

6. Mapper、Reducer

7. InputSplit和OutputSplit

8. Shuffle:Sort,Partitioner,Group,Combiner

9. 通过计数器调试程序

10. 在Windows安装Hadoop

11. 在eclipse安装Hadoop插件,访问Hadoop资源

12. 在eclipse中编写ant脚本

13. YARN调度框架事件分发机制

14. 远程调试资源管理器

15. Hadoop的底层google ProtoBuf的协议分析

16. Hadoop底层IPC原理和RPC

四、Hadoop高可用-HA

1. Hadoop2.x集群结构体系介绍

2. Hadoop2.x集群搭建

3. NameNode的高可用性(HA)

4. HDFS Federation

5. ResourceManager的高可用性(HA)

6. Hadoop集群常见问题和解决办法


猜你喜欢

转载自blog.51cto.com/13543192/2113063