前言

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。

HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

Hadoop体系之离线计算的学习路线

1.Hadoop

01hadoop历史、hadoop存储模型、架构模型、读写流程、伪分布式安装

02全分布式安装、hadoop 高可用

03hdfs api使用,MAPREDUCE框架

04单词统计项目，源码解释

05mapreduce案例一，二，三

06mapreduce案例四，五，六

2.Hive数据仓库

3.Hbase-NOSQL

（1） hbase介绍、搭建及Java api

① hive高可用及压缩存储
② hive复习
③hbase简介
④ hbase数据模型
⑤ hbase架构设计
⑥hbase standalone模式安装

（2）hbase表设计、protobuffer、MR整合、优化

① hbase复习及通话记录表设计
②hbase javaapi2
③hbase用户角色表、部门表设计
④ hbase protobuffer
⑤hbase与MapReduce整合
⑥ hbase优化设计

4.Zookeeper分布式协调架构

①zk介绍
②zk安装
③zk源语命令
④zk源语命令2
⑤zk
⑤zk_api
⑥分布式协调案例

5.Redis内存数据

01基础语法与数据类型
①REDIS_介绍
②String1
③string2
④list1
⑤list2set
⑥sortedset
⑦rdb
02架构模型
①redismode1
②redismode2
③redis-cluster
6.CDH

CDH_clouderaManager使用_hue

CDH_clouderaManager使用_impala_oozie

7.lucene与倒排索引引擎安装 curl命令项目案例
01lucene_介绍
02lucene介绍2
03el安装
04curl命令
05搜索项目1
06搜索项目2

8.大总结

01. 大数据知识整体复习
02. HDFS复习
03. HDFS复习2
04. MapReduce与YARN复习
05. Hive复习
06. Hbase复习

大数据大牛，终于用37部分讲完了Hadoop体系之离线计算，共17.97G

大数据大牛，终于用37部分讲完了Hadoop体系之离线计算，共17.97G

每天乐分享，希望大家能够喜欢，需要的小伙伴欢迎关注公众号：

感谢大家的支持，喜欢文章的小伙伴可以关注一下，后续更精彩。

努力与幸运并存，但是你不努力，一点机会都没有，，

原创文章 50 获赞 56 访问量 1万+

关注私信