大数据框架重要知识点梳理 - 代码天地

大数据框架重要知识点梳理

编程语言 2019-02-22 23:20:06 阅读次数: 0

以后的博客会按照以下顺序进行解释，如果对大数据有兴趣，并且自学不知道如何学习的，可以关注一下，哪里有问题也可以评论提出，我哪里理解错了，也希望大神指出

1、java相关的知识点

1、多线程
2、io流
3、反射
4、JVM-----需要重点关注

2、hadoop

2.1 HDFS

1、hdfs读写原理
2、hdfs角色和作用

2.2 mapreduce

1、mapreduce原理图
- shuffle原理
2、需要使用java语言写一个文件的单词统计
3、map和reduce的task个数怎么确定
4、小文件合并
- 1、在数据源端先控制
- 2、数据已经上传到HDFS上
5、mapreduce优化

2.3 yarn

1、yarn的资源调度模式
- 1、先进先出
- 2、公平调度
- 3、容量调度
2、yarn的调度流程
- 开发一个mapreduce程序打成jar提交到yarn中去运行，整个任务的流程是什么

3、hive

3.1 hive的内部表和外部表的区别

3.2 hive的分区和分桶表示的含义

3.3 hive的优化----重点

3.4 hive的数据倾斜问题

4、flume

4.1 flume的常用的3个组件类型

source
channel
sink

4.2 flume如何实现数据不丢失

flume如何实现断点续传
- 就是每一次在收集一条数据的时候，就把该数据的偏移量记录下来。后期flume程序挂掉之后，进行重新启动，读取上一次的偏移量信息，接着上一次继续对数据进行收集

。

5、sqoop

5.1 从关系型数据库把数据抽取到hdfs

5.2 从hdfs上或者是hive表中抽取到mysql表

5.3 sqoop实现数据的增量导入

6、scala

1、基础语法
2、scala高阶函数
- 1、柯里化
- 2、闭包
- 3、隐式转换和隐式参数

7、spark

1、使用scala语言开发一个spark的wordcount程序
2、spark中的RDD概念、特性
3、spark常用的算子操作
- 宽依赖
- 窄依赖
4、spark的RDD如何设置缓存，以及它们的区别
- cache
- persist
5、groupByKey和reduceByKey区别
6、spark on yarn 原理
- yarn-cluster
- yarn-client
- 2种模式调度模式掌握
7、spark任务的调度和执行流程
8、spark划分Stage的逻辑
9、sparkStreaming整合kafka------重点
10、spark程序优化
11、spark数据倾斜解决方案

8、kafka

1、kafka分区策略
2、kafka的数据存储策略
3、kafka数据消费策略
4、kafka如何保证数据不丢失
- 生产者
- kafka集群
- 消费者

9、hbase

1、hbase的数据寻址机制
2、hbase的rowkey设计原则
- 唯一性
- 长度原则
- 散列原则
3、hbase的二级索引
- mapreduce
- hbase整合es
- hbase整合phoenix

10、ELK

1、ES
2、logstash
3、kibana

11、storm

1、通过java语言开发storm的wordcount程序
2、storm整合kafka
3、storm数据不丢失机制
- ack机制

猜你喜欢

转载自blog.csdn.net/weixin_44320890/article/details/87882346

大数据框架重要知识点梳理

npm重要知识点梳理

javaSE阶段重要知识点梳理

Maven重要知识点梳理

大数据生态之zookeeper（知识点梳理）

大数据笔试题：超级重要知识点

做大数据开发一定要知道几个重要的框架和工具及知识点

重要知识点：HTML布局与框架

大数据各框架的原理与知识点

知识点梳理

大数据技术与原理之流计算基本知识点梳理（一）

阿里云大数据ACP认证知识点梳理5——基础SQL语句（DML部分）

阿里云大数据ACP认证知识点梳理9——产品特点（DATA WORKS）

阿里云大数据ACP认证知识点梳理4——基础SQL语句（DDL部分）

大数据学习笔记(三) -- linux的重要知识点以及相关命令（一）

Struts2框架学习知识点梳理

JVM知识点梳理

HashMap知识点梳理

JAVA知识点梳理

Memcache知识点梳理

oracle知识点梳理

前端知识点梳理

jQuery知识点梳理

Android 知识点梳理

Java 知识点梳理

js知识点梳理

Javascript知识点梳理

HTML知识点梳理

爬虫知识点梳理

Django知识点梳理

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)