开始着手趟Spark的代码（kick off） - 代码天地

开始着手趟Spark的代码（kick off）

其他 2018-09-13 00:18:47 阅读次数: 0

Spark 版本 spark-2.3.1，也是目前最新的版本了。

目前想到的小目标如下：

1. 看Spark代码的过程中，可以学习scala语言。单看书学语言是很枯燥的，哎。先不考虑学这个编程语言有没有用，只是喂料Spark.

2. 从Spark的代码角度看它与Hadoop的框架区别，毕竟这厮引进了 RDD 和 DAG 概论。它号称更多的使用内存，那究竟具体体现在哪些方面？要认真负责的理解这句话“Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk”。需要把其核心代码撸撸。

3. 在前文中哥哥我小测了一把sparkbench ( https://mp.csdn.net/postedit/80438589 )，包括Terasort 和 Pagerank. Spark的Terasort 竟然比 Hadoop 的 Terasort 慢 10%。是没有配置好？还是 Spark的Terasort 本身就搞不过 Hadoop 的 Terasort？

4. 追赶市场的潮流，Hadoop 毕竟应用场景有限。Spark 的 stream 和 ML 是 Hadoop 没有的场景。需要先warm up.

5. Spark 上的数据库（Hbase）, Hive(另一个开源项目Shark) 也需要搞搞。

猜你喜欢

转载自blog.csdn.net/don_chiang709/article/details/80690685

开始着手趟Spark的代码（kick off）

项目Kick Off的作用

什么是kick off会议

【vue】---- 手动封装on，emit，off

项目Kick Off 我们应该做什么？

自监督、弱监督、半监督 kick-off

Spark（四十六）：Spark 内存管理之—OFF_HEAP

"Spark 1.6 + Alluxio 1.2 HA + OFF_HEAP" 的配置

"Spark 1.6 + Alluxio 1.2 + OFF_HEAP" 的配置

Spark2.x 内存管理之---OFF_HEAP

echo off

2018年计划Review，2019年计划Kick off| 掘金年度征文

2018年计划Review，2019年计划Kick off

Fedora turn off firewall

2101: Bake Off

opengl读取off文件

@echo off含义

.OFF 格式文件

HTML autocomplete="off

简单的light off 游戏

JavaScript on与off事件

jquery on()方法 off()方法

off charging mode flow

合并OFF文件

obj文件转off

jQuery.fx.off

Chrome autocomplete="off"无效

剑指off

power_off_alarm

VUE $on $off $emit

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)