开始着手趟Spark的代码(kick off)

Spark 版本 spark-2.3.1,也是目前最新的版本了。

目前想到的小目标如下:

1. 看Spark代码的过程中,可以学习scala语言。单看书学语言是很枯燥的,哎。先不考虑学这个编程语言有没有用,只是喂料Spark.

2.  从Spark的代码角度看它与Hadoop的框架区别,毕竟这厮引进了 RDD 和 DAG 概论。它号称更多的使用内存,那究竟具体体现在哪些方面? 要认真负责的理解这句话“Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk”。需要把其核心代码撸撸。

3. 在前文中哥哥我小测了一把sparkbench ( https://mp.csdn.net/postedit/80438589 ),包括Terasort 和 Pagerank. Spark的Terasort 竟然比 Hadoop 的 Terasort 慢 10%。是没有配置好?还是 Spark的Terasort 本身 就搞不过 Hadoop 的 Terasort?

4.  追赶市场的潮流,Hadoop 毕竟应用场景有限。Spark 的 stream 和 ML 是 Hadoop 没有的场景。 需要先warm up.

5. Spark 上的数据库(Hbase), Hive(另一个开源项目Shark) 也需要搞搞。

猜你喜欢

转载自blog.csdn.net/don_chiang709/article/details/80690685