大数据:spark环境搭建,local模式,standalone模式,zookeeper standby,yarn模式

大数据:spark环境搭建,local模式

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


大数据:spark环境搭建,local模式

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
local就是一个进程
用很多线程模拟集群

在这里插入图片描述
组长不仅管人,它自己就能干活,它就在local模式下当干事
懂了

在这里插入图片描述
一个jvm进程
只负责一个任务
再加任务,需要第二个进程

spark-standalone模式

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
spark也是主从架构
注意driver是运行在master进程内的哦
跟逻辑空间的理念有区别

在这里插入图片描述
standalone是固定的集群,多个任务就多开很多driver,反正就是部门主管多分配几个即可

spark-standalone HA:zookeeper standby

单点master,如果出问题,gg
如果多个master出现的话,如果别的老大生病了,我们可以尽快换董事长

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
懂了
备份董事长,随时待命

spark :yarn是企业最经常使用的

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
我们是在原有的企业hadoop 的yarn中,外加spark即可
这种就是替换计算框架即可
好说
懂了

yarn之前的角色就是resourcemanager,现在让它担任spark中的master即可
懂事长身兼多职

worker角色是部门主管,直接让nodemanager担任即可
好吧

yarn中就不要单独搞spark的那些进程了

任务运行的时候,driver还是要单独搞的小组组长,干活的也得单独干干事就是executor,都拿去yarn容器中运行就行了
在这里插入图片描述在这里插入图片描述
在这里driver又还是去worker进程内,不是master进程了
美滋滋
反正yarn上直接改进即可,赋予它spark的能力

在这里插入图片描述


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

猜你喜欢

转载自blog.csdn.net/weixin_46838716/article/details/131022840