spark-2.4.7的搭建以及pyspark的简单例子

今天,接着跟大家分享一下spark的搭建,spark是一个分布式的计算框架,与MapReduce的区别在于可以准实时处理大数据,是Apache的顶级开源项目之一,目前呢spark稳定版本是spark-2.4.7,所以,我是用的spark-2.4.7,请各位朋友留意一下。关于spark呢,大家如果有兴趣可以自己再找一些资料查阅一下。

spark包的获取地址,大家根据hadoop版本,自行对应下载:spark-2.4.7
我选择的是在这里插入图片描述因为我的hadoop版本是hadoop-2.7.7的。

首先,将spark包传入到hadoop目录下面(我的是这样)
在这里插入图片描述
解压spark,命令:tar -zxvf spark-2.4.7-bin-hadoop2.7.tgz如下图:
在这里插入图片描述
重命名,如下图:
在这里插入图片描述
配置spark的环境变量,命令:vi /etc/profile如下图:
在这里插入图片描述
在这里插入图片描述
进入,spark的conf目录下面,如下图,复制一份spark-env.sh.template 为 spark-env.sh。如下图:
在这里插入图片描述
编辑一下spark-env.sh,如下图:
在这里插入图片描述
IP设置成自己的IP地址。

之后,我们可以激活环境变量,命令:source /etc/profile启用pyspark。注意!!我是在root里面安装的所以,在root下执行,大家没有用root安装不需要进入root。
如下图:
在这里插入图片描述
我们发现是python2的版本,我们可以先退出,设置成python3的版本,但是python3得提前安装好。我的文章有讲:Centos7安装python3

设置python3,如图:在这里插入图片描述
重启pyspark,进入后,发现是python3的版本了,如下图:
在这里插入图片描述
我下面跟大家分享一些pyspark做数据处理的小例子。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
至此,大家觉得意犹未尽,可以再去网上查阅一些资料,我这里推荐以下几个地址,供大家参考:
链接一
链接二
链接三

最后,感谢大家前来观看鄙人的文章,文中或有诸多不妥之处,还望指出和海涵。

猜你喜欢

转载自blog.csdn.net/weixin_43408020/article/details/111599660
今日推荐