WIN10 搭建本地spark python 环境

一.安装好winPython和Pycharm。

二.下载安装jdk,1.7以上版本(安装路径不能存在中文空格特殊字符)

1.下载路径:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

   下载 jdk-8u171-windows-x64

2.将jdk的bin路径添加到环境变量path中;jdk安装路径添加到JAVA_HOME。

三.下载spark,解压后放到没有中文没有空格没有特殊字符的路径下

1.下载路径:http://spark.apache.org/downloads.html

    下载 spark-2.3.0-bin-hadoop2.7.tgz

2.将解压后的spark下的bin路径添加到环境变量path中;spark安装路径添加到SPARK_HOME。

四.下载hadoop,解压后放到没有中文没有空格没有特殊字符的路径下

1.下载路径:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.6/

    下载 hadoop-2.7.6.tar.gz

2.将解压后的hadoop下的bin路径添加到环境变量path中;hadoop安装路径添加到HADOOP_HOME。

注:需下载 winutils.exe 放到hadoop的bin目录下,否则可能报错。

       winutils.exe下载地址:https://download.csdn.net/download/weixin_42247685/10425832 。

五.安装python包

pip install pyspark

pip install py4j

六.在pycharm中测试代码,查看是否成功

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local").setAppName("PythonWordCount")
sc = SparkContext(conf = conf)

links = sc.parallelize(["A","B","C","D"])
C = links.flatMap(lambda dest:(dest,1)).count()
D = links.map(lambda dest:(dest,1)).count()
print(C)
print(D)
c = links.flatMap(lambda dest:(dest,1)).collect()
d = links.map(lambda dest:(dest,1)).collect()
print(c)
print(d)

运行后查看结果,看是否正常。

总结:上述步骤中有不明白的地方可以通过百度查询。


猜你喜欢

转载自blog.csdn.net/weixin_42247685/article/details/80381874