一.安装好winPython和Pycharm。
二.下载安装jdk,1.7以上版本(安装路径不能存在中文空格特殊字符)
1.下载路径:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
下载 jdk-8u171-windows-x64
2.将jdk的bin路径添加到环境变量path中;jdk安装路径添加到JAVA_HOME。
三.下载spark,解压后放到没有中文没有空格没有特殊字符的路径下
1.下载路径:http://spark.apache.org/downloads.html
下载 spark-2.3.0-bin-hadoop2.7.tgz
2.将解压后的spark下的bin路径添加到环境变量path中;spark安装路径添加到SPARK_HOME。
四.下载hadoop,解压后放到没有中文没有空格没有特殊字符的路径下
1.下载路径:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.6/
下载 hadoop-2.7.6.tar.gz
2.将解压后的hadoop下的bin路径添加到环境变量path中;hadoop安装路径添加到HADOOP_HOME。
注:需下载 winutils.exe 放到hadoop的bin目录下,否则可能报错。
winutils.exe下载地址:https://download.csdn.net/download/weixin_42247685/10425832 。
五.安装python包
pip install pyspark
pip install py4j
六.在pycharm中测试代码,查看是否成功
from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("PythonWordCount") sc = SparkContext(conf = conf) links = sc.parallelize(["A","B","C","D"]) C = links.flatMap(lambda dest:(dest,1)).count() D = links.map(lambda dest:(dest,1)).count() print(C) print(D) c = links.flatMap(lambda dest:(dest,1)).collect() d = links.map(lambda dest:(dest,1)).collect() print(c) print(d)
运行后查看结果,看是否正常。
总结:上述步骤中有不明白的地方可以通过百度查询。