Windows上配置Python+Spark开发环境 - 代码天地

Windows上配置Python+Spark开发环境

其他 2019-06-12 11:02:17 阅读次数: 0

1.软件准备：

下载资源合集：https://download.csdn.net/download/qq_33283652/11060712

https://download.csdn.net/download/qq_33283652/11060746

spark2.2.0 https://archive.apache.org/dist/spark/
hadoop2.7.7 https://hadoop.apache.org/releases.html
winutils

2.安装java,pycharm,python

3.安装spark

3.1下载并解压

3.2 配置环境变量

系统变量新增SPARK_HOME，值为安装路径
ath，新增两个值：%SPARK_HOME%\bin，%SPARK_HOME%\sbin

3.3复制模板并修改conf/log4j.properties日志文件

3.3 测试spark

3.4 安装pyspark

将spark目录下的 ---> python目录下的 --> pyspark文件夹 复制粘贴到 python目录下的 -- >lib 目录下的 --> site-packges里面

安装py4j pip install py4j ipython

修改spark/bin/pyspark2.cmd

set PYSPARK_DRIVER_PYTHON=ipython

4.安装hadoop

4.1下载并解压

4.2配置环境变量

新建系统变量HADOOP_HOME，值为Hadoop安装路径
配置系统变量PATH，添加%HADOOP_HOME%\bin

4.3 将bin-master中的文件覆盖hadoop/bin下的文件

5.pycharm新建一个spark项目

5.1 wordcount代码演示

from pyspark import SparkContext,SparkConf

if __name__ == '__main__':
    conf = SparkConf().setMaster("local").setAppName("wordcount")
    sc = SparkContext(conf=conf)
    lines = sc.textFile("./word.txt")
    words = lines.flatMap(lambda line: line.spilt(" "))
    pairwords = words.map(lambda word: (word, 1))
    result = pairwords.reduceByKey(lambda v1, v2: v1 + v2)
    result.foreach(lambda one: print(one))
    sc.stop()

5.2 在edit configuration 修改路径

5.3 运行结果

猜你喜欢

转载自blog.csdn.net/qq_33283652/article/details/88790390

Windows上配置Python+Spark开发环境

python+spark(二）

windows10专业版64位 Python+Spark进行可视化开发（一）

Python Spark Windows10 环境配置

【Python】windows上搭建Python开发环境

Windows上配置iPhone开发环境

Windows 上配置 Java 开发环境

Windows上搭建Python开发环境

windows上配置pycharm与python环境并运行

Spark: Mac上配置pySpark的IDE开发环境

windows下搭建spark+python 开发环境

python spark环境配置

在Windows下的配置Spark环境

NotePad++配置python开发环境（windows）

「python安装」Windows上安装和创建python开发环境

在 Windows 系统上配置 Visual Studio 的 Vulkan 开发环境

在windows10上配置深度学习GPU开发环境

Jupyter配置Spark开发环境

windows环境下python web开发环境安装配置

python环境配置，windows系统，anaconda集成开发环境

Windows系统下Eclipse上搭建Python开发环境

如何在windows上搭建python开发环境。

Windows上python + selenium + Firefox浏览器的环境配置

Windows上IDEA搭建最新Spark2.4.3源码调试的开发环境

VM上spark安装＋jupyter交换环境配置（windows操作虚拟机下的jupyter）

Java开发环境配置：jdk在windows、linux上安装及环境变量配置详解

基于Python+Spark的数据科学与商业实践视频教程

Python+Spark 2.0+Hadoop机器学习与大数据实战目录

基于Python+Spark分布式数据操作：求精确中位数并验证

Windows 配置Python环境

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)