浅谈spark代码与常用算子 - 代码天地

浅谈spark代码与常用算子

其他 2019-04-09 00:41:24 阅读次数: 0

spark代码
写代码前需要准备工作
spark关于maven依赖
   groupId = org.apache.spark
   artifactId = spark-core_2.11
   version = 2.3.3
Hadoop关于maven依赖
   groupId = org.apache.hadoop
   artifactId = hadoop-client
   version = <your-hdfs-version>
简单代码示例
import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
object Test{
   def main(args: Array[String]) {
       val conf = new SparkConf().setAppName(appName).setMaster(master)
       val sc = new SparkContext(conf)
       lines = sc.textFile("hdfs://...")
       val errors = lines.filter(_.startsWith("ERROR"))//每条记录可以用"_"来表示
       errors.persist()//缓存
       val mySql_errors = errors.filter(_.contain("MySQL")).count
       val http_errors = errors.filter(_.contain("Http")).count
   }
}
以上代码的执行逻辑为找出数据中以MySQL和Http开头的数据分别为多少条，每一个action就是一个job，因此这里有两个job

常用函数
parallelize(本地集合)并行化，将本地集合变成一个rdd

猜你喜欢

转载自www.cnblogs.com/timeTraveler/p/10674456.html

浅谈spark代码与常用算子

Spark常用算子详解

Spark常用算子总结

Spark常用算子练习

spark常用算子

Spark RDD 常用算子

Spark常用算子讲解

Spark 常用算子

Spark常用的transformation算子

Spark常用的action算子

spark 常用算子总结

Spark 常用Action算子

Spark常用算子的区别

Spark常用Actions算子

spark常用算子的简单使用

Spark RDD常用算子整理

spark RDD常用算子（一）

spark RDD常用算子（二）

spark RDD常用算子（三）

Spark常用算子讲解二

Spark常用算子讲解一

Spark常用算子汇总（转载）

Spark常用Transformations算子(二)

Spark常用Transformations算子(一)

Spark-RDD常用算子

Spark常用算子总结大全

Spark常用的算子总结——Map

Spark之常用Action算子

Spark 常用Shuffle算子汇总

Spark RDD 常用算子总结

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)