Pyspark中pyspark.sql.functions常用方法(4) - 代码天地

Pyspark中pyspark.sql.functions常用方法(4)

企业开发 2024-11-01 14:57:44 阅读次数: 0

文章目录

pyspark sql functions

pyspark sql functions

forall 判断array是否满足all

df = spark.createDataFrame(
    [(1, ["bar"]), (2, ["foo", "bar"]), (3, ["foobar", "foo"])],
    ("key", "values")
)
df.show()
+---+-------------+
|key|       values|
+---+-------------+
|  1|        [bar]|
|  2|   [foo, bar]|
|  3|[foobar, foo]|
+---+-------------+
df.select(forall("values", lambda x: x.rlike("foo")).alias("all_foo")).show()
+-------+
|all_foo|
+-------+
|  false|
|  false|
|   true|
+-------+

filter 过滤

df = spark.createDataFrame([([1, None, 2, 3],), ([4, 5, None, 4],)], ['data'])
df.show()
+---------------+
|           data|
+---------------+
|[1, null, 2, 3]|
|[4, 5, null, 4]|
+---------------+
df.select(fs.filter(df.data,lambda x: x>1).alias('filter')).show()
+---------+
|   filter|
+---------+
|   [2, 3]|
|[4, 5, 4]|
+---------+

zip_with 数组合并

使用函数将两个给定的数组按元素合并为一个数组。如果一个数组较短，则在应用函数之前，在末尾附加null以匹配较长数组的长度。

df.select(fs.zip_with("xs", "ys", lambda x, y: x ** y).alias("powers")).show(truncate=False)
+---------------------------+
|powers                     |
+---------------------------+
|[1.0, 9.0, 625.0, 262144.0]|
+---------------------------+

猜你喜欢

转载自blog.csdn.net/weixin_43322583/article/details/143208261

Pyspark中pyspark.sql.functions常用方法(4)

Pyspark中pyspark.sql.functions常用方法（1）

Pyspark中pyspark.sql.functions常用方法（3）(array操作)

Pyspark中pyspark.sql.functions常用方法(2)(时间函数）

pyspark.sql.functions

pyspark.sql.functions详解

PySpark3：pyspark.sql.functions常见的60个函数

Pyspark_SQL4

Pyspark中catalog的作用与常用方法

pyspark.sql.functions.udf中使用numpy，出现Py4JJavaError错误

pyspark常用dataframe处理方法

从0开始学pyspark（五）：pyspark-sql-functions部分学习

pyspark特征工程常用方法（一）

Pyspark dataframe基本内置方法(4)

（4）pyspark中dataframe的清理操作

pyspark.sql.GroupedData

pyspark.sql.Row

pyspark.sql.Column

pyspark.sql.DataFrame

pyspark.sql.SparkSession

pyspark sql简单入门

PySpark SQL join示例

Pyspark_SQL2

Pyspark_SQL1

Pyspark_SQL5

Pyspark_SQL6

Pyspark_SQL3

pyspark dataframe 常用操作

pyspark实践汇总4

PySpark数据分析基础：pyspark.sql.SparkSession类方法详解及操作+代码展示

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

更多

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)