Log Analysis - DataFrame - 代码天地

Log Analysis - DataFrame

其他 2019-05-13 11:54:45 阅读次数: 0

一、获取DataFrame型的日志数据

1、读入数据：使用 SparkSession 以文本形式读入日志，数据类型：string

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName("Python Spark Log Analysis") \
    .getOrCreate()

base_df =  spark.read.text(log_file_path)

2、抽取字段：pyspark.sql.functions 中 regexp_extract() 直接从文本抽取所需字段，cast() 对字段定义数据类型， alias() 对字段命名。

3、数据清洗：isNull() 判断抽取内容是否为空（Null）， pyspark.sql.functions 中 col ，sum函数统计各列缺失个数，filter() 过滤满足现有正则表达式的数据 df.rlike()，判断缺失数据，可使用 fillna() 进行填充。

4、解析日期：① 自定义一个转化函数，将时间字符串转化为格式为：[dd/mmm/yyyy:hh:mm:ss (+/-)zzzz] 的字符串，② 使用 pyspark.sql.functions 中 udf() 函数注册 udf ，将转化的列改为时间戳类型。

二、日志分析

DataFrame型的数据，可以使用 pyspark.sql.functions 模块内的函数对数据进行分析，也可以与 pandas dataframe 公用许多方法。

分析内容与RDD版相似。

常用方法：

withColumn() 增加列，withColumnRenamed() 对列重命名
做可视化，toPandas() 先将结果由 spark DataFrame 转成 pandas DataFrame，之后使用 matplotlib 绘图
groupBy() 对数据分组聚合

猜你喜欢

转载自www.cnblogs.com/colorfulday/p/10854294.html

Log Analysis - DataFrame

Log Analysis

GC(Garbage collection) Log and Analysis

log analysis Werzeug aus Deutschland Dr

【LTE】Qualcomm LTE Packets log 分析（三）LTE Access Stratum Log Analysis

dataframe

(Network Analysis)Link Analysis

【LTE】Qualcomm LTE Packets log 分析（二）LTE Access Stratum Log Analysis 3_SRB1 & 4_UL_DATA_Tran

Regression Analysis

Analysis Patterns

Error Analysis

Analysis of Algorithms

Procrustes analysis

Analysis method

video analysis

Numerical Analysis

Analysis servlet

Analysis CDI

CDI Analysis

Analysis of Servlet

Servlet Analysis

Project Analysis

解析-analysis

algorithmic analysis

Data analysis

Elasticsearch Analysis

Econometric Analysis

Cohort Analysis

log

！！！！！！！log

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

tensorflow 笔记：二（北大）

fork函数详解

unity单利模板

mac下的特殊键位指引（转自apple）

c语言入门-注释

Python--多任务[线程，进程，协程]

深度对抗学习在图像分割和超分辨率中的应用

【转】【Maven】Project configuration is not up-to-date with pom.xml错误解决方法

基本数据类型与常量池

部署自己的Intell项目的经历

每日归档

更多

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)