Spark内存溢出解决方案 - 代码天地

Spark内存溢出解决方案

其他 2018-07-06 22:08:34 阅读次数: 0

项目背景：

flume收集数据后存储在hdfs上，数据定期装在到hive中，前端使用sql通过spark查询数据。flume接入数据后被切分为很多小文件，具体配置：hdfs.roundValue=4表示4分钟生成一个文件。小文件之间是没有顺序，所以数据在查询的时候就必须排序，每次排序都会耗费大量的内存资源，此时spark会出现OOM的情况。

处理方案：

专有线程合小文件，并且在合并时排序，这样每次查询就不用再次排序，避免了资源的消耗。每次合并前设置 SET spark.sql.shuffle.partitions=1,后再进行表数据转储，这样每次合并后就会得到1个排序过的文件。
目前测试parquet文件格式如果合并失败会造成原有的文件损坏的问题，所以建议使用textfile存放数据，合并失败后还可以继续用排序的方式查询数据。

猜你喜欢

转载自blog.csdn.net/qq_40990732/article/details/80831980

Spark内存溢出解决方案

POI内存溢出分析及解决方案

jvm内存溢出解决方案

Tomcat 内存溢出集成解决方案

Java内存溢出的详细解决方案

Java内存溢出的简单解决方案

tomca内存溢出解决方案

Java内存溢出详解及解决方案

Tomcat内存溢出解决方案

node 内存溢出的解决方案

Jmeter报内存溢出解决方案

KETTLE内存溢出解决方案

Tomcat内存设置详解及内存溢出时的解决方案

内存溢出和内存泄漏以及常用解决方案

Java常见内存溢出(OOM)解决方案

Android 内存溢出解决方案（OOM）整理总结

tomcat中jvm内存溢出解决方案

位图引起的内存溢出OutOfMemory解决方案

poi导出大量数据excel内存溢出解决方案

Java内存溢出定位和解决方案（new）

jmeter出现卡死或内存溢出的解决方案

node打包项目出现的内存溢出的解决方案

Java代码运行内存溢出详解及解决方案

android 本地大图片造成内存溢出的解决方案

常见的 Java 内存溢出解决方案

JAVA常见内存溢出情况及解决方案

服务器上的tomcat内存溢出解决方案

关于JVM内存溢出的原因分析及解决方案探讨

【java虚拟机】几种内存溢出及解决方案

Excel大文件时读取内存溢出的解决方案

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)