[Spark版本更新]--2.3.0发行说明(一)

自从2017年12月1日发布spark-2.2.1以来,已有3个月时间。

2018年2月28日,spark官方发布了一个大版本Spark-2.3.0,解决了1399个大大小小的问题。

一、DataBricks做了相关说明

今天,我们很高兴地宣布Databricks上的Apache Spark 2.3.0作为其Databricks Runtime 4.0的一部分。我们要感谢Apache Spark社区为Spark 2.3发布所做的所有重要贡献。

继续实现使Spark更快,更轻松,更智能的目标,Spark 2.3通过引入低延迟连续处理和流到流连接标志着结构化数据流的一个重要里程碑; 通过改善熊猫UDF的性能来提升PySpark; 并通过为Apache Spark应用程序提供本机支持而在Kubernetes群集上运行。

除了将新功能扩展到SparkR,Python,MLlib和GraphX之外,该版本还着重于可用性,稳定性和改进,解决了1400多张票。Spark贡献者的其他显着特征包括:

在本篇博文中,我们简要总结了一些高级功能和改进,并且在未来几天中,我们将针对这些功能发布深度博客。有关Spark组件和JIRA的主要功能的完整列表,请阅读Spark 2.3发行说明

毫秒延迟的连续流处理

Apache Spark 2.0中的结构化流式传输将微型批处理与其高级API分离,原因有两个。首先,它使开发人员对API的使用体验更简单:API不必考虑微批次。其次,它允许开发人员将流视为一个无限表,他们可以发出查询,就像他们将静态表一样。

但是,为了向开发人员提供不同的流处理模式,我们引入了一种新的毫秒级低延迟模式:连续模式

在引擎盖下,结构化的流引擎逐步执行微批中的查询计算,由触发间隔决定,并具有适合大多数真实世界流应用程序的可容忍延迟。

对于连续模式,流式读取器连续轮询源数据和处理数据,而不是按指定的触发时间间隔读取一批数据,而不是执行微批处理。通过不断查询源和处理数据,新的记录在到达时立即处理,如下面的时间线图所示,将等待时间缩短到毫秒并满足低等待时间要求。

至于操作,目前支持地图状数据集操作,如投影或选择和SQL函数,用外current_timestamp()current_date()和聚合函数。除了支持Apache Kafka作为源和宿,连续模式当前也支持控制台和内存。

现在,开发人员可以根据延迟要求选择模式连续或微量批处理,以大规模构建实时流式传输应用程序,同时受益于结构化流式处理引擎提供的容错和可靠性保证。

总之,Spark 2.3中的连续模式是实验性的,它提供了以下内容:

  • 端到端的毫秒低延迟
  • 提供至少一次保证。
  • 支持类似地图的数据集操作

在未来的日子里,我们将发布一个关于连续模式的更深入的技术博客。同时,您可以阅读其相应的JIRA [ SPARK 20928 ]了解详情。

流到流连接

尽管Spark 2.0中的结构化数据流支持流数据帧/数据集和静态数据集之间的连接,但此版本引入了期待已久的流到流连接,包括用于众多实时用例的内连接和外连接。

加入两个流的典型用例是广告收益。举例来说,印象流和广告点击流共享一个公共密钥(比如说,即AdID)和相关资料上,您希望进行流分析,比如,它的AdID带来了点击。

虽然概念上这个想法很简单,但是流到流连接解决了一些技术难题。例如,他们:

  • 通过将延迟事件缓存为流“状态”来处理延迟的数据,直到从其他流找到匹配事件
  • 限制缓冲区的增长和消耗带有水印的内存,这允许跟踪事件时间并相应地清除旧状态
  • 允许用户控制状态消耗的资源与查询处理的最大延迟之间的折衷
  • 在静态连接和流式连接之间保持一致的SQL连接语义

在即将发布的技术博客中,我们将深入探讨流到流的连接。

Apache Spark和Kubernetes

毫不奇怪,两个流行的开源项目Apache SparkKubernetes结合了它们的功能和实用程序来提供大规模的分布式数据处理和编排。在Spark 2.3中,用户可以利用新的Kubernetes调度程序后端在Kubernetes集群上本地启动Spark工作负载。这有助于通过使Spark工作负载与其他类型的工作负载共享Kubernetes集群来实现更好的资源利用率和多租户性能。

此外,Spark可以使用所有管理功能,例如资源配额可插入授权日志记录。更重要的是,创建Docker镜像和设置RBAC以开始为您的Spark工作负载使用现有Kubernetes集群一样简单。

请继续关注一个技术博客,它将阐述这个主要的社区活动是如何构建的。

用于PySpark的熊猫UDF

熊猫UDF也称为矢量化UDF,是PySpark性能的主要推动力。它构建在Apache Arrow的基础上,为您提供两全其美的解决方案 - 定义低开销,高性能的UDF并完全用Python编写的能力。

在Spark 2.3中,有两种类型的Pandas UDF:标量和分组映射。两者现在均可在Spark 2.3中使用。两西格玛的李进曾写过一篇较早的博客,通过四个例子来解释他们的用法:加一,累积概率,减去平均值,普通最小二乘线性回归。

运行一些微型基准测试,熊猫UDF的性能比行时UDF提供更好的性能。

据李进和其他贡献者称,他们计划在聚合和窗口功能中引入对熊猫UDF的支持,其相关工作可以在SPARK-22216中进行跟踪。

MLlib改进

Spark 2.3包含许多针对算法和功能,性能和可扩展性以及可用性的MLlib改进。我们提到三个亮点。

首先,为了将MLlib模型和管道移动到生产环境,现在拟合的模型和管道可以在结构化流式处理作业中使用。一些现有的管道将需要修改才能在流式作业中进行预测,因此请查看即将发布的有关迁移技巧的博客文章。

其次,为了实现许多Deep Learning图像分析用例,Spark 2.3引入了用于在Spark DataFrame中表示图像的ImageSchema [SPARK-21866],以及用于从常用格式加载图像的实用程序。

最后,对于开发人员来说,Spark 2.3引入了改进的Python中的API来编写自定义算法,其中包括UnaryTransformer用于编写简单的自定义功能变换器和用于自动执行ML持久性以保存和加载算法的实用程序。有关详细信息,请参阅此博文

下一步是什么?

我们再一次感谢Spark社区的所有贡献!

尽管此博客文章仅概述了此版本中的一些显着特性,但您可以阅读正式版本说明以查看完整的更改列表。敬请期待,因为我们将发布技术博客,解释其中的一些功能。

如果您想在Databricks Runtime 4.0中尝试Apache Spark 2.3。在这里注册免费试用帐户

二、以下是Spark官方的发行说明

Sub-task

·        [ SPARK-9104 ] - 公开网络层内存使用情况

·        [ SPARK-10365 ] - 支持Parquet逻辑类型TIMESTAMP_MICROS

·        [ SPARK-11034 ] - 启动器:添加对监控Mesos应用程序的支持

·        [ SPARK-11035 ] - 启动器:允许应用程序在进程中启动

·        [ SPARK-12375 ] - VectorIndexer:允许未知类别

·        [ SPARK-13​​534 ] - 为DataFrame.toPandas中的Spark DataFrame使用Apache Arrow序列化程序

·        [ SPARK-13​​969 ] - 扩展哈希功能可以处理的输入格式

·        [ SPARK-14280 ] - 更新change-version.sh和pom.xml以添加Scala 2.12配置文件

·        [ SPARK-14650 ] - 为Scala 2.12编译SparkREPL

·        [ SPARK-14878 ] - 支持字符串修剪功能中的修剪字符

·        [ SPARK-17074 ] - 为列生成等高直方图

·        [ SPARK-17139 ] - 为MultinomialLogisticRegression添加模型摘要

·        [ SPARK-17642 ] - 支持DESC FORMATTED TABLE COLUMN命令以显示列级统计信息

·        [ SPARK-17729 ] - 启用创建蜂巢分段表

·        [ SPARK-18016 ] - 代码生成:用于宽/嵌套数据集的常量池过去限制

·        [ SPARK-18294 ] - 实现提交协议来支持`mapred`包的提交者

·        [ SPARK-19165 ] - UserDefinedFunction应验证调用参数并在不匹配的情况下提供可读的异常

·        [ SPARK-19357 ] - ML调整的并行模型评估:Scala

·        [ SPARK-19634 ] - MLlib中描述性统计的功能奇偶性

·        [ SPARK-19762 ] - 实施汇总/损失函数层次并应用于线性回归

·        [ SPARK-19791 ] - 为fpgrowth添加文档和示例

·        [ SPARK-20396 ] - groupBy()。apply()和pandasudf在pyspark

·        [ SPARK-20417 ] - 将错误报告从分析器移动到CheckAnalysis

·        [ SPARK-20585 ] - R通用提示支持

·        [ SPARK-20641 ] - 用于存储应用程序数据的键值存储抽象和实现

·        [ SPARK-20642 ] - 使用键值存储来保留History Server应用程序列表

·        [ SPARK-20643 ] - 实现在键值存储中保存应用程序状态数据的监听器

·        [ SPARK-20644 ] - 将Spark UI连接到新的键值存储后端

·        [ SPARK-20645 ] - 使环境页面使用新的应用程序状态存储

·        [ SPARK-20646 ] - 使执行程序页面使用新的应用程序状态存储

·        [ SPARK-20647 ] - 使存储页面使用新的应用程序状态存储

·        [ SPARK-20648 ] - 使作业和阶段页面使用新的应用程序状态存储

·        [ SPARK-20649 ] - 简化REST API类层次结构

·        [ SPARK-20650 ] - 删除JobProgressListener(和其他不需要的类)

·        [ SPARK-20652 ] - 使SQL UI使用新的应用程序状态存储

·        [ SPARK-20653 ] - 将旧元素的自动清理添加到新的应用程序状态存储中

·        [ SPARK-20654 ] - 添加控制SHS可以使用多少磁盘

·        [ SPARK-20655 ] - 内存中键值存储实现

·        [ SPARK-20657 ] - 加快舞台页面

·        [ SPARK-20664 ] - 从SHS列表中删除陈旧的应用程序

·        [ SPARK-20727 ] - 在CRAN Windows机器上丢失Hadoop winutil时跳过SparkR测试

·        [ SPARK-20748 ] - 内置SQL函数支持 -CH [A] R

·        [ SPARK-20749 ] - 内置SQL函数支持 -LEN [GTH]的所有变体

·        [ SPARK-20750 ] - 内置SQL函数支持 -REPLACE

·        [ SPARK-20751 ] - 内置SQL函数支持 -COT

·        [ SPARK-20754 ] - 为MOD / TRUNCT / POSITION添加功能别名

·        [ SPARK-20770 ] - 改进ColumnStats

·        [ SPARK-20783 ] - 增强ColumnVector以支持压缩表示

·        [ SPARK-20791 ] - 使用Apache箭头从Pandas.DataFrame改进Spark createDataFrame

·        [ SPARK-20822 ] - 生成代码以在ColumnarBatch中从CachedBatchColumnVector获取值

·        [ SPARK-20881 ] - 清楚地记录在两个统计来源之间进行选择的机制

·        [ SPARK-20909 ] - 内建SQL函数支持 -DAYOFWEEK

·        [ SPARK-20910 ] - 内建SQL函数支持 -UUID

·        [ SPARK-20931 ] - 内置SQL函数ABS支持字符串类型

·        [ SPARK-20948 ] - 内置SQL函数UnaryMinus/ UnaryPositive支持字符串类型

·        [ SPARK-20961 ] - 在ColumnVector中概括字典

·        [ SPARK-20962 ] - 支持FROM子句中的子查询列别名

·        [ SPARK-20963 ] - 在FROM子句中支持别名关系的列别名

·        [ SPARK-20988 ] - 将逻辑回归转换为新的聚合器框架

·        [ SPARK-21007 ] - 添加SQL函数 - 右和左

·        [ SPARK-21031 ] - 添加`alterTableStats`来存储spark的统计信息并让`alterTable`保留现有的统计信息

·        [ SPARK-21046 ] - 简化ColumnVector中的数组偏移和长度

·        [ SPARK-21047 ] - 为ColumnarBatchSuite中的复杂案例添加测试套件

·        [ SPARK-21051 ] - 将哈希映射度量值添加到聚合中

·        [ SPARK-21052 ] - 添加哈希映射指标以加入

·        [ SPARK-21083 ] - 分析空表后存储零大小和行数

·        [ SPARK-21087 ] - CrossValidator,TrainValidationSplit在拟合时应该收集所有模型:Scala API

·        [ SPARK-21127 ] - 更新数据更改命令后的统计信息

·        [ SPARK-21180 ] - 由于我们已经在LogicalPlan中进行了配置,因此从stats函数中删除conf

·        [ SPARK-21190 ] - SPIP:Python中的矢量化UDF

·        [ SPARK-21205 ] - pmod(number,0)应该为空

·        [ SPARK-21213 ] - 支持收集分区级统计信息:rowCount和sizeInBytes

·        [ SPARK-21237 ] - 表格数据更改后使统计数据失效

·        [ SPARK-21322 ] - 支持过滤器基数估计中的直方图

·        [ SPARK-21324 ] - 改进统计测试套件

·        [ SPARK-21375 ] - 为toPandas()集合的ArrowConverters添加日期和时间戳支持

·        [ SPARK-21440 ] - 重构ArrowConverters并添加ArrayType和StructType支持。

·        [ SPARK-21456 ] - 使驱动程序failover_timeout可配置(Mesos群集模式)

·        [ SPARK-21552 ] - 为ArrowWriter添加十进制类型支持。

·        [ SPARK-21625 ] - 向DOC添加不兼容的HiveUDF

·        [ SPARK-21654 ] - 补充谓词表达式描述

·        [ SPARK-21671 ] - 将kvstore包移到util.kvstore,添加注释

·        [ SPARK-21720 ] - 用许多条件筛选谓词抛出stackoverflow错误

·        [ SPARK-21778 ] - Scala / Java中更简单的Dataset.sample API

·        [ SPARK-21779 ] - Python中更简单的Dataset.sample API

·        [ SPARK-21780] - R中的更简单的数据集.Sample API

·        [ SPARK-21893 ] - 将卡夫卡0.8放在配置文件后面

·        [ SPARK-21895 ] - 支持在HiveClient中更改数据库

·        [ SPARK-21934 ] - 通过指标系统公开Netty内存使用情况

·        [ SPARK-21984 ] - 在连接估算中使用直方图统计

·        [ SPARK-22026 ] - 数据源v2写入路径

·        [ SPARK-22032 ] - 加快StructType.fromInternal

·        [ SPARK-22053 ] - 以追加模式实现流式内部连接

·        [ SPARK-22078 ] - 阐明所有数据源v2接口的异常行为

·        [ SPARK-22086 ] - 为CASE WHEN添加表达式描述

·        [ SPARK-22087 ] - 清除2.12的剩余编译错误; 解决大部分警告

·        [ SPARK-22100 ] - 使percentile_approx支持日期/时间戳类型,并将输出类型更改为与输入类型相同

·        [ SPARK-22128 ] - 将paranamer更新为2.8以避免BytecodeReadingParanamer ArrayIndexOutOfBoundsException与Scala 2.12 + Java 8 lambda

·        [ SPARK-22136 ] - 以追加模式实现流式流外部连接

·        [ SPARK-22197 ] - 在规划之前将运营商推下数据源

·        [ SPARK-22221 ] - 添加用户文档以在Spark中使用Arrow

·        [ SPARK- 22226] - splitExpression可能会创建太多的方法调用(生成一个常量池限制错误)

·        [ SPARK-22278 ] - 在GroupState中公开当前事件时间水印和当前处理时间

·        [ SPARK-22285 ] - 将ApproxCountDistinctForIntervals的实现更改为TypedImperativeAggregate

·        [ SPARK-22310 ] - 重构连接估计,为不同种类的统计信息合并估计逻辑

·        [ SPARK-22322 ] - 更新FutureAction以与Scala 2.12未来兼容

·        [ SPARK-22324 ] - 将Arrow升级到版本0.8.0并将Netty升级到4.1.17

·        [ SPARK-22361 ] - 为Window Frames添加单元测试

·        [ SPARK-22363 ] - 为窗口溢出添加单元测试

·        [ SPARK-22387 ] - 将会话配置传播到数据源读/写选项

·        [ SPARK-22389 ] - 分区报告

·        [ SPARK-22392 ] - 柱状阅读器界面

·        [ SPARK-22400 ] - 重命名一些API和类,使其含义更清晰

·        [ SPARK-22409 ] - 将函数类型参数添加到pandas_udf

·        [ SPARK-22452 ] - DataSourceV2Options应该有getInt,getBoolean等。

·        [ SPARK-22475 ] - 在DESC COLUMN命令中显示直方图

·        [ SPARK-22483 ] - 将java.nio bufferedPool内存度量公开给度量系统

·        [ SPARK-22494 ] - 合并和AtLeastNNonNulls可能导致64KB JVM字节码限制异常

·        [ SPARK-22498 ] - concat 64KB JVM字节码限制问题

·        [ SPARK-22499 ] - 最小和最大的64KB JVM字节码限制问题

·        [ SPARK-22500 ] - 64KB JVM字节码限制问题

·        [ SPARK-22501 ] - 64KB JVM字节码限制问题

·        [ SPARK-22508 ] -GenerateUnsafeRowJoiner.create()中64KB JVM字节码限制问题

·        [ SPARK-22514 ] - 将ColumnVector.Array和ColumnarBatch.Row移动到单个文件

·        [ SPARK-22515 ] - 根据numRows * rowSize估计关系大小

·        [ SPARK-22529 ] - 关系统计应该与基于cbo config的其他计划保持一致

·        [ SPARK-22530 ] - 添加ArrayType支持使用Pandas和Arrow

·        [ SPARK-22542 ] - 删除ColumnarBatch中未使用的功能

·        [ SPARK-22543 ] - 为深度嵌套表达式修复java 64kb编译错误

·        [ SPARK-22549 ] - concat_ws有 64KB JVM字节码限制问题

·        [ SPARK-22550 ] - elt的64KB JVM字节码限制问题

·        [ SPARK-22570 ] - 创建大量全局变量以在生成的代码中重用对象

·        [ SPARK-22602 ] - 删除ColumnVector#loadBytes

·        [ SPARK-22603 ] - FormatString的64KB JVM字节码限制问题

·        [ SPARK-22604 ] - 从ColumnVector中删除获取地址方法

·        [ SPARK-22626 ] - 如果启用CBO,错误的Hive表统计信息可能会触发OOM

·        [ SPARK-22643 ] - ColumnarArray应该是不可变的视图

·        [ SPARK-22646 ] - Kubernetes上的Spark - 基本提交客户端

·        [ SPARK-22648 ] - Kubernetes调度程序后端的文档

·        [ SPARK-22652 ] - 删除ColumnarRow中的设置方法

·        [ SPARK-22669 ] - 在代码生成过程中避免不必要的函数调用

·        [ SPARK-22693 ] - 避免在complexTypeCreator和谓词中产生无用的可变状态

·        [ SPARK-22695 ] - 避免scalaUDF产生无用的可变状态

·        [ SPARK-22696 ] - 避免由对象函数产生无用的可变状态

·        [ SPARK-22699 ] - 避免GenerateSafeProjection产生无用的可变状态

·        [ SPARK-22703 ] - ColumnarRow应该是不可变的视图

·        [ SPARK-22716 ] - 避免在addReferenceObj中创建可变状态

·        [ SPARK-22732 ] - 添加DataSourceV2流媒体API

·        [ SPARK-22733 ] - 重构StreamExecution以实现可扩展性

·        [ SPARK-22745 ] - 从Hive读取分区统计信息

·        [ SPARK-22746 ] - 避免SortMergeJoin产生无用的可变状态

·        [ SPARK-22750 ] - 介绍可重复使用的可变状态

·        [ SPARK-22757 ] - 驱动程序/执行程序窗口中的 Init-container用于下载远程依赖项

·        [ SPARK-22762 ] - IfCoercion和CaseWhenCoercion的基本测试

·        [ SPARK-22772 ] - elt应该使用splitExpressionsWithCurrentInputs来拆分表达式代码

·        [ SPARK-22775 ] - 将字典相关的API从ColumnVector移动到WritableColumnVector

·        [ SPARK-22785 ] - 将ColumnVector.anyNullsSet重命名为hasNull

·        [ SPARK-22789 ] - 为连续处理查询添加ContinuousExecution

·        [ SPARK-22807 ] - 将配置选项更改为使用“容器”而不是“docker”

·        [ SPARK-22816 ] - PromoteStrings和InConversion的基本测试

·        [ SPARK-22821 ] - 针对WidenSetOperationTypes,BooleanEquality,StackCoercion和Division的基本测试

·        [ SPARK-22822 ] - WindowFrameCoercion和DecimalPrecision的基本测试

·        [ SPARK-22829 ] - 添加新的内置函数date_trunc()

·        [ SPARK-22845 ] - 修改spark.kubernetes.allocation.batch.delay以取代int

·        [ SPARK-22848 ] - 避免Stack函数产生无用的可变状态

·        [ SPARK-22890 ] - DateTimeOperations的基本测试

·        [ SPARK-22892 ] - 通过使用double而不是decimal来简化一些估计逻辑

·        [ SPARK-22904 ] - 小数运算和字符串转换的基本测试

·        [ SPARK-22908 ] - 添加基本的连续kafka源文件

·        [ SPARK-22909 ] - 将结构化Streaming v2 API移动到流媒体包

·        [ SPARK-22912 ] - 在MicroBatchExecution中支持v2流媒体源和接收器

·        [ SPARK-22917 ] - 不应尝试为空/空列生成直方图

·        [ SPARK-22930 ] - 改进对非确定性案例的矢量化UDF的描述

·        [ SPARK-22978 ] - 为SQL语句注册矢量化UDF

·        [ SPARK-22980 ] - 输入不是熊猫系列或数据帧时使用pandas_udf

·        [ SPARK-23033 ] - 禁用任务级重试,以便连续执行

·        [ SPARK-23045 ] - RFormula使用OneHotEncoderEstimator

·        [ SPARK-23046 ] - 让RFormula在管道中包含VectorSizeHint

·        [ SPARK-23047 ] - 在ArrowColumnVector中将MapVector更改为NullableMapVector

·        [ SPARK-23052 ] - 将Microbatch ConsoleSink迁移到v2

·        [ SPARK-23063 ] - 发布spark-kubernetes包的变化

·        [ SPARK-23064 ] - 为流式流连接添加文档

·        [ SPARK-23093 ] - 不要修改运行ID

·        [ SPARK-23107 ] - ML,图2.3 QA:API:新的Scala APIs,文档

·        [ SPARK-23108 ] - ML,图2.3 QA:API:Experimental,DeveloperApi,最终密封审核

·        [ SPARK-23110 ] - ML 2.3 QA:API:Java兼容性,文档

·        [ SPARK-23111 ] - ML,图2.3 QA:更新新功能和API的用户指南

·        [ SPARK-23112 ] - ML,图2.3 QA:编程指南更新和迁移指南

·        [ SPARK-23116 ] - SparkR 2.3 QA:更新新功能和API的用户指南

·        [ SPARK-23118 ] - SparkR 2.3 QA:编程指南,迁移指南,短片更新

·        [ SPARK-23137 ] -spark.kubernetes.executor.podNamePrefix被忽略

·        [ SPARK-23196 ] - 统一连续和microbatch V2接收器

·        [ SPARK-23218 ] - 简化ColumnVector.getArray

·        [ SPARK-23219 ] - 将ReadTask重命名为DataReaderFactory

·        [ SPARK-23260 ] - 从数据源读写器的类名中删除V2

·        [ SPARK-23261 ] - 重命名熊猫UDF

·        [ SPARK-23262 ] - 混音接口应该扩展它所要混合的接口

·        [ SPARK-23268 ] - 重新整理数据源V2中的软件包

·        [ SPARK-23272 ] - 为ColumnVector添加日历间隔类型支持

·        [ SPARK-23280 ] - 为ColumnVector添加地图类型支持

·        [ SPARK-23314 ] - Pandas将数据集上的udf与时间戳列错误分组

·        [ SPARK-23352 ] - 在Pandas UDF中明确指定支持的类​​型

·        [ SPARK-23446 ] - 明确检查toPandas中的支持类型

Bug

·        [ SPARK-3151 ] - DiskStore尝试映射任何大小的BlockId而不检查MappedByteBuffer限制

·        [ SPARK-3577 ] - 添加任务度量以报告溢出时间

·        [ SPARK-3685 ] - Spark的本地dir应该只接受本地路径

·        [ SPARK-5484 ] - Pregel应定期检查点以避免StackOverflowError

·        [ SPARK-9825 ] - Spark使用本地配置覆盖远程群集“最终”属性

·        [ SPARK-11334 ] - numRunningTasks不能小于0,否则会影响执行程序的分配

·        [ SPARK-12552 ] - 恢复的驱动程序资源不计入主服务器中

·        [ SPARK-12559 ] - 集群模式不适用于--packages

·        [ SPARK- 12717] - 使用多个线程时,pyspark广播失败

·        [ SPARK-13​​669 ] - 在外部洗牌服务不可用情况下,作业总是失败

·        [ SPARK-13​​933 ] - hadoop-2.7个人资料的策展人版本应该是2.7.1

·        [ SPARK- 13983] - 自1.6版以来,HiveThriftServer2无法获得“--hiveconf”或“--hivevar”变量(包括多会话和单会话)

·        [ SPARK-14228 ] - RPC的丢失执行器已解除关联,并发生异常:找不到CoarseGrainedScheduler或已停止

·        [ SPARK-14387 ] - 启用Hive-1.x ORC与spark.sql.hive.convertMetastoreOrc的兼容性

·        [ SPARK-14408 ] - 更新RDD.treeAggregate不使用reduce

·        [ SPARK-14657 ] - 当公式不带截取时,RFormula输出错误的特征

·        [ SPARK-15243 ] - Binarizer.explainParam(u“...”)引发ValueError

·        [ SPARK-15474 ] - ORC数据源无法写入和读回空数据帧

·        [ SPARK-16167 ] - RowEncoder应该保留数组/映射类型的可空性。

·        [ SPARK-16542 ] - 关于使用python创建数据框时导致产生null数组的类型的错误

·        [ SPARK-16548 ] -java.io.CharConversionException:无效的UTF-32字符阻止我查询数据

·        [ SPARK-16605 ] - Spark2.0不能从存储为由配置单元或spark1.6支持的配置单元创建的orc文件中的表中选择数据

·        [ SPARK-16628 ] - 如果Metastore模式与ORC文件中存储的模式不匹配,则OrcConversions不应将MetastoreRelation表示的ORC表转换为HadoopFsRelation

·        [ SPARK-16986 ] - 历史记录服务器UI中的“已启动”时间,“已完成”时间和“上次更新”时间不是用户本地时间

·        [ SPARK-17029 ] - 数据集toJSON通过RDD形式,而不是转换数据集本身

·        [ SPARK-17047 ] - Spark 2不能在CLUSTERED时创建表格。

·        [ SPARK-17284 ] - 从SHOW CREATE TABLE中删除与统计相关的表属性

·        [ SPARK-17321 ] - YARN shuffle服务应该使用yarn.nodemanager.local-dirs

·        [ SPARK-17410 ] - 将Hive生成的统计信息移至HiveClientImpl

·        [ SPARK-17528 ] - 在保存到InternalRow之前,应正确复制数据

·        [ SPARK-17742 ] - Spark Launcher在侦听器中不会失败

·        [ SPARK-17788 ] - RangePartitioner导致几个非常大的任务和许多小到空任务

·        [ SPARK-17851 ] - 确保催化剂中的所有测试平方都通过checkAnalysis

·        [ SPARK-17902 ] - collect()忽略stringsAsFactors

·        [ SPARK-17914 ] - Spark SQL将时间戳类型转换为纳秒导致时间戳不正确

·        [ SPARK-17920 ] - HiveWriterContainer将空配置传递给serde.initialize,在使用avro.schema.url时在AvroSerde中导致NullPointerException

·        [ SPARK-18004 ] - 对于Oracle时间戳类型列,DataFrame过滤器谓词下推失败

·        [ SPARK-18061 ] - Spark Thriftserver需要创建SPNego主体

·        [ SPARK-18355 ] - Spark SQL无法从ORC配置表格中读取数据,该表格添加了一个新列

·        [ SPARK-18394 ] - 在同一行中执行两次相同的查询会导致CodeGenerator缓存未命中

·        [ SPARK-18608 ] - Spark ML算法,用于检查内部缓存双缓存数据的RDD缓存级别

·        [ SPARK-18646 ] - 用于spark-shell的ExecutorClassLoader不尊重spark.executor.userClassPathFirst

·        [ SPARK-18935 ] - 为Spark使用Mesos“DynamicReservation”资源

·        [ SPARK-18950 ] - 合并两个StructType时报告冲突字段。

·        [ SPARK-19109 ] - ORC元数据部分有时可能超过protobuf邮件大小限制

·        [ SPARK-19122 ] - 如果连接谓词排序与分段和排序顺序不同,则添加不必要的shuffle +sort

·        [ SPARK-19326 ] - 推测的任务尝试不会在少数情况下启动

·        [ SPARK-19372 ] - 包含许多OR条件的Filter谓词的代码生成超过JVM方法大小限制

·        [ SPARK-19451 ] - rangeBetween方法应接受Long值作为边界

·        [ SPARK-19471 ] - 创建表时出现令人困惑的NullPointerException

·        [ SPARK-19531 ] - 历史记录服务器不会刷新像thriftserver这样的长期应用程序的作业

·        [ SPARK-19580 ] - 在写入配置单元表时支持avro.schema.url

·        [ SPARK-19644 ] - Spark Streaming中的内存泄漏(编码器/ Scala反射)

·        [ SPARK-19688 ] - Spark Yarn Credentials文件设置为不同的应用程序目录

·        [ SPARK-19726 ] - 使用spark jdbc将空时戳值插入到mysql中

·        [ SPARK-19753 ] - 在从设备丢失提取失败的情况下,删除主机上的所有随机文件

·        [ SPARK-19809 ] - 零大小的ORC文件上的NullPointerException

·        [ SPARK-19812 ] - YARN shuffle服务无法通过NFS目录重新定位恢复数据库

·        [ SPARK-19824 ] - 独立主JSON不显示运行应用程序的内核

·        [ SPARK-19900 ] - [Standalone] Master在驱动程序重新启动后再次注册应用程序

·        [ SPARK-19910 ] - 由于类型不匹配,`stack`不应该拒绝NULL值

·        [ SPARK-20025 ] - 如果设置了SPARK_LOCAL * env,则驱动程序故障切换将不起作用。

·        [ SPARK-20065 ] - 以追加模式为汇聚查询创建空输出文件

·        [ SPARK-20079 ] - AM的重新注册会挂起纱线客户端模式中的Spark集群

·        [ SPARK-20098 ] - 对于StructField,DataType的typeName方法返回'StructF'

·        [ SPARK-20140 ] - 删除硬编码kinesis重试等待和最大重试次数

·        [ SPARK-20205 ] - DAGScheduler在更新阶段之前发布SparkListenerStageSubmitted

·        [ SPARK-20213 ] - DataFrameWriter操作不显示在SQL选项卡中

·        [ SPARK-20256 ] - 当用户不具有对Hive Metastore仓库目录的读/写权限时,启用Hive支持时无法启动SparkContext/ SparkSession

·        [ SPARK-20288 ] - 改进BasicSchedulerIntegrationSuite“多阶段工作”

·        [ SPARK-20311 ] - SQL“range(N)as alias”或“range(N)alias”不起作用

·        [ SPARK-20312 ] - 查询优化器在不期望它们时用空值调用udf

·        [ SPARK-20329 ] - HAVING子句使用涉及隐式类型强制的GROUP BY表达式时的解析错误

·        [ SPARK-20333 ] - 修复DAGSchedulerSuite中的HashPartitioner

·        [ SPARK-20338 ] - spark.eventLog.dir中的空间未正确处理

·        [ SPARK-20341 ] - 支持BigIngeger值>19精度

·        [ SPARK-20342 ] - DAGScheduler在更新任务的累加器之前发送SparkListenerTaskEnd

·        [ SPARK-20345 ] - 修复HiveSQLException上的STS错误处理逻辑

·        [ SPARK-20356 ] - 通过加入+不同的转换后,Sparksql group会返回不正确的结果

·        [ SPARK-20359 ] - CatalystEliminateOuterJoin优化可以导致NPE

·        [ SPARK-20365 ] - AM和Containers的类路径格式不太精确

·        [ SPARK-20367 ] - Spark悄悄地转义分区列名称

·        [ SPARK-20380 ] - 在更改操作后,描述表格不显示更新的表格注释

·        [ SPARK-20412 ] - 期望非可选partitionSpec的地方的NullPointerException。

·        [ SPARK-20427 ] - Spark解释Oracle数据类型NUMBER的问题

·        [ SPARK-20439 ] - Catalog.listTables()取决于用于创建表的所有库

·        [ SPARK-20451 ] - 根据randomSplit中的排序顺序筛选出嵌套的mapType数据类型

·        [ SPARK-20453 ] - Bump主分支版本到2.3.0-SNAPSHOT

·        [ SPARK-20466 ] - HadoopRDD#addLocalConfiguration引发NPE

·        [ SPARK-20541 ] - SparkR SS应该支持await Termination而不会超时

·        [ SPARK-20543 ] - 在CRAN上运行时,R应跳过长时间运行或非基本测试

·        [ SPARK-20565 ] - 改进不支持的JDBC类型的错误消息

·        [ SPARK-20569 ] - RuntimeReplaceable函数接受无效的第三个参数

·        [ SPARK-20586 ] - 将确定性添加到ScalaUDF

·        [ SPARK-20591 ] - 当存在推测性任务时,spark web ui上的作业页面和作业详细信息页面中的成功任务数量不相等

·        [ SPARK-20605 ] - 弃用未使用的AM和执行程序端口配置

·        [ SPARK-20609 ] - 运行SortShuffleSuite单元测试有剩余的spark_ *系统目录

·        [ SPARK-20613 ] - Windows批处理脚本中的双引号

·        [ SPARK-20626 ] - 使用时间戳时区修复Windows上的SparkR测试警告

·        [ SPARK-20633 ] - FileFormatWriter包装FetchFailedException,它会中断作业的故障转移

·        [ SPARK-20640 ] - 使rpc超时并重试可配置的shuffle注册

·        [ SPARK-20689 ] - python doctest泄漏bucketed表

·        [ SPARK-20690 ] - FROM中的子查询应该有别名

·        [ SPARK-20704 ] - CRAN测试应该运行单线程

·        [ SPARK-20706 ] - Spark-shell不重写方法/变量定义

·        [ SPARK-20708 ] - 使`addExclusionRules`保持最新状态

·        [ SPARK-20713 ] - 得到CommitDenied异常的投机任务显示失败

·        [ SPARK-20719 ] - 支持限制全部

·        [ SPARK-20756 ] - 纱洗牌罐头引用无阴影的番石榴和包含scala类

·        [ SPARK-20786 ] - 改善小区和地板处理预期的价值

·        [ SPARK-20815 ] - RPackageUtils#checkManifestForR中的NullPointerException

·        [ SPARK-20832 ] - 独立主设备应明确告知司机工作人员死亡并使外部洗牌服务输出无效

·        [ SPARK-20865 ] - 高速缓存数据集抛出“必须使用writeStream.start()执行带有流源的查询”

·        [ SPARK-20873 ] - 改进不支持列类型的错误消息

·        [ SPARK-20876 ] - 如果输入参数是ceil或floor的浮点型,结果不是我们所期望的

·        [ SPARK-20898 ] -spark.blacklist.killBlacklistedExecutors在YARN中不起作用

·        [ SPARK-20904 ] - 关机期间的任务失败会导致抢先执行程序出现问题

·        [ SPARK-20906 ] - SparkR的约束Logistic回归

·        [ SPARK-20914 ] - Javadoc包含无效的代码

·        [ SPARK-20916 ] - 改进FROM子句中未查询的子查询的错误消息

·        [ SPARK-20922 ] - Spark LauncherConnection中的不安全反序列化

·        [ SPARK-20923 ] -TaskMetrics._updatedBlockStatuses使用大量内存

·        [ SPARK-20926 ] - 通过直接访问SessionCatalog中的tableRelationCache暴露于Guava库导致失败

·        [ SPARK-20935 ] - 终止StreamingContext后守护线程“BatchedWriteAheadLog Writer”。

·        [ SPARK-20945 ] - 在TaskSchedulerImpl中找不到NoSuchElementException键

·        [ SPARK-20976 ] - 统一FAILFAST模式下的错误信息。

·        [ SPARK-20978 ] - 当令牌数量少于给定模式并且给出损坏列时,CSV发出NPE

·        [ SPARK-20989 ] - 如果在独立模式下启用外部洗牌服务,则无法在一台主机上启动多个工作人员

·        [ SPARK-20991 ] - BROADCAST_TIMEOUT conf应该是一个timeoutConf

·        [ SPARK-20997 ] - spark-submit的--driver-cores标记为“仅限YARN”,但列在“仅限集群部署模式下的Spark独立”下

·        [ SPARK-21033 ] - 修复UnsafeExternalSorter中的潜在OOM

·        [ SPARK-21041 ] - 对于全阶段的codegen,SparkSession.range()的行为与SparkContext.range()不一致

·        [ SPARK-21050 ] - ml word2vec写入在计算numPartition时有溢出问题

·        [ SPARK-21055 ] - 支持grouping_id

·        [ SPARK-21057 ] - 不要在countApprox中使用PascalDistribution

·        [ SPARK-21064 ] - 修复NettyBlockTransferServiceSuite中的默认值错误

·        [ SPARK-21066 ] - LibSVM只加载一个输入文件

·        [ SPARK-21093 ] - SparkR中偶尔发生多次gapply执行失败

·        [ SPARK-21101 ] - 在最新的Spark 2.2上运行Hive临时UDTF时出错

·        [ SPARK-21102 ] - 刷新命令在解析中过于激进

·        [ SPARK-21112 ] - ALTER TABLE SETTBLPROPERTIES不应该覆盖COMMENT

·        [ SPARK-21119 ] - 取消设置表格属性应该保留表格评论

·        [ SPARK-21124 ] - 使用Kerberos时在UI中显示的用户错误

·        [ SPARK-21138 ] - 当“spark.yarn.stagingDir”和“spark.hadoop.fs.defaultFS”的集群不同时,不能删除登台目录

·        [ SPARK-21145 ] - 重新启动的查询重用相同的StateStoreProvider,导致多个并发任务更新相同的StateStore

·        [ SPARK-21147 ] - 无法设置套接字/速率源的模式。

·        [ SPARK-21163 ] - DataFrame.toPandas应该尊重数据类型

·        [ SPARK-21165 ] - 由于属性引用不能在分区列上进行强制转换,因此无法写入分区配置单元表

·        [ SPARK-21167 ] - 读取FileSink的输出时路径不正确解码

·        [ SPARK-21170 ] -Utils.tryWithSafeFinallyAndFailureCallbacks抛出IllegalArgumentException:不允许自我抑制

·        [ SPARK-21181 ] - 抑制netty报告的内存泄漏错误

·        [ SPARK-21188 ] - releaseAllLocksForTask应该同步整个方法

·        [ SPARK-21204 ] - Spark 2.1.1中带有Set和Case类的RuntimeException

·        [ SPARK-21216 ] - 流数据帧无法与Hive表连接

·        [ SPARK-21219 ] - 由于列入黑名单的竞争条件,任务重试发生在同一执行器上

·        [ SPARK-21223 ] - FsHistoryProvider中的线程安全问题

·        [ SPARK-21225 ] - 减少函数resourceOffers中变量'任务'的Mem

·        [ SPARK-21228 ] - InSet处理不正确的结构

·        [ SPARK-21248 ] - 片状测试:oassql.kafka010.KafkaSourceSuite.assign从特定的偏移量(failOnDataLoss:true)

·        [ SPARK-21254 ] - 历史UI:超过1分钟用于初始页面显示

·        [ SPARK-21255 ] - 为枚举创建编码器时的NPE

·        [ SPARK-21263 ] - 将无效字符串转换为float / double时,不会引发NumberFormatException

·        [ SPARK-21264 ] - 在PySpark中加入指定的“如何”忽略NPE

·        [ SPARK-21271 ] - 当sizeInBytes不是8的倍数时UnsafeRow.hashCode断言

·        [ SPARK-21272 ] - SortMergeJoin LeftAnti不更新numOutputRows

·        [ SPARK-21278 ] - 升级到Py4J 0.10.6

·        [ SPARK-21281 ] - 无法创建空的类型数组列

·        [ SPARK-21283 ] - FileOutputStream应创建为附加模式

·        [ SPARK-21284 ] - 重命名SessionCatalog.registerFunction参数名称

·        [ SPARK-21300 ] - 在转换为内部值之前,ExternalMapToCatalyst应该空映射密钥。

·        [ SPARK-21306 ] - OneVsRest隐藏可能与基础分类器相关的列

·        [ SPARK-21312 ] - UnsafeRow writeToStream对于非零偏移量具有不正确的offsetInByteArray计算

·        [ SPARK-21319 ] -UnsafeExternalRowSorter.RowComparator内存泄漏

·        [ SPARK-21327 ] - 在Python 2中,ArrayConstructor应该处理一个类型为'l'的数组而不是int。

·        [ SPARK-21330 ] - 错误分区不允许读取分区列上具有极端值的JDBC表

·        [ SPARK-21332 ] - 针对某些小数表达式推断的结果类型不正确

·        [ SPARK-21333 ] - joinWith文档和分析允许无效的连接类型

·        [ SPARK-21335 ] - 支持无锯齿的子查询

·        [ SPARK-21338 ] - AggregatedDialect不会覆盖isCascadingTruncateTable()方法

·        [ SPARK-21339 ] - spark-shell --packages选项不会将jar添加到Windows上的classpath

·        [ SPARK-21342 ] - 修复DownloadCallback与RetryingBlockFetcher配合使用

·        [ SPARK-21343 ] - 优化文档spark.reducer.maxReqSizeShuffleToMem

·        [ SPARK-21345 ] - SparkSessionBuilderSuite应清理已停止的会话

·        [ SPARK-21350 ] - 在调用UDF时参数数量错误时修复错误消息

·        [ SPARK-21354 ] - 与输入文件相关的功能不支持多个来源

·        [ SPARK-21357 ] - FileInputDStream不会删除过时的RDD

·        [ SPARK-21369 ] - 不要在外部洗牌服务中使用Scala类

·        [ SPARK-21374 ] - 如果文件系统缓存被禁用,则从S3读入全局路径到DF不起作用

·        [ SPARK-21376 ] - 集群模式下的纱线客户端进程中不会更新令牌

·        [ SPARK-21377 ] - 使用--jars或--packages指定的Jars不会添加到AM的系统类路径中

·        [ SPARK-21383 ] - YARN可以分配太多执行者

·        [ SPARK-21384 ] - 没有spark.yarn.jars /spark.yarn.archive的Spark 2.2 + YARN失败

·        [ SPARK-21394 ] - 在PySpark中恢复UDF中可破坏的可调用对象

·        [ SPARK-21400 ] - Spark不应该忽略用户定义的输出提交程序的追加模式

·        [ SPARK-21403 ] - 集群模式不适用于--packages [Mesos]

·        [ SPARK-21411 ] - 无法在AMCredentialRenewer中获取新的HDFS委托令牌

·        [ SPARK-21414 ] - 虽然窗口很小,但SlidingWindowFunctionFrame中的缓冲区可能很大

·        [ SPARK-21418 ] - 使用sun.io.serialization.extendedDebugInfo= true的DataSourceScanExec中的NoSuchElementException:None.get

·        [ SPARK-21422 ] - 取决于Apache ORC 1.4.0

·        [ SPARK-21428 ] - 由于IsolatedClientLoader,CliSessionState永远不会被识别

·        [ SPARK-21432 ] - 在PySpark中恢复UDF中破碎的部分函数

·        [ SPARK-21439 ] - 无法使用Spark ABCmeta(cloudpickle的例外)

·        [ SPARK-21441 ] - 在某些情况下,SortMergeJoinExec中的Codegen不正确会导致失败

·        [ SPARK-21444 ] - 由于节点重启导致的读取失败导致作业失败

·        [ SPARK-21445 ] - 由UTF8String.IntWrapper引发的NotSerializableException

·        [ SPARK-21446 ] - [SQL] JDBC Postgresfetchsize参数再次被忽略

·        [ SPARK-21447 ] - 在某些情况下,Spark历史记录服务器无法呈现压缩的正在进行的历史记录文件。

·        [ SPARK-21451 ] - SparkSQLCLIDriver中的HiveConf不尊重spark.hadoop.some.hive.variables

·        [ SPARK-21457 ] - ExternalCatalog.listPartitions应该使用点正确处理分区值

·        [ SPARK-21462 ] - 将batchId添加到StreamingQueryProgress的json

·        [ SPARK-21463 ] - 读回表时,StructuredStreaming表的输出不遵守用户指定的模式

·        [ SPARK-21490 ] - SparkLauncher可能无法重定向流

·        [ SPARK-21494 ] - Spark 2.2.0 AES加密不适用于外部随机播放

·        [ SPARK-21498 ] - 快速入门 - >一个py demo在代码中有一些bug

·        [ SPARK-21501 ] - Spark shuffle索引缓存大小应该基于内存

·        [ SPARK-21502 ] - - 监督在mesos集群模式下导致frameworkId冲突

·        [ SPARK-21503 ] - Spark UI显示死亡执行程序进程的任务状态不正确

·        [ SPARK-21508 ] - 有关'Spark Streaming Custom Receivers'的文档在示例代码中存在错误

·        [ SPARK-21512 ] - DatasetCacheSuite需要在执行完成后执行非持久化

·        [ SPARK-21516 ] - 覆盖DatasetCacheSuite中的afterEach()必须调用super.afterEach()

·        [ SPARK-21522 ] - 片状测试:LauncherServerSuite.testStreamFiltering

·        [ SPARK-21523 ] - 修复强大的wolfe linesearch`init`参数失效的问题

·        [ SPARK-21534 ] - 从空行bytearray的python行创建数据框时发生PickleException

·        [ SPARK-21541 ] - Spark Logs显示不创建SparkContext的作业的不正确作业状态

·        [ SPARK-21546 ] - 由于绑定失败,dropDuplicates与水印会产生RuntimeException

·        [ SPARK-21549 ] - 如果OutputFormat不能写入hdfs,则Spark无法正确完成作业

·        [ SPARK-21551 ] - getaddrinfo太慢时,pyspark的收集失败

·        [ SPARK-21555 ] - GROUP BY不适用于带有NVL和嵌套对象的表达式

·        [ SPARK-21563 ] - 序列化TaskDescriptions并添加jar时的竞争条件

·        [ SPARK-21565 ] - 聚合查询在eventTime上失败并带有水印,但在由current_timestamp生成的时间戳列上使用水印

·        [ SPARK-21567 ] - 带有别名类型的元组的数据集抛出错误

·        [ SPARK-21568 ] - 只应在shell中启用ConsoleProgressBar

·        [ SPARK-21571 ] - Spark历史记录服务器永远留下不完整或无法读取的历史文件。

·        [ SPARK-21580 ] - “按组排序”的错误

·        [ SPARK-21585 ] - 应用程序主机将应用程序状态标记为客户端模式失败

·        [ SPARK-21588 ] - SQLContext.getConf(key,null)应该返回null,但它会抛出NPE

·        [ SPARK-21593 ] - 修复损坏的配置页面

·        [ SPARK-21595 ] - 在spark 2.2中引入spark.sql.windowExec.buffer.spill.threshold可以打破现有的工作流程

·        [ SPARK-21596 ] - 审核调用HDFSMetadataLog.get的地方

·        [ SPARK-21597 ] - 正在计算的平均事件时间可能是错误的

·        [ SPARK-21599 ] - 收集数据源表的列统计信息可能会失败,并返回java.util.NoSuchElementException

·        [ SPARK-21605 ] - 让IntelliJ IDEA正确检测语言级别和目标字节码版本

·        [ SPARK-21610 ] - 从文件创建数据帧时,损坏的记录处理不当

·        [ SPARK-21615 ] - 修复协作过滤文档中的破坏重定向到数据库培训回购

·        [ SPARK-21617 ] - 在Hive 2.1中为AL表添加了ALTER TABLE ...ADD COLUMNS

·        [ SPARK-21621 ] - 在DiskBlockObjectWriter.commitAndGet调用后重置numRecordsWritten

·        [ SPARK-21637 ] - 不支持--hiveconf中的`hive.metastore.warehouse`

·        [ SPARK-21638 ] - RF警告信息不准确

·        [ SPARK-21642 ] - 对DRIVER_HOST_ADDRESS使用FQDN而不是ip地址

·        [ SPARK-21644 ] - LocalLimit.maxRows的定义不正确

·        [ SPARK-21647 ] - 使用CROSS时SortMergeJoin失败

·        [ SPARK-21648 ] - 当用户拼错选项`partitionColumn`时,混淆JDBC源中的断言失败

·        [ SPARK-21652 ] - 优化器无法在某些查询中达到固定点

·        [ SPARK-21656 ] - 当有足够的任务运行时,sp​​ark动态分配不应该使超时执行程序空闲

·        [ SPARK-21657 ] --Spark具有爆炸式指数时间复杂度(结构数组)

·        [ SPARK-21677 ] - 当字符串类型为空时,json_tuple抛出NullPointException异常。

·        [ SPARK-21681 ] - 当featureStd包含零时,MLOR无法正常工作

·        [ SPARK-21714 ] - Yarn客户端模式下的SparkSubmit下载远程文件,然后重新上传它们

·        [ SPARK-21721 ] -org.apache.spark.sql.hive.execution.InsertIntoHiveTable中的内存泄漏

·        [ SPARK-21723 ] - 无法写入LibSVM - 未找到密钥:numFeatures

·        [ SPARK-21727 ] - 在SparkR DataFrame中的ArrayType上操作会引发错误

·        [ SPARK-21738 ] - 当会话关闭时,Thriftserver不取消作业

·        [ SPARK-21739 ] - 时间戳分区在v2.2.0中将失败

·        [ SPARK-21743 ] - 最高限制不应导致内存泄漏

·        [ SPARK-21753 ] - 在火花上运行pypy的 pi例子无法序列化

·        [ SPARK-21759 ] - In.checkInputDataTypes不应错误地报告IN相关子查询的未解决计划

·        [ SPARK-21762 ] - 如果新文件尚不可见,FileFormatWriter / BasicWriteTaskStatsTracker指标集合将失败

·        [ SPARK-21766 ] - DataFrame toPandas()引发具有可空int列的ValueError

·        [ SPARK-21767 ] - 在VersionSuite中为Avro添加十进制测试

·        [ SPARK-21782 ] - 当numPartitions是2的幂时,重新分区会产生倾斜

·        [ SPARK-21786 ] -'spark.sql.parquet.compression.codec'配置不会对具有分区字段的表生效

·        [ SPARK-21788 ] - 停止流式查询时处理更多异常

·        [ SPARK-21791 ] - ORC应该使用点支持列名

·        [ SPARK-21793 ] - 修正GaussianMixture和AFTSurvivalRegression中的validateAndTransformSchema

·        [ SPARK-21798 ] - 没有配置替换已弃用的SPARK_CLASSPATH配置来启动守护程序,如历史记录服务器

·        [ SPARK-21801 ] - SparkR单元测试在树上随机失败

·        [ SPARK-21804 ] - json_tuple在第一个列以外的重复列中返回空值

·        [ SPARK-21805 ] - 在Windows上禁用R短片代码

·        [ SPARK-21818 ] -MultivariateOnlineSummarizer.variance生成否定结果

·        [ SPARK-21826 ] - 外部广播散列连接不应该抛出NPE

·        [ SPARK-21830 ] - 将ANTLR的依赖性提升到4.7版

·        [ SPARK-21831 ] - 删除HiveCompatibilitySuite中的`spark.sql.hive.convertMetastoreOrc`配置

·        [ SPARK-21832 ] - 将SQLBuilderTest合并到ExpressionSQLBuilderSuite中

·        [ SPARK-21834 ] - 在动态分配的情况下不正确的执行程序请求

·        [ SPARK-21835 ] - RewritePredicateSubquery不应产生未解决的查询计划

·        [ SPARK-21837 ] - UserDefinedTypeSuite本地UDF实际上没有测试它的意图

·        [ SPARK-21845 ] - 使表达式的codegen fallback可配置

·        [ SPARK-21877 ] - Windows命令脚本无法处理参数中的引号

·        [ SPARK-21880 ] - [spark UI]在SQL表页面中,修改作业跟踪信息

·        [ SPARK-21890 ] - 获取Credentials不会将声明传递给addDelegationTokens

·        [ SPARK-21904 ] - 在SessionCatalog中将tempTables重命名为tempViews

·        [ SPARK-21907 ] -UnsafeExternalSorter.spill()中的NullPointerException

·        [ SPARK-21912 ] - ORC / Parquet表不应创建无效的列名称

·        [ SPARK-21913 ] - `withDatabase`应该使用CASCADE删除数据库

·        [ SPARK-21917 ] - 在YARN模式下不支持远程http(s)资源

·        [ SPARK-21922 ] - 执行程序失败且任务度量标准未发送给驱动程序时,状态将始终为“正在运行”,持续时间为“CurrentTime - launchTime”

·        [ SPARK-21924 ] - 结构化流媒体文档中的错误

·        [ SPARK-21928 ] - netty线程中serde过程中自定义Kryo注册器类的ClassNotFoundException

·        [ SPARK-21929 ] - 为ORC数据源支持`ALTERTABLE table_name ADD COLUMNS(..)`

·        [ SPARK-21941 ] - 停止在SQLTaskMetrics中存储未使用的attemptId

·        [ SPARK-21946 ] - Flaky测试:InMemoryCatalogedDDLSuite.alter表:重命名缓存表

·        [ SPARK-21947 ] -monotonically_increasing_id在结构化流式处理中不起作用

·        [ SPARK-21950 ] -pyspark.sql.tests.SQLTests2应停止SparkContext。

·        [ SPARK-21953 ] - 显示存在的内存和磁盘字节

·        [ SPARK-21954 ] - JacksonUtils应该验证MapType的值类型而不是密钥类型

·        [ SPARK-21958 ] - 尝试保存大型Word2Vec模型将驱动程序挂起在常量GC中。

·        [ SPARK-21969 ] - CommandUtils.updateTableStats应该调用refreshTable

·        [ SPARK-21977 ] - SinglePartition优化打破了某些流状态聚合需求

·        [ SPARK-21979 ] - 改进QueryPlanConstraints框架

·        [ SPARK-21980 ] - 分组函数中的参考应该使用解析器进行索引

·        [ SPARK-21985 ] - PySpark PairDeserializer针对双压缩RDD而打破

·        [ SPARK-21987 ] - Spark 2.3无法读取2.2事件日志

·        [ SPARK-21991 ] - [LAUNCHER]如果机器负载很高,LauncherServeracceptConnections线程有时会死掉

·        [ SPARK-21996 ] - 数据流忽略文件名中包含空格的文件

·        [ SPARK-21998 ] - 在物理计划期间,SortMergeJoinExec未正确计算其outputOrdering

·        [ SPARK-22030 ] - GraphiteSink无法重新连接到ELB后面的Graphite实例或任何其他自动缩放的LB

·        [ SPARK-22033 ] - BufferHolder,其他大小检查应考虑到特定的VM阵列大小限制

·        [ SPARK-22036 ] - BigDecimal乘法有时会返回空值

·        [ SPARK-22042 ] - 当孩子的分区没有确定时,ReorderJoinPredicates可能会中断

·        [ SPARK-22047 ] - Jenkins的HiveExternalCatalogVersionsSuite是Flaky

·        [ SPARK-22052 ] - 在MetricsReporter.scala中分配的不正确的度量标准

·        [ SPARK-22060 ] - CrossValidator /TrainValidationSplit并行性参数持久/加载错误

·        [ SPARK-22062 ] - BlockManager不考虑远程抓取消耗的内存

·        [ SPARK-22067 ] - ArrowWriter StringWriter不使用保存数据的ByteBuffer的位置

·        [ SPARK-22071 ] - 改进发布版本脚本以检查正在使用的正版 JAVA版本用于构建

·        [ SPARK-22074 ] - 其他尝试任务所杀的任务不应重新提交

·        [ SPARK-22076 ] - Expand.projections不应该是Stream

·        [ SPARK-22083 ] - 将多个块放入磁盘时,Spark应该在发生故障时释放所有锁

·        [ SPARK-22088 ] - 不正确的scalastyle评论会在stringExpressions中导致错误的样式

·        [ SPARK-22092 ] - 在OffHeapColumnVector.reserveInternal中重新分配破坏阵列数据

·        [ SPARK-22093 ] - UtilsSuite“resolveURIswith multiple paths”测试总是取消

·        [ SPARK-22094 ] - 当查询停止时,processAllAvailable不应该永久阻塞

·        [ SPARK-22097 ] - 展开块后请求精确的内存

·        [ SPARK-22107 ] - “as”应该是python快速入门文档中的“别名”

·        [ SPARK-22109 ] - 按看起来像时间戳的列分区的阅读表具有不一致的模式推断

·        [ SPARK-22129 ] - Spark发布脚本忽略GPG_KEY并始终使用默认密钥进行签名

·        [ SPARK-22135 ] - spark-dispatcher中的度量标准未正确注册

·        [ SPARK-22141 ] - 在检查Cartesian产品之前传播空关系

·        [ SPARK-22143 ] - OffHeapColumnVector可能会泄漏内存

·        [ SPARK-22145 ] - 驱动程序在mesos上重新启动(监督)

·        [ SPARK-22146 ] - 读取包含'%'的ORC文件时的FileNotFoundException

·        [ SPARK-22158 ] - convertMetastore不应该忽略存储属性

·        [ SPARK-22159 ] -spark.sql.execution.arrow.enable和spark.sql.codegen.aggregate.map.twolevel.enable - >启用

·        [ SPARK-22162 ] - 执行程序和驱动程序在新的RDD提交协议期间使用不一致的作业ID

·        [ SPARK-22165 ] - 在分区列中输入日期,时间戳和日期之间的冲突

·        [ SPARK-22167 ] - Spark包装W / R发行版问题

·        [ SPARK-22169 ] - 支持字节长度字面量作为标识符

·        [ SPARK-22171 ] - 当表格所有者为空时,描述表格扩展失败

·        [ SPARK-22172 ] - 当外部洗牌服务端口已被使用时,工作人员挂起

·        [ SPARK-22176 ] - Dataset.show(Int.MaxValue)触发整数溢出

·        [ SPARK-22178 ] - 刷新表不会刷新持久视图的基础表

·        [ SPARK-22206 ] - R中的gapply无法在空分组列上工作

·        [ SPARK-22209 ] - PySpark无法识别子模块的进口

·        [ SPARK-22211 ] - FullOuterJoin的LimitPushDown优化会产生错误的结果

·        [ SPARK-22218 ] - 在应用程序重新尝试时,spark shuffle服务无法更新秘密

·        [ SPARK-22222 ] - 修复BufferHolder中的ARRAY_MAX并添加测试

·        [ SPARK-22223 ] - ObjectHashAggregate引入了不必要的洗牌

·        [ SPARK-22224 ] - 覆盖KeyValueGroupedDataset&RelationalGroupedDataset的toString

·        [ SPARK-22227 ] - 如果在shuffle中调用DiskBlockManager.getAllBlocks可能会失败

·        [ SPARK-22230 ] - agg(last('attr))为流式传输提供了奇怪的结果

·        [ SPARK-22243 ] - 流式作业无法从检查点重新启动

·        [ SPARK-22249 ] -UnsupportedOperationException:在缓存数据框时为empty.reduceLeft

·        [ SPARK-22251 ] - 当codegen关闭时,公制“累计时间”不正确

·        [ SPARK-22252 ] - FileFormatWriter应该尊重输入的查询模式

·        [ SPARK-22254 ] - 在CompactBuffer中清除“growToSize”的实现

·        [ SPARK-22257 ] - 保留ExpressionSet中的所有非确定性表达式。

·        [ SPARK-22267 ] - 当列顺序不同时,Spark SQL错误地读取ORC文件

·        [ SPARK-22271 ] - 描述数值变量的“mean”值的结果为“null”

·        [ SPARK-22273 ] - 修复HashMapGenerators中的键/值模式字段名称。

·        [ SPARK-22280 ] - 改进StatisticsSuite以正确测试`convertMetastore`

·        [ SPARK-22281 ] - 处理R方法打破签名更改

·        [ SPARK-22284 ] - 类“org.apache.spark.sql.catalyst.expressions.GeneratedClass$ SpecificUnsafeProjection \”的代码增长超过64 KB

·        [ SPARK-22287 ] - SPARK_DAEMON_MEMORY未被MesosClusterDispatcher

·        [ SPARK-22289 ] - 无法保存具有系数边界的LogisticRegressionModel

·        [ SPARK-22290 ] - 在同一个JVM中启动第二个上下文无法获取新的Hive委派令牌

·        [ SPARK-22291 ] - Cassandra的Postgresql UUID []:转换错误

·        [ SPARK-22300 ] - 将ORC更新为1.4.1

·        [ SPARK-22303 ] - 获取java.sql.SQLException:对于BINARY_DOUBLE,不支持的类型101

·        [ SPARK-22305 ] -HDFSBackedStateStoreProvider在尝试恢复状态时失败并显示StackOverflowException

·        [ SPARK-22306 ] - INFER_AND_SAVE覆盖Parquet Metastore表中的重要元数据

·        [ SPARK-22319 ] - SparkSubmit在调用loginUserFromKeytab之前调用getFileStatus

·        [ SPARK-22326 ] - 删除不必要的hashCode并等于方法

·        [ SPARK-22327 ] - R CRAN检查在非最新分支上失败

·        [ SPARK-22328 ] - ClosureCleaner错过引用的超类字段,为它们提供空值

·        [ SPARK-22330 ] - 序列化映射的线性containsKey操作。

·        [ SPARK-22332] - NaiveBayes单元测试偶尔失败

·        [ SPARK-22333 ] - ColumnReference的优先级应高于timeFunctionCall(CURRENT_DATE,CURRENT_TIMESTAMP)

·        [ SPARK-22344 ] - 防止使用/ tmp进行RCMD检查

·        [ SPARK-22349 ] - 在堆模式下,当从池中分配内存时,我们应该使用'MEMORY_DEBUG_FILL_CLEAN_VALUE`来填充内存

·        [ SPARK-22355 ] - Dataset.collect不是线程安全的

·        [ SPARK-22356 ] - 数据源表应支持数据和分区模式之间的重叠列

·        [ SPARK-22370 ] - 应该在Driver中捕获配置值。

·        [ SPARK-22373] -org.codehaus.janino.IClass.isAssignableFrom中的间歇性NullPointerException

·        [ SPARK-22375 ] - 如果在测试过程中通过setup.py安装了egg,测试脚本可能会失败

·        [ SPARK-22376 ] - 如果使用Python 3运行,run-tests.py在exec-sbt时失败

·        [ SPARK-22377 ] - Maven夜间快照jenkins工作由于lsof而在多名工作人员中被打破

·        [ SPARK-22393 ] - spark-shell无法在类构造函数,扩展子句中找到导入的类型

·        [ SPARK-22395 ] - 修正熊猫时间戳值的行为,以尊重会话时区

·        [ SPARK-22396 ] - Hive支持未启用时未解析的运营商InsertIntoDir for Hive格式

·        [ SPARK-22403 ] - StructuredKafkaWordCount示例在YARN集群模式下失败

·        [ SPARK-22410 ] - 当一行缩小时,Pyspark UDF溢出

·        [ SPARK-22417 ] - 来自pandas.DataFrame的createDataFrame将datetime64值读取为long

·        [ SPARK-22429 ] - 由于NullPointerException导致失败后,流检查点代码不会重试

·        [ SPARK-22431 ] - 使用非法类型创建永久视图

·        [ SPARK-22437 ] - jdbc写入无法设置默认模式

·        [ SPARK-22442 ] - 使用非标准字符时,产品编码器生成的模式与案例类字段名称不匹配

·        [ SPARK-22443 ] - AggregatedDialect不会覆盖JdbcDialects中的quoteIdentifier和其他方法

·        [ SPARK-22446 ] - 优化器导致StringIndexerModel的索引器UDF对过滤的数据不正确地抛出“Unseen label”异常。

·        [ SPARK-22454 ] -ExternalShuffleClient.close()应检查为空

·        [ SPARK-22462 ] - 对数据帧执行foreach操作后SQL指标丢失

·        [ SPARK-22463 ] - 将SPARK_CONF_DIR中的hadoop / hive / hbase / etc配置文件丢失到分布式存档

·        [ SPARK-22464 ] - <=>不受Hive Metastore分区谓词下推支持

·        [ SPARK-22465 ] - 两个不成比例的RDD可能导致2G限制BUG

·        [ SPARK-22466 ] - SPARK_CONF_DIR不是由Spark的默认值启动脚本设置的

·        [ SPARK-22469 ] - 与字符串和数字相比的准确性问题

·        [ SPARK-22472 ] - 数据集为空基元类型生成随机值

·        [ SPARK-22479 ] - SaveIntoDataSourceCommand记录jdbc凭证

·        [ SPARK-22484 ] - PySparkDataFrame.write.csv(quote =“”)使用nullchar作为引用

·        [ SPARK-22487 ] - 在整个火花项目中没有发现HIVE_EXECUTION_VERSION的用法

·        [ SPARK-22488 ] - SparkSession内部表()API中的视图分辨率

·        [ SPARK-22489 ] - 如果用户明确指定,不应改变广播加入buildSide

·        [ SPARK-22495 ] - 修复在Windows上设置SPARK_HOME变量

·        [ SPARK-22511 ] - 更新maven中央回购地址

·        [ SPARK-22516 ] - CSV读取中断:当“multiLine”=“true”时,如果“注释”选项设置为最后一行的第一个字符

·        [ SPARK-22525 ] - Spark下载页面不会更新基于软件包名称的软件包类型

·        [ SPARK-22533 ] - SparkConfigProvider不处理弃用的配置密钥

·        [ SPARK-22535 ] -PythonRunner.MonitorThread应该在杀死Python工作者之前花一点时间完成任务

·        [ SPARK-22538 ] - SQLTransformer.transform(inputDataFrame)uncaches inputDataFrame

·        [ SPARK-22540 ] - HighlyCompressedMapStatus的avgSize不正确

·        [ SPARK-22544 ] - FileStreamSource应该使用自己的hadoop conf来调用globPathIfNecessary

·        [ SPARK-22548 ] - 错误的嵌套AND表达式被推送到JDBC数据源

·        [ SPARK-22557 ] - 明确使用ThreadSignaler

·        [ SPARK-22559 ] - 历史记录服务器:处理打开损坏的listing.ldb的异常

·        [ SPARK-22572 ] - spark-shell不会重新初始化:重放

·        [ SPARK-22574 ] - 错误的请求导致Spark Dispatcher无效

·        [ SPARK-22583 ] - 第一个委托代币更新时间不是Mesos更新时间的75%

·        [ SPARK-22585 ] - 预期的jar路径的URL编码?

·        [ SPARK-22587 ] - 如果fs.defaultFS和应用程序jar是不同的url,则Spark作业失败

·        [ SPARK-22591 ] - GenerateOrdering不应该改变ctx.INPUT_ROW

·        [ SPARK-22605 ] - OutputMetrics为DataFrame写入而清空

·        [ SPARK-22607 ] - 为测试避免StackOverflowError,一致地设置较大的堆栈大小

·        [ SPARK-22615 ] - 在PropagateEmptyRelation中处理更多案例

·        [ SPARK-22618 ] - 与动态分配一起使用时,RDD.unpersist可能导致致命异常

·        [ SPARK-22635 ] - 读取包含特殊字符的ORC文件时再次发生FileNotFoundException

·        [ SPARK-22637 ] - CatalogImpl.refresh()对于视图具有二次复杂性

·        [ SPARK-22642 ] - 如果发生异常,createdTempDir将不会被删除

·        [ SPARK-22651 ] - 调用ImageSchema.readImages启动多个Hive客户端

·        [ SPARK-22653 ] - 在CoarseGrainedSchedulerBackend.executorDataMap中注册的executorAddress为null

·        [ SPARK-22654 ] - 从HiveExternalCatalogVersionsSuite中的ASF镜像重试下载Spark

·        [ SPARK-22655 ] - 在关闭期间在PythonRunner中静默任务而不是完成任务

·        [ SPARK-22662 ] - 重写谓词子查询后无法修剪列

·        [ SPARK-22668 ] -CodegenContext.splitExpressions()用全局变量参数创建不正确的结果

·        [ SPARK-22681 ] - 在结果阶段,每个任务只应更新一次累加器

·        [ SPARK-22686 ] - DROP TABLE IF EXISTS不应显示AnalysisException

·        [ SPARK-22700 ] - Bucketizer.transform错误地删除包含NaN的行

·        [ SPARK-22710 ] -ConfigBuilder.fallbackConf不会触发onCreate函数

·        [ SPARK-22712 ] - 在原生OrcFileFormat中使用`buildReaderWithPartitionValues`

·        [ SPARK-22721 ] - 重置后的BytesToBytesMap峰值内存使用率不准确()

·        [ SPARK-22764 ] - 片状测试:SparkContextSuite“自定义原因取消阶段/作业”

·        [ SPARK-22777 ] - 为Kubernetes构建的Docker容器不允许运行entrypoint.sh

·        [ SPARK-22778 ] - 主服务器上的Kubernetes调度程序无法成功运行应用程序

·        [ SPARK-22779 ] - ConfigEntry的默认值实际上应该是一个值

·        [ SPARK-22788 ] - HdfsUtils.getOutputStream使用不存在的Hadoopconf“hdfs.append.support”

·        [ SPARK-22791 ] - 说明的Redact输出

·        [ SPARK-22793 ] - Spark Thrift Server中的内存泄漏

·        [ SPARK-22811 ] - pyspark.ml.tests缺少py4j导入。

·        [ SPARK-22813 ] - 当/ usr / sbin / lsof不存在时,run-tests.py失败

·        [ SPARK-22815 ] - 在优化计划中保持PromotePrecision

·        [ SPARK-22817 ] - 在AppVeyor中使用固定的TestThat版本进行SparkR测试

·        [ SPARK-22818 ] - csv逃避报价逃脱

·        [ SPARK-22819 ] - 下载页面 - 更新软件包类型什么也不做

·        [ SPARK-22824 ] - Spark结构化流媒体源特性突破变化

·        [ SPARK-22825 ] - 将数组转换为字符串的结果不正确

·        [ SPARK-22827 ] - 避免在溢出异常情况下抛出OutOfMemoryError

·        [ SPARK-22834 ] - 使插入命令有真正的孩子来解决用户界面问题

·        [ SPARK-22836 ] - 执行者页面未显示驱动程序日志链接

·        [ SPARK-22837 ] - 会话超时检查器在SessionManager中不起作用

·        [ SPARK-22843 ] - R localCheckpoint API

·        [ SPARK-22846 ] - 配置单元Metastore中表的所有者属性为空

·        [ SPARK-22849 ] - ivy.retrieve模式也应该考虑`分类器“

·        [ SPARK-22850 ] - SHS中的执行程序页面不显示驱动程序

·        [ SPARK-22852] - 由于-Xlint:未经检查的标志传递给javadoc,sbt publishLocal失败

·        [ SPARK-22854 ] - AppStatusListener应该由SparkListenerLogStart获取Spark版本

·        [ SPARK-22855 ] - scala 2.12下的Sbt publishLocal失败,原因是标签包中的javadoc注释无效

·        [ SPARK-22861 ] - SQLAppStatusListener应该跟踪多任务执行中的所有阶段

·        [ SPARK-22862 ] - 懒惰消除编码器中列丢失的文档。

·        [ SPARK-22864 ] - 片状测试:ExecutorAllocationManagerSuite“不再需要时取消暂挂执行器”

·        [ SPARK-22866 ] - Kubernetes dockerfile路径需要更新

·        [ SPARK-22875 ] - 组装版本无法获得高用户ID

·        [ SPARK-22889 ] - 如果存在较旧的Spark安装,则CRAN检查可能会失败

·        [ SPARK-22891 ] - 使用udf时的NullPointerException

·        [ SPARK-22899 ] - 流数据上的OneVsRestModel变换失败。

·        [ SPARK-22901 ] - 为Python UDF添加非确定性

·        [ SPARK-22905 ] - 修复行顺序问题的ChiSqSelectorModel,GaussianMixtureModel保存实现

·        [ SPARK-22916 ] - 如果用户没有指定,则不应该偏向构建权限

·        [ SPARK-22920 ] - 针对current_date,current_timestamp,rtrim / ltrim / trim使用trimString的R sql函数

·        [ SPARK-22924 ] - 用于sortWithinPartitions的R DataFrame API

·        [ SPARK-22932 ] - 重构AnalysisContext

·        [ SPARK-22933 ] - R用于水印,触发器,分区的R结构化流媒体API

·        [ SPARK-22934 ] - 使可选子句对CREATE TABLE SQL语句不敏感

·        [ SPARK-22940 ] - 测试套件HiveExternalCatalogVersionsSuite在没有安装wget的平台上失败

·        [ SPARK-22946 ] - 递归withColumn调用导致org.apache.spark.sql.catalyst.expressions.GeneratedClass $SpecificUnsafeProjection“增长超过64 KB

·        [ SPARK-22948 ] - “SparkPodInitContainer”不应处于“休息”包中

·        [ SPARK-22949 ] - 减少TrainValidationSplit的内存需求

·        [ SPARK-22950 ] - 用户类路径首先导致找不到类的异常

·        [ SPARK-22951 ] - 在emptyDataFrame上的dropDuplicates()之后的count()会返回不正确的值

·        [ SPARK-22953 ] - 使用init-containers时,Spark pod中的密钥卷重复

·        [ SPARK-22956 ] - 联盟流故障转移导致`IllegalStateException`

·        [ SPARK-22957 ] - 如果行数超过MaxInt,则会出现严重断裂

·        [ SPARK-22961 ] - 在2.3中不再选择常量列作为约束

·        [ SPARK-22962 ] - 如果使用本地文件,Kubernetes应用程序将失败

·        [ SPARK-22967 ] - 由Windows格式路径引起的Windows上的VersionSuite失败

·        [ SPARK-22972 ] - 找不到数据源提供程序org.apache.spark.sql.hive.orc的相应Hive SerDe。

·        [ SPARK-22973 ] - 将地图转换为字符串的结果不正确

·        [ SPARK-22975 ] - MetricsReporter在没有进度报告时产生NullPointerException

·        [ SPARK-22976 ] - 工作人员清理可以删除正在运行的驱动程序目录

·        [ SPARK-22977 ] - DataFrameWriter操作不会在SQL选项卡中显示详细信息

·        [ SPARK-22981 ] - 将结构转换为字符串的结果不正确

·        [ SPARK-22982 ] - 从FileDownloadChannel中删除不安全的异步close()调用

·        [ SPARK-22983 ] - 不要使用空分组表达式将聚合过滤器推到下面

·        [ SPARK-22984 ] - 修复GenerateUnsafeRowJoiner中不正确的位图复制和偏移位移

·        [ SPARK-22985 ] - 修复from_utc_timestamp /to_utc_timestamp codegen中的参数转义错误

·        [ SPARK-22986 ] - 避免实例化广播变量的多个实例

·        [ SPARK-22990 ] - 在JobsTab和StagesTab中修复方法isFairScheduler

·        [ SPARK-22992 ] - 删除Kubernetes模式下的集群域假定

·        [ SPARK-22998 ] - 未设置执行程序窗格中SPARK_MOUNTED_CLASSPATH的值

·        [ SPARK-23000 ] - Spark 2.3中的Flask测试套件DataSourceWithHiveMetastoreCatalogSuite

·        [ SPARK-23001 ] - 运行desc数据库时的NullPointerException

·        [ SPARK-23009 ] - PySpark不应该假定Pandas cols是基础类型

·        [ SPARK-23018 ] - PySpark creatDataFrame会导致熊猫分配给参考副本的警告

·        [ SPARK-23019 ] - 片状测试:org.apache.spark.JavaJdbcRDDSuite.testJavaJdbcRDD

·        [ SPARK-23021 ] - AnalysisBarrier不应切断Parsed Logical Plan的解释输出

·        [ SPARK-23023 ] - 在showString中打印Array / Map / Struct的结果不正确

·        [ SPARK-23025 ] - DataSet与scala.Null导致异常

·        [ SPARK-23035 ] - 修复TempTableAlreadyExistsException的不正确信息

·        [ SPARK-23037 ] - RFormula不应该使用已弃用的OneHotEncoder,并且应该在管道中包含VectorSizeHint

·        [ SPARK-23038 ] - 更新docker / spark-test(JDK / OS)

·        [ SPARK-23049 ] -`spark.sql.files.ignoreCorruptFiles`应该适用于ORC文件

·        [ SPARK-23051 ] - Spark UI中的工作描述被破坏

·        [ SPARK-23053 ] - 在DagScheduler.submitMissingTasks中计算TaskBinarySerialization和任务分区应保持相同的RDD检查点状态

·        [ SPARK-23054 ] - 将UserDefinedType转换为String的结果不正确

·        [ SPARK-23055 ] -KafkaContinuousSourceSuite Kafka列类型测试失败

·        [ SPARK-23065 ] - 在Spark 2.3.0 RC1中为空的R API文档

·        [ SPARK-23079 ] - 修正了带有别名的查询约束传播

·        [ SPARK-23080 ] - 改进内置功能的错误信息

·        [ SPARK-23087 ] - 条件不变时,CheckCartesianProduct限制性过强折叠为false / null

·        [ SPARK-23089 ] - 当父目录不存在时,“无法创建操作日志会话目录”

·        [ SPARK-23095 ] - 标量子查询的解相关失败,返回java.util.NoSuchElementException。

·        [ SPARK-23103 ] - 当索引值具有负值时,LevelDB存储不能正确迭代

·        [ SPARK-23119 ] - 修复DataSource V2中的API注释以进行流式传输

·        [ SPARK-23121 ] - Spark Streaming应用程序运行一段时间后,访问“/ jobs /”或“/ jobs / job /时是否错误地报告了该页面?Id = 13'和ui无法访问。

·        [ SPARK-23133 ] - Spark选项不会传递到Docker上下文中的Executor

·        [ SPARK-23135 ] - 累加器在阶段页面中不能正确显示

·        [ SPARK-23140 ] - HiveSessionStateBuilder中缺少DataSourceV2Strategy

·        [ SPARK-23147 ] - 当没有完成任务时,舞台页面会引发异常

·        [ SPARK-23148 ] - 具有multiline = true的spark.read.csv在路径包含空格时给出FileNotFoundException

·        [ SPARK-23157 ] - withColumn由于映射的DataSet而失败

·        [ SPARK-23177 ] - PySpark无参数UDF在独立后应用时引发异常

·        [ SPARK-23184 ] - 当某个阶段缺失时,所有工作页面都会被打破

·        [ SPARK-23186 ] - 在加载驱动程序之前首先初始化DriverManager

·        [ SPARK-23192 ] - 使用缓存数据后提示丢失

·        [ SPARK-23198 ] - 修复KafkaContinuousSourceStressForDontFailOnDataLossSuite测试ContinuousExecution

·        [ SPARK-23205 ] - 对于四通道图像,ImageSchema.readImages不正确地将alpha通道设置为255

·        [ SPARK-23207 ] - 在DataFrame上随机播放+重新分区可能会导致错误答案

·        [ SPARK-23208 ] - GenArrayData产生非法代码

·        [ SPARK-23209 ] - 如果Hive jar不是类路径,则HiveDelegationTokenProvider会引发异常

·        [ SPARK-23214 ] - 缓存的数据不应该带有额外的提示信息

·        [ SPARK-23220 ] - 广播提示不适用于流式左反连接

·        [ SPARK-23222 ] - 片状测试:DataFrameRangeSuite

·        [ SPARK-23223 ] - 堆叠数据集变换表现不佳

·        [ SPARK-23230] - 当hive.default.fileformat是其他类型的文件类型时,创建textfile表会导致serde错误

·        [ SPARK-23233 ] - 在Python UDF中至少一次调用时,UDF不会被设置

·        [ SPARK-23242 ] - 不要在KafkaSourceSuiteBase中运行两次测试

·        [ SPARK-23245 ] -KafkaContinuousSourceSuite可能会永久挂起

·        [ SPARK-23250 ] - 用于DataFrameWriter的JavaDoc / ScalaDoc中的拼写错误

·        [ SPARK-23267 ] - 将spark.sql.codegen.hugeMethodLimit增加到65535

·        [ SPARK-23274 ] - ReplaceExceptWithFilter在同一列上过滤的数据帧上失败

·        [ SPARK-23275 ] - 使用OOM在笔记本电脑(Mac)上本地运行时,蜂巢/测试失败

·        [ SPARK-23281 ] - 当复合排序依据子句引用原始列和别名时,查询以不正确的顺序生成结果

·        [ SPARK-23289 ] -OneForOneBlockFetcher.DownloadCallback.onData可能只写入一部分数据

·        [ SPARK-23290 ] - 转换为熊猫数据框时,无意中更改了DateType的处理方式

·        [ SPARK-23293 ] - 数据源v2自加入失败

·        [ SPARK-23301 ] - 破坏了具有任意表达式的数据源v2列修剪

·        [ SPARK-23307 ] - Spark UI在清理它们之前应该使用已完成的时间戳对作业/阶段进行排序

·        [ SPARK-23310 ] - 由SPARK-21113引入的Perf回归

·        [ SPARK-23315 ] - 未能获得规范化数据源v2相关计划的输出

·        [ SPARK-23316 ] - 针对IN查询达到最大迭代后的AnalysisException

·        [ SPARK-23326 ] - 任务的“计划程序延迟”令人困惑

·        [ SPARK-23330 ] - Spark UI SQL执行页面引发NPE

·        [ SPARK-23334 ] - 使用返回类型StringType()修复pandas_udf以在Python 2中正确处理str类型。

·        [ SPARK-23345 ] - 片状测试:FileBasedDataSourceSuite

·        [ SPARK-23348 ] - 使用saveAsTable追加数据应调整数据类型

·        [ SPARK-23358 ] - 当分区数量大于2 ^ 28时,将导致错误结果

·        [ SPARK-23360 ] - 使用非箭头代码路径时SparkSession.createDataFrame时间戳可能不正确

·        [ SPARK-23376 ] - 使用BytesToBytesMap创建UnsafeKVExternalSorter可能会失败

·        [ SPARK-23377 ] - 具有多列持久性bug的Bucketizer

·        [ SPARK-23384 ] - 找不到未完成(已完成)的应用程序时,上次更新的时间未格式化,客户端本地时区未显示在历史记录服务器Web UI中。

·        [ SPARK-23387 ] - backportassertPandasEqual分支2.3。

·        [ SPARK-23388 ] - 支持VectorizedColumnReader中的Parquet二进制DecimalType

·        [ SPARK-23391 ] - 可能导致某些整数乘法溢出

·        [ SPARK-23394 ] - 存储信息的缓存分区不考虑复制(但sc.getRDDStorageInfo确实)

·        [ SPARK-23399 ] - 首先为OrcColumnarBatchReader注册一个任务完成监听器

·        [ SPARK-23400 ] - 为ScalaUDF添加额外的构造函数

·        [ SPARK-23413 ] - 根据舞台页面上的主机/执行者ID排序任务不起作用

·        [ SPARK-23416 ] - flaky测试:org.apache.spark.sql.kafka010.KafkaSourceStressForDontFailOnDataLossSuite.stress测试failOnDataLoss = false

·        [ SPARK-23419 ] - 数据源v2写入路径应该直接重新引发中断异常

·        [ SPARK-23421 ] - 记录SPARK-22356中的行为变化

·        [ SPARK-23422] - 当SPARK_PREPEND_CLASSES设置为1时,YarnShuffleIntegrationSuite失败

·        [ SPARK-23468 ] - 未能使用旧洗牌服务进行验证

·        [ SPARK-23470 ] -org.apache.spark.ui.jobs.ApiHelper.lastStageNameAndDescription太慢

·        [ SPARK-23475 ] - “阶段”页面不显示任何完成的阶段

·        [ SPARK-23481 ] - 工作页面显示某些阶段被驱逐时的错误阶段

·        [ SPARK-23484 ] - 修复KafkaContinuousReader中可能的竞争条件

发布了378 篇原创文章 · 获赞 19 · 访问量 16万+

猜你喜欢

转载自blog.csdn.net/qq_32252917/article/details/103683431