DRL-ISP: Multi-Objective Camera ISP with Deep Reinforcement Learning

摘要

在本文中,我们提出了一个多目标摄像头ISP框架,利用深度强化学习(DRL)和摄像头ISP工具箱,由基于网络的和传统的ISP工具组成。所提出的基于drl的相机ISP框架迭代地从工具箱中选择适当的工具,并将其应用于图像,以最大化给定的视觉任务特定奖励函数。为此,我们实现了总共51个ISP工具,包括曝光校正、色彩和色调校正、白平衡、锐化、去噪等。我们还提出了一种高效的DRL网络架构,可以提取图像的各个方面,并在图像与大量动作之间建立严格的映射关系。我们提出的基于drl的ISP框架根据每个视觉任务(如RAW-to-RGB图像恢复、2D物体检测和单目深度估计)有效地提高了图像质量。

简介

近年来,随着深度学习在各种计算机视觉任务中表现出优异的性能,视觉传感器的重要性被重新强调。尽管可见光相机很重要,但其存在硬件限制,如动态范围窄和传感器灵敏度低。对于这个问题,传统相机执行内置的图像信号处理(ISP),通过应用诸如去模糊、去噪和颜色增强等顺序修改来提高图像质量。然而,内置ISP通常由一个固定的图像处理管道和工厂调优的超参数组成。因此,内置ISP通常不能保证为各种计算机视觉任务提供最佳质量的图像。

另一方面,最近的基于深度学习的方法显示了显著的结果,如直接raw到rgb恢复[1],[2],去噪[3],超分辨率[4],[5],白平衡[6],[7],色调映射[8],[9],曝光校正[10],[11],[12]通过单个深度神经网络。但是,它们需要很高的计算成本,并且只能替代摄像机ISP管道的特定部分。

基于观察,我们提出了一个新的相机ISP框架,利用深度强化学习(DRL)和相机ISP工具箱,包括传统的图像处理工具和基于网络的工具。我们的DRL框架基于当前图像状态应用最合适的ISP工具,以最大限度地利用给定的demosaiced RAW图像实现目标奖励函数。基于设计的奖励函数,DRL代理可以生成适用于各种任务的图像,如一般的RAW-to-RGB恢复,对象检测和深度估计。

主要贡献

  • 提出了一种新的基于drl的相机ISP框架,该框架可以根据当前图像状态和目标奖励函数有效地执行合适的动作。

  • 提出了一个相机ISP工具箱及其训练方法。该工具箱由轻量级CNN工具和传统工具组成,这些工具可以表示摄像机ISP管道的每个块。

  • 提出了一种高效的DRL网络架构,提取图像的各个方面,并在图像与大量动作空间之间建立刚性映射关系。

  • 验证了我们提出的用于RAW-to-RGB图像恢复、2D物体检测和单目深度估计任务的方法。该方法通过对图像进行适当的修改,连续提高目标任务的性能。

图1

传统的相机ISP框架(a)通常由一个非灵活的图像处理管道和工厂调优的超参数组成。另一方面,提议的基于drl的ISP框架(b)具有一个灵活的管道,可以通过依次选择所需的ISP工具(c)自适应地处理给定的图像。

相关工作

A.相机ISP参数优化

传统上,RGB图像是通过相机内置的ISP芯片组从RAW图像中恢复的,该芯片组由各种图像处理块组成。近年来,针对[14]、[15]、[16]、[17]、[18]、[19]、[20]等不同目标,研究了多种方法对摄像头ISP的自动优化。ISP芯片组的每个图像处理块通常是一个黑盒。因此,有研究通过黑盒优化[14]、进化算法[18]、强化学习[19]对芯片组超参数进行优化。其他方法[17],[15]将每个块或整个ISP管道的操作参数化为一个神经网络。然后,通过近似神经网络对超参数进行优化。

有时,他们优化超参数用于低级图像增强[17],[15],对象检测[16],人类偏好[20]和高级场景理解[21],[19]。然而,他们的方法依赖于一个固定的ISP管道和超参数。因此,它们不能轻易地添加新的图像处理模块,并需要根据新的图像或新的环境自适应地改变参数。

B.学习相机ISP管道

最近,基于神经网络的方法[22],[1],[2],[23],[24]正在兴起,通过单个深度神经网络直接从RAW感官数据中恢复高质量的RGB图像。他们的基本想法是将整个ISP管道,包括去噪、去噪、锐化、颜色校正和白平衡,嵌入到单个深度神经网络中。他们的主要目标是曝光良好的图像[2],[22],专家润色图像[23],以及良好的相机图像[1],[24]。

相反,一些研究只提出了近似ISP管道的特定部分,如白平衡[6],[7],色调映射[8],[9],曝光校正[10],[11],[12]。这些全部和部分替换比典型的ISP管道和特定模块表现出更高的性能。然而,网络通常计算量大,不可能专门用于不可微的目标(例如,良好曝光和边缘保持的图像,物体检测,或高级场景理解)。

方法概述

A.问题定义

我们将相机ISP管道视为一个序列决策问题,根据当前图像状态st迭代地决定适当的行动at。给定一个去马赛克 RAW图像,我们的目标是使增强的最优图像Iopt为目标奖励函数R(·)。我们将每个图像信号处理(ISP)工具定义为一个动作at,从降级的原始图像中提取的图像特征fag作为一个状态st,目标任务特定的目标函数作为奖励函数R(·)

B.摄像头ISP工具箱

所提出的框架由摄像头ISP工具箱和工具选择器组成,如图2和表1所示。我们设计的工具箱包含了每个相机ISP模块的功能,如白平衡、去噪、锐化、色彩和色调校正。所提出的工具箱利用传统的和基于学习的方法来利用深度网络的高性能和传统工具的可控性。所有基于网络的工具都以自我监督的方式进行训练。

C.基于DRL的ISP工具选择器

该工具选择器由特征提取器和深度强化学习(DRL)代理组成。特征提取器提取由强度、梯度和语义信息组成的代表性特征向量。然后,DRL代理选择合适的ISP工具来最大化目标奖励函数。DRL代理使用[25]中提出的策略梯度算法进行训练。

相机ISP工具箱

基于cnn的工具显示了高表示能力,包括复杂的多步图像处理管道,同时显示了出色的结果。然而,它们通常产生单向映射结果,无法控制得到另一种结果,有时还会导致不希望看到的结果。另一方面,尽管传统工具的性能并不比CNN工具好,但传统图像处理工具已经证明了其计算效率、稳定性和可控性。因此,我们设计了相机ISP工具箱,包括传统的和基于学习的工具,以提高性能、稳定性和可控性,如表1所示。

A.传统ISP工具

我们从openCV[28]和Korina库[29]中实现了亮度、对比度、颜色、噪声和模糊处理方法。我们认为这种实现可以正确地表示相机ISP的每个块,如白平衡、去噪、锐化和颜色校正。同样的理念也被纳入基于网络的工具设计中,如曝光校正、色彩和色调校正(CTC)、白平衡(WB)、去噪、去模糊、超分辨率(SR)和去jpeg网络。

B.基于学习的ISP工具

1)单个工具训练

为了制作轻量级的基于网络的ISP工具,我们采用了[30](RL_restore)中提出的浅层3层和8层神经网络。针对每个目标任务,我们以自我监督学习的方式训练每个网络。给定一个原始图像Iori,我们根据目标网络工具类型制作一个失真的图像Idis。例如,如果我们想训练去模糊网络,我们对原始图像应用模糊核,得到一个失真的图像。在此之后,我们训练网络以L1损失和特征重建损失[31]从失真图像Idis中恢复原始图像Iori,如下所示:

其中α和β是每个损失函数的尺度因子。

2)集体工具培训

如[32],[30]中所述,两个单独训练的网络级联通常会导致不希望看到的伪影。因此,我们集体训练所有基于网络的工具,以一种自我监督的方式缓解工件问题。如图4所示,其基本思想是训练基于网络的工具来处理看不见的工件,同时不忘记它们预先学习的恢复能力。与[30]相比,我们的集体工具训练利用了全局和局部恢复轨迹,如下所示:

ε是尺度因子,I1G表示按照全局轨迹恢复的图像,I1L表示按照局部轨迹恢复的图像,在集体工具训练的基础上,网络可以处理未见工件,同时增强全局恢复,并保留其预学习的局部恢复轨迹能力。

基于DRL的工具选择器

所提出的工具选择器包括一个特征提取器F和DRL代理,如图2所示。在每一集的开始,一个失真的RAW输入图像I1被馈送到工具选择器。在每个时间步t中,特征提取器F提取特征向量ft=[fs,fi,fg],

DRL代理的策略网络πφ选择正确的动作在at~π(ft),相应的工具at应用于给定的图像,然后,给出一个经过处理的图像It+1 = at(It)和一个奖励rt+1 = R(It, It+1)。当时间步长t达到最大时间步长t时,或者选择STOP动作时,episode结束。

A.特征提取器

就DRL-agent而言,表示良好的状态向量是决定适当动作的关键先决条件。我们通过经验发现,隐式特征学习网络,如卷积神经网络(CNN),由于缺乏强化学习的监督,往往会提取信息量较少的特征向量,导致整体性能较低,如Tab.VI -(a)中所验证的那样。因此,我们设计了一个显式的特征提取模块,从给定图像的强度、梯度和语义空间中提取每个特征向量,以表示图像的各种属性。

给定输入图像I,通过灰度变换和Sobel算子将其转换为强度和梯度图像。然后,我们将多尺度直方图方法[33]应用于强度和梯度图像,提取全局和局部信息。对于语义特征,我们使用ImageNet预训练的Alexnet[34]。然后,通过聚合所有特征向量来确定状态向量;St = f t,其中f t是由强度fI、梯度fg和语义特征fs聚合而成的特征向量

B. DRL代理

我们的DRL代理的网络架构类似于原始的Soft Actor-Critic (SAC)[25],只是我们使用离散动作空间[35]。DRL代理由一个孪生q网络Qθ和一个策略网络πφ组成,如图2所示。所有网络都从特征提取器f中提取特征向量f ag,孪生Q 网络估计两个q值q1, q2,而策略网络估计所有动作的概率。在训练阶段,为了训练的稳定性选择较小的q值作为q值Qθ(st)。基于策略梯度算法训练整个网络,如下所示:

其中γ是折扣因子,D表示重放缓冲,κ为熵尺度因子。

C.奖励

奖励函数可以根据不同的目的自由定义,不需要考虑可微性。在本节中,我们根据目标应用定义了具有代表性的奖励函数,例如RAW-to-RGB恢复、目标检测和单视图深度估计。奖励函数的基本形式如下:

其中M(·)是一个度量函数,rs是每个度量的比例因子。在这里,rs可以是一些指标的负值。奖励函数计算之前和当前图像的度量值之间的差值。各种任务的度量函数显示在Tab.2。

1) RAW-to-RGB恢复

对于RAW-to-RGB恢复任务,最直接的指标是测量恢复后的图像与原始RGB图像之间的差异。基于Ground-Truth(GT) RGB图像,DRL代理可以模仿相机ISP学习适当的图像修改方法。为此,我们使用PSNR标准,一种广泛使用的图像质量度量。此外,我们设计了非参考的奖励指标,如理想的颜色和强度指标。

2)视觉任务的RAW-to-RGB恢复

我们算法的一个最重要的特点是我们可以为各种目的定义奖励函数。因此,我们也验证了我们提出的目标检测和深度估计任务框架。我们设计了每个特定任务的奖励,例如基于精度-召回的目标检测和基于RMSE的深度估计任务的奖励。

目标检测

我们使用Mask R-CNN[36]和Resnet50作为参考检测模型。通常,mAP指标用于评估目标检测性能。

然而,由于mAP度量需要计算多个图像,我们定义了精度-召回(PR)和小对象精度-召回率(SOPR)指标函数。这两个函数都是通过给定边界框的精度Pr和召回Re值的加权和来计算的。SOPR指标给予小于一定阈值的小边界框区域的小对象更多的权重。wp和wr是比例因子,SO(k)是第k个对象的乘法因子,该对象具有1或根据对象大小固定标量wso。

深度估计

我们利用SC-SfMlearner[37]作为单视图深度估计任务的参考深度模型。由于深度评价结果与预测深度图质量直接相关,我们采用具有代表性的深度评价指标RMSE和δ1作为指标函数。我们相信另一种深度评价指标和无监督图像重建损失可以替代地用于奖励指标函数。

实验结果

A.实施细节

相机ISP工具箱

为了训练基于cnn的ISP工具,我们构建了一个由MS-COCO[38]、KITTI[39]和DIV2K[40]数据集组成的数据集。对于除白平衡工具之外的所有基于cnn的ISP工具,我们从训练集中随机选择了7000张图像,从测试集中随机选择了1100张图像。在此之后,通过添加噪声、模糊、jpeg压缩、调整大小、亮度抖动效果和反转相机管道[41],原始图像被扭曲用于目标ISP工具训练。这两种类型的网络(3层和8层)分别用低水平和高水平失真进行训练。对于白平衡数据集,我们使用渲染的WB数据集(Set2)[6]。

ISP工具选择器

我们利用上述ISP工具箱数据集进行DRL代理训练。但是,MS-COCO[38]、KITTI[39]和DIV2K[40]数据集不提供RAW图像。因此,我们首先利用相机管道还原方法[41]将原始RGB图像转换为RAW Bayer图像。然后,在转换后的RAW图像中添加亮度、噪声和模糊效果等随机增强,以反映真实世界的捕获过程。进一步的细节,如超参数将在补充视频中描述。

B. RAW-to-RGB恢复

利用相机ISP工具箱和PSNR奖励函数Mpsnr对DRL智能体进行训练,研究智能体如何从给定的RAW图像中恢复RGB图像。我们将训练过的工具选择器与传统的相机ISP管道[13]和高复杂度深度神经网络PyNet[1]进行了比较。PyNet在相同的raw - to- rgb数据集上进行了微调,该数据集用于200个epoch期间的ISP工具选择器培训。

实验结果在定量和定性上都非常显著,如图5和表3所示。

即使工具选择器只包含2个全连接层,所提出的框架通过自适应选择合适的ISP工具,有效地从给定的图像生成干净、清晰和丰富多彩的RGB图像。如图1-(c)所示,工具选择器根据当前图像状态逐步对图像进行处理,使奖励函数最大化。此外,通过添加颜色Mcolor或强度Minten奖励,agent可以生成各种风格的图像,如图6所示。

C. RAW-to-RGB目标检测

我们用目标检测奖励指标MPR和MSOPR在MS-COCO[38]训练集上训练工具选择器。之后,在MSCOCO[38]验证集上使用GT边界框标签对训练好的工具选择器进行评估。实验结果如图7和表4所示。有趣的是,工具选择器在没有PSNR奖励指标MPSNR的帮助下,从RAW图像恢复彩色RGB图像。

我们认为这是因为探测网络(即Mask R-CNN)使用彩色RGB图像进行训练(即MS-COCO), DRL代理倾向于产生检测网络首选的图像。如图7和表4小目标感知度量MSOPR通过使DRL-agent生成小目标细节增强图像显示出更好的检测能力。

D.单视图深度估计的RAW-to-RGB

我们使用深度奖励指标MRMSE和Mδ1在KITTI[39]训练集上训练工具选择器,之后,使用GT深度标签在KITTI测试集上评估经过训练的工具选择器,实验结果如图7和表5所示。

深度估计任务的工具选择器也与目标检测任务一样,在没有PSNR奖励度量MPSNR的情况下,根据深度奖励函数恢复出清晰多彩的图像。表5的结果表明,指标MRMSE优于Mδ1和默认相机ISP。这表明,有些指标可能不是很有效,即使它们是由GT标签直接监督的,谨慎的奖励功能设计对于更好的性能改进是必不可少的。

E.消融实验

1)工具选择器网络结构

在这项消融研究中,我们研究了所提出的工具选择器结构的有效性。该工具选择器由特征提取器和DRL代理组成。特征提取器从强度、梯度和语义级别利用确定性特征提取过程。实验结果如表6a所示。

我们还将我们的特征提取方法与具有可学习参数和随机固定参数[43]的DQN网络[42]进行了比较。通过添加代表不同图像属性的每个分支,PSNR性能单调递增。这种现象可以解释为每个特征向量在状态st和动作空间之间建立了更明确的关系。例如,梯度特征可能有助于增强边缘的行动,如锐化和超分辨率。

可学习特征提取器NDQN (learn)随着训练的进行不断改变给定图像的状态,导致训练不稳定,需要更多的训练步骤。最近的工作[43]也支持这一说法,它表明随机初始化和固定网络NDQN (fixed)比网络NDQN (learn)执行得更好。然而,我们发现我们的显式状态定义[f i, f g, f s]可以比未知关系NDQN(固定)做出更多可解释的关系,同时显示出更好的实验结果。我们还研究了具有2、3和4个全连接层的策略网络的效果。更深层次的网络并不能提高学生的学习成绩,反而会阻碍学生学习状态与行为之间的关系。

2)强化学习方法

如表6b所示。即使给定相同的特征提取器F,智能体的性能也受到强化学习方法的高度影响。综上所述,更有效的勘探和开发方法[44],[45]可以大大提高性能。

3)相机ISP工具箱:

相机ISP工具箱的设计也是影响整体性能的一个重要因素,工具箱的状态决定了工具选择器的最大和一般能力。如表6c所示。传统工具Ttrad仅能在一定程度上提高图像质量。然而,性能改进非常有限,并通过使用基于CNN的工具TCNN来提高。能够级联两个以上网络的集体工具训练Lcol也通过缓解看不见的伪影问题来提高性能。传统的工具Ttrad能够用可控的参数微调图像,并为基于CNN的工具TCNN(wLcol)提供补充效果,从而获得更好的结果。所提出的相机ISP工具箱具有易于扩展的特性。因此,我们将考虑更多的ISP工具,如传统的色温变化和色调映射。

结论

在本文中,我们提出了一种新的多目标相机ISP框架,该框架利用了深度强化学习(DRL)和相机ISP工具箱,该相机ISP工具箱由简单的基于网络的工具和传统工具组成。提出的ISP工具箱由轻量级CNN工具和传统工具组成,这些工具可以表示默认相机ISP管道的每个模块,如伽马校正、颜色校正、白平衡、锐化、去噪等。我们还提供了一种高效的DRL网络架构,可以提取图像的各个方面,并在图像状态与大量动作之间建立严格的映射关系。我们提出的DRL-ISP框架根据RAW-to-RGB图像恢复、2D物体检测和单目深度估计等各种视觉任务有效地提高了图像质量。此外,我们的框架可以通过自由设计奖励函数来生成各种风格的图像。对于未来的工作,我们计划将我们的DRL-ISP应用于我们的车辆平台[46],[47],并扩展我们的DRL ISP,以包括自动曝光参数控制[48]。

猜你喜欢

转载自blog.csdn.net/aaaaPIKACHU/article/details/128948824