【计算机视觉】ICCV2023放榜!一起看看CV最新热门研究方向!

一、导读

最近吃过晚饭看到新闻的时候,属实有点惊讶:

在这里插入图片描述
ICCV 2023 近日也开奖了!看了一下,总共收录了2160篇论文,创了历史新高。作为计算机视觉三大顶级会议之一,ICCV 收录的论文自然也都具有非常高的研究价值,建议有需求的同学多关注多关注,说不定下一篇中稿的论文ideal就在这里。

整理了一部分论文,分享如下:

在这里插入图片描述

二、图像分割

2.1 Segment Anything

大名鼎鼎的分割一切,不再过多介绍!

2.2 A Simple Framework for Open-Vocabulary Segmentation and Detection

一个用于开放词汇分割和检测的简单框架

作者提出了OpenSeeD,一个简单的开放词汇分割和检测联合框架,可以同时从不同的分割和检测数据集中学习。

为桥接词汇和注释粒度的鸿沟,作者首先引入了一个预训练的文本编码器来编码两个任务中的所有视觉概念,并为它们学习一个共同的语义空间。为进一步协调它们,作者定位了两个差异:分割需要提取前景目标和背景区域的遮挡,而检测仅关注前者;框和遮挡注释具有不同的空间粒度,因此不能直接互换。为解决这些问题,作者提出了解耦解码和条件遮挡解码。最终,作者开发了一个简单的编码器-解码器模型,在两个数据集上联合训练。预训练后,作者的模型在分割和检测上展现出更好的零样本迁移能力。

在这里插入图片描述

三、扩散模型

3.1 SVDiff: Compact Parameter Space for Diffusion Fine-Tuning

SVDiff:隐变量微调的紧凑参数空间

隐变量模型在文本到图像生成中取得了显著成功,使得从文本提示或其他模式生成高质量图像成为可能。但是,现有的自定义这些模型的方法受限于处理多个个性化主体和过拟合风险。此外,它们的大量参数对模型存储效率不高。本文提出了一个新方法来解决现有文本到图像隐变量模型个性化中的这些限制。作者的方法涉及到微调权重矩阵的奇异值,导致一个紧凑高效的参数空间,减少过拟合和语言漂移风险。作者还提出了Cut-Mix-Unmix数据增强技术来提高多主体图像生成质量,以及一个简单的基于文本的图像编辑框架。

在这里插入图片描述
Pix2Video: Video Editing using Image Diffusion

Zero-1-to-3: Zero-shot One Image to 3D Object

GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

四、多模态(达摩院mPLUG)

4.1 HiTeA:HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training

HiTeA:分层时序感知视频语言预训练

本文提出了一个分层时序感知视频语言预训练框架HiTeA,带有两个用于建模时刻与文本跨模态对齐以及视频文本对时间关系的新颖预训练任务。具体而言,作者提出了一个跨模态时刻探索任务来探索视频中的时刻,得到详细的视频时刻表示。此外,通过不同时间分辨率下的整体视频文本对齐,内在的时序关系被多模态时序关系探索任务捕获。此外,作者引入了洗牌测试来评估数据集和视频语言预训练模型的时序依赖性,在15个视频语言理解和生成任务上达到了最先进的结果。

在这里插入图片描述

  • TW-BERT:Learning Trajectory-Word Alignments for Video-Language Tasks
  • BUS:BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization

五、VIT

5.1 ElasticViT: Confict-aware Supernet Training for Deploying Fast VisionTransformer on Diverse Mobile Devices

ElasticViT:冲突感知超网络训练,在各种移动设备上部署快速视觉转换器

在本工作中,作者提出了ElasticViT,这是一种两阶段的NAS方法,它在一个非常大的搜索空间上训练高质量的ViT超网络,该搜索空间支持广泛的移动设备,然后为直接部署搜索优化子网络。但是,依赖统一采样的先前超网络训练方法遭受梯度冲突问题:采样的子网络可以有非常不同的模型大小(例如50M与2G FLOPs),导致不同的优化方向和较差的性能。

为解决这个挑战,作者提出了两种新的采样技术:复杂性感知采样和性能感知采样。复杂性感知采样限制相邻训练步骤中采样的子网络之间的FLOPs差异,同时覆盖搜索空间中的不同大小的子网络。性能感知采样进一步选择具有良好准确率的子网络,这可以减少梯度冲突并提高超网络质量。作者发现的模型ElasticViT模型在ImageNet上的top-1准确率从60M到800M FLOPs在67.2%到80.0%之间,没有额外的重新训练,超过了所有先前的CNN和ViT的准确率和延迟。

在这里插入图片描述

六、GAN

6.1 3DHumanGAN: Towards Photo-Realistic 3D-Aware Human Image Generation

3DHumanGAN:面向照片级逼真的3D感知人体图像生成

作者提出了3DHumanGAN,这是一个3D感知的生成对抗网络(GAN),可以在不同的视角和姿态下合成具有一致外观的全身人体图像。为了解决合成人体关节结构的表示和计算挑战,作者提出了一种新的生成器架构,其中一个2D卷积主干被一个3D姿态映射网络调制。3D姿态映射网络被表述为一个可渲染的隐函数,条件化一个具姿态的3D人体网格。这种设计具有几个优点:i)它允许我们利用2D GAN的能力生成照片级真实的图像;ii)它可以在不同的视角下生成一致的图像,并指定姿态:iii)该模型可以从3D人体先验中获益。

在这里插入图片描述

七、3D目标检测

7.1 PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

PETRv2:从多相机图像进行3D感知的统一框架

本文提出了PETRv2,一个从多视图图像进行3D感知的统一框架。基于PETR [24],PETRv2探索了时序建模的有效性,它利用前帧的时序信息来增强3D目标检测。具体而言,作者扩展了PETR中的3D位置嵌入(3D PE)进行时序建模。3D PE实现了不同帧上的目标位置的时序对齐。一个特征引导的位置编码器进一步被引入来提高3D PE的数据适应性。为支持多任务学习(例如BEV分割和3D车道检测),PETRv2通过引入任务特定的查询提供了一个简单有效的解决方案,这些查询在不同的空间下初始化。PETRv2在3D目标检测、BEV分割和3D车道检测上都取得了最先进的性能。

在这里插入图片描述

7.2 DQS3D: Densely-matched Quantization-aware Semi-supervised 3D Detection

DQS3D:密匹配的量化感知半监督3D检测

本文研究了半监督3D目标检测问题,考虑到杂乱的室内3D场景的高标注成本,这是一个非常重要的问题。虽然这一范式对图像级或像素级预测很自然,但将其应用到检测问题面临提案匹配的问题。之前的方法基于两阶段管道,匹配在第一阶段中生成的经验选择的提案,导致训练信号空间稀疏。相比之下,作者提出了第一个以单阶段方式工作的半监督3D检测算法,允许空间密集的训练信号。这个新设计的一个基本问题是点到体素量化引起的量化误差,这不可避免地导致体素域中两个变换视图之间的失配。为此,作者推导和实现了在线补偿这种失配的封闭形式规则。

在这里插入图片描述

八、视频理解

8.1 Unmasked Teacher: Towards Training-Efficient Video Foundation Models

Unmasked Teacher:面向训练高效的视频基础模型

本文提出了一个时间敏感 VFMs 的训练高效方法,整合了现有方法的优点。为增加数据效率,作者屏蔽了大多数低语义视频标记,但选择性地将未屏蔽标记与 IFM 对齐,IFM 充当未屏蔽教师(UMT)。通过提供语义指导,作者的方法实现更快收敛和多模态友好。随着渐进式预训练框架,该模型可以处理各种任务,包括场景相关、时间相关和复杂视频语言理解。仅用公开源在6天内在32个A100 GPU上预训练,作者从零构建的ViT-L/16取得了视频理解领域的最先进性能。

在这里插入图片描述

九、低光照图像增强

9.1 Implicit Neural Representation for Cooperative Low-light Image Enhancement

用于合作低光图像增强的隐式神经表示

作者提出了一种用于合作低光图像增强的隐式神经表征方法:NeRCo。它以非监督的方式稳健地恢复感知友好的结果。具体而言,NeRCo使用可控配函数统一真实场景的各种退化因素,从而实现更好的鲁棒性。此外,对于输出结果,作者引入了来自预训练的视觉语言模型的先验的语义导向的监督。它不仅仅遵循参考图像,还鼓励结果满足主观预期,找到更多视觉友好的解决方案。此外,为了减少对成对数据的依赖和减少解空间,作者开发了一个双闭环约束增强模块。它以自监督的方式与其他附属模块合作训练。大量实验证明了NeRCo的鲁棒性和卓越有效性。

在这里插入图片描述

9.2 UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer

UniFormerV2:通过在图像ViTs上配备视频UniFormer进行时空学习

论文提出了一种通用范式来构建强大的视频网络家族,通过在预训练的ViTs上加装高效的UniFormer设计。作者将这个家族称为UniFormerV2,因为它继承了UniFormer块的简洁风格。但它包含全新的局部和全局关系聚合器,通过无缝集成ViTs和UniFormer的优势,允许更好的准确度计算平衡。在没有任何修饰的情况下,作者的UniFormerV2在8个流行的视频基准测试中获得了最先进的识别性能,包括与场景相关的Kinetics-400/600/700和Moments in Time,与时间相关的Something Something V1/V2,未修剪的ActivityNet和HACS。

在这里插入图片描述

十、视频语义定位

10.1 Scanning Only Once: An End-to-end Framework for FastTemporal Grounding in Long Videos

仅扫描一次: 长视频中快速时序定位的端到端框架

本论文针对长视频时序定位任务提出了一个端到端的快速框架。

主要做法:

  1. 首先对非重叠的视频片段进行粗粒度建模,提取上下文信息。
  2. 然后只对与查询高度相关的少数anchor片段进行细粒度建模,获取详细的内容信息。
  3. 通过整体对完整视频建模,可以捕获长距离的时序关联信息,从而进行更准确的时序定位。
  4. 在长视频时序定位数据集上,该方法明显优于当前state-of-the-art。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/131859737
今日推荐