视觉Transformer在低级视觉领域的研究综述 - 代码天地

视觉Transformer在低级视觉领域的研究综述

编程语言 2023-09-30 06:25:55 阅读次数: 0

视觉Transfomer的基本原理

在这里插入图片描述

在图像处理过程中，ViT首先将输入的图片分成块，对其进行线性的编码映射后排列成一堆的向量作为编码器的输入，在分类任务中会在这个一维向量加入了一个可学习的嵌入向量用作分类的类别预测结果表示，最后通过一个全连接层输出结果

注意力机制

注意力机制让网络更聚焦于输入中相关信息的方法，从而减少对无关信息的关注程度

计算步骤：

将输入X通过函数f(x)将其分成若干个[a1,a2…at ]节点，这些节点分别通过三个权重矩阵W^q、W^k和W^{v，得到对应的q}t^ 、k^t 和 v^t
qⁱ = aⁱW^q kⁱ=aⁱW^k vⁱ=aⁱW^v
其中qⁱ 代表查询向量，后续会去和每一个kⁱ进行匹配
kⁱ代表被查询向量，后续会被每个qⁱ匹配，vⁱ代表从aⁱ中提取得到的信息向量
计算qⁱ和kⁱ之间的相似性来获得权重
对相似度权重进行归一化处理。常使用softmax函数将相似度矩阵归一化为注意力权重矩阵。

通过softMax函数就可以将多分类的输出值转换为范围在[0,1]和为1的概率分布
根据权重对信息向量进行求和得到注意力：

其中，L_x表示输入序列的长度，Similarity表示相似度计算，Q、K和V分别表示查询向量、被查询向量和信息向量

图像序列化和位置编码

Transfomer的输入是一个序列，要能够对图像进行处理则要使得二维的图像变成一个一维的序列。
在这里插入图片描述

Transformer模块

Transfomer模块上是基于编码器和解码器架构，而编码器和解码器是由多个层构成。编码器负责提取特征，解码器负责将提取到的特征转化为结果。编码器由注意力层和全连接层构成。
在这里插入图片描述

视觉Transformer的优势和缺点

优点

多模态融合能力强
更宽广的感受野

缺点

VIT有着庞大的计算量、参数量和算法复杂度。
数据需求量大

Transformer在低级视觉任务中的应用

低级视觉任务常用数据集

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_47020721/article/details/133012434

视觉Transformer在低级视觉领域的研究综述

计算机视觉的研究领域

又一篇视觉Transformer综述来了！

综述 | 计算机视觉Transformer 《Transformers in Vision: A Survey》

【计算机视觉】最新综述：南洋理工和上海AI Lab提出基于Transformer的视觉分割综述

多目视觉三维重建研究综述

计算机视觉中头部姿态估计的研究综述

基于深度学习的视觉多目标跟踪研究综述

两万字 | 视觉SLAM研究综述与未来趋势讨论

最新综述！南洋理工和上海AI Lab提出基于Transformer的视觉分割综述

视觉Transformer笔记

transformer在视觉检测的应用

推荐视觉跟踪领域的几个研究者

论文研究 | 机器视觉在无人机领域的发展

视觉SLAM综述

视觉大模型综述

Transformer在计算机视觉领域，到底是不是顶流？

双视觉Transformer（Dual Vision Transformer）

MaxViT:多轴视觉Transformer

论文阅读--视觉Transformer(ViT)

经典transformer视觉模型总结

计算机视觉综述

用生成式预训练Transformer实现计算机视觉：最新研究进展

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型 | 京东探索研究院

视觉

计算机视觉领域研究资源及期刊、会议介绍

迄今为止计算机视觉领域超有实力的研究人物主页

计算机视觉领域的一些牛人博客，超有实力的研究机构

计算机视觉研究领域文字识别的具体介绍和基本流程

在2020年，你觉得计算机视觉有哪些值得研究的领域？

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)