ViT模型中的tokens和patches概念辨析 - 代码天地

ViT模型中的tokens和patches概念辨析

企业开发 2023-12-17 05:17:56 阅读次数: 0

概念辨析

在ViT模型中，“tokens”（令牌）和"patches"（图像块）是两个相关但不同的概念。

令牌（Tokens）：在ViT中，令牌是指将输入图像分割成固定大小的图块，并将每个图块映射为一个向量表示。这些向量表示即为令牌。每个令牌代表图像中的一个局部区域，可以看作是图像的抽象表示。通过将图像分割成令牌序列，并将其输入到Transformer模型中，ViT能够利用自注意力机制来建模图像中的全局关系。
图像块（Patches）：图像块是指将输入图像分割成固定大小的小块。在ViT中，图像块被用作生成令牌的基本单位。每个图像块由一组像素组成，并通过线性变换映射为令牌的向量表示。图像块的目的是将图像分割为可处理的小块，以便进行后续的编码和处理。

因此，图像首先被分割为图像块（patches），然后每个图像块被映射为一个令牌（tokens）。令牌是对图像块的抽象表示，用于输入到Transformer模型中进行全局关系的建模。

对于标准的Transformer模块，要求输入的是token（向量）序列，即二维矩阵[num_token, token_dim]，如下图，token0-9对应的都是向量。

在这里插入图片描述

输入步骤

首先将一张图片按给定大小分成一堆Patches。以ViT-B/16为例，将输入图片大小(224x224)按照16x16大小的Patch进行划分，划分后会得到 $224 / 16 ) ^2=196$ 个Patches。
通过线性映射将每个Patch映射到一维向量中，以ViT-B/16为例，每个Patche数据shape为[16, 16, 3]通过映射得到一个长度为768的向量（直接称为token）

总结起来，图像块是图像的原始分割块，而令牌是对图像块的向量表示，用于输入ViT模型进行处理。

参考：Vision Transformer详解

猜你喜欢

转载自blog.csdn.net/weixin_45662399/article/details/134252015

ViT模型中的tokens和patches概念辨析

springcloud中概念辨析

概念辨析-生成模型/产生模型

一个挑战 ViT，MLP-Mixer 的新模型 ConvMixer：Patches Are All You Need? [Under Review ICLR 2022]

ViT模型架构和CNN区别

vit的cam和注意力图： VIT模型的可解释性

JAVA中ListIterator和Iterator详解与辨析

辨析 Sass 中的 Map 和 List

Java中 ==、equsls 和hashCode辨析

Transformer在计算机视觉中的应用-VIT、TNT模型

组件化开发和模块化开发概念辨析

同步异步和阻塞非阻塞概念辨析

工作组和域的概念及辨析

分贝（dB）的概念辨析

Web Service概念辨析

Class Diagram概念辨析

vit网络模型简介

ViT模型——pytorch实现

VIT模型个人笔记

批处教程 for /f 中的Delims和Tokens总结

批处理之 for /f 中的delims和tokens

DOS - 批处理之 for /f 中的 delims 和 tokens

JAVA中ListIterator和Iterator详解与辨析 JAVA中ListIterator和Iterator详解与辨析

OGG中TOKENS的使用

【数据库系统】数据模型、模式、数据的概念辨析

4G LTE基础概念：VRB和PRB概念、易混名词辨析

python中list和numpy中array，matrix的全面辨析

Java-接口概念辨析

JS的易混淆概念辨析

16.ViT模型介绍

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)