VLM--CLIP作分类任务的损失函数 - 代码天地

VLM--CLIP作分类任务的损失函数

业界资讯 2025-04-11 17:19:39 阅读次数: 0

info_nce_loss

这个是clip作对比学习的损失函数
各个博客上都有详细介绍了，我这里就不赘述

def info_nce_loss(image_features, text_features,logit_scale,labels, temperature=0.07):
    batch_size = image_features.shape[0]

    image_features = image_features / image_features.norm(dim=-1, keepdim=True)
    text_features = text_features / text_features.norm(dim=-1, keepdim=True)

    similarity_matrix = torch.matmul(image_features, text_features.T) / temperature

    logits_per_image = similarity_matrix
    logits_per_text = similarity_matrix.T

    # 构造标签，正样本对应的位置为1，其余为0，这里假设批次内第一个文本特征是对应图像的正样本文本特征
    gen_labels = torch.arange(batch_size).long().to(image_features.device)

    total_loss = (
        F.cross_entropy(logits_per_image, gen_labels)+
        F.cross_entropy(logits_per_text, gen_labels)
    )/2

    return total_loss, logits_per_image, logits_per_text

我踩的坑

我微调 $c l i p$ 做分类任务类别数为3：

数据集为图像-文本对数据集：即一个数据样本为一个图像和对应的文本在json文件里。这里每个类别的图像的文本都是一样的，也就是a类别下图像可能会有细微不同，但是文本都是一样的
微调 $c l i p$ 的结构同原始 $c l i p$ 一致，输出的图像特征维度为 $[输入图像数量, 512]$ ，文本特征维度为

猜你喜欢

转载自blog.csdn.net/qq_61786525/article/details/144647928

VLM--CLIP作分类任务的损失函数

CLIP损失函数的理解

NLP分类任务中的损失函数的选择

神经网络多分类任务的损失函数——交叉熵

分类损失函数的推导

PyTorch 多分类损失函数

深度学习分类损失函数

分类、回归常用损失函数

车牌分类任务（四、定义网络模型，损失函数，优化算法）

自己动手实现深度学习框架-4 使用交叉熵损失函数支持分类任务

机器视觉 -- 图像处理任务的基本流程线性分类器的学习损失函数是什么？

Pytorch代码入门学习之分类任务（三）：定义损失函数与优化器

机器学习中的二分类、多分类和多标签任务（损失函数，encoder）

万字长文全网首发 | 详解分类任务&回归任务损失函数与性能指标

分类任务与激活函数

pytorch 损失函数(平方损失、二分类损失、交叉熵损失等)

交叉熵损失函数（softmax分类器）

损失函数整理（分类和回归）

分类中几种损失函数的内容解读

常用的分类问题中的损失函数

【Tensorflow】【分类：损失函数】SparseCategoricalCrossentropy()和CategoricalCrossentropy()

pytorch代码-图像分类损失函数

【深度学习】分类损失函数解析

讲解PyTorch 多分类损失函数

多任务学习损失函数设计

【多任务损失函数】浅谈多任务中的损失函数如何定义与优化

多分类问题的softmax函数交叉熵损失函数推导

【计算机视觉】如何利用 CLIP 做简单的图像分类任务？（含源代码）

常见回归和分类损失函数比较

第3课线性分类器损失函数与最优化

今日推荐

deepseek热度已过？

MOOC习题:“GPS数据处理”题目个人解析(C语言)

DeepSeek接入微信公众号小白保姆教程

图+语义：RDF语义处理组件Neosemantics功能列表

大语言模型Prompt工程之使用GPT4生成图数据库Cypher

大语言模型Prompt工程之使用GPT3.5生成图数据库Cypher

GPT-3.5 生成 Fabric Cypher

生成 Cypher 能力：GPT3.5 VS ChatGLM

LangChain 2 ONgDB：大模型+知识图谱实现领域知识问答

生成 Cypher 能力：MOSS VS ChatGLM

Neo4j/ONgDB 图数据库快速处理 Excel 文件

LangChain-Agents 入门指南

周排行

blog公告

Lucene：基本增删改查（Java方式）

1、类库

android环信集成单聊功能

删除数据库表数据SQL语句

rhel6.3安装Percona XtraDB Cluster 5.7时错误的解决方法

天梯赛-堆栈（线段树）

ES6原生Class

20120607

张正友标定算法原理详解

每日归档

更多

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)

2025-04-02(0)