image caption （三）强化学习之Self-critical - 代码天地

image caption （三）强化学习之Self-critical

其他 2021-11-25 14:50:13 阅读次数: 0

《Self-critical Sequence Training（SCST） for Image Captioning》

RL：训练模型，输入state即图片及已经生成的单词，输出action即下一个单词，使得模型得到更高的reward（metric）。

Policy Gradient是RL的一个比较基本的算法，利用reward充当label，基于Policy来做梯度下降从而优化我模型。

假设一次状态行为序列为（状态动作奖励）

为reward，表示采取策略的发生概率，N为采样的数目。

使用了两个caption model作为基础，分别是

1.FC model，最小化cross entropy loss。

2.Attention Model，把attention feature输入到LSTM的cell node，并使用ADAM方法优化

把序列问题看作是强化学习问题：

Agent: LSTM
Environment: words and image features
policy:模型参数θ决定policy pθ
Action: prediction of the next word
State: cells and hidden states of the LSTM
Reward: CIDEr score r

引入一个baseline来减少gradient的variance，进行bias correction。

使用测试时生成的句子作为baseline，避免了单独训练一个baseline function。

在实际训练中过我们用sample得到的caption来作为这个梯度的估计（类似于mini-batch）:

对sample得到的，后面一项一定是小于0的，这样的话，如果前面大于0的话，对这个单词的梯度就是负的。那么我们在做梯度下降的时候，就会提高这个单词的分数。

SCST的思想就是用当前模型在测试阶段生成的词的reward作为baseline.

用greedy decoding得到的的reward做baseline。这个方法避免了单独训练一个baseline function。如果sample出来的结果比greedy decoding的结果烂，模型就会抑制这个结果，而如果结果比greedy decoding好的话，模型就会push up这个结果。

猜你喜欢

转载自blog.csdn.net/weixin_41386168/article/details/108244888

image caption （三）强化学习之Self-critical

image caption

Image Caption（三）一些补充

image caption—《Neural Baby Talk》学习笔记

自动驾驶—— Image Caption的学习笔记

image caption笔记（三）：《Show, Attend and Tell_Neural Image Caption》

转：看图说话Image Caption之评价指标、NIC（Neural Image Caption）模型和attention

深度学习之image-caption（三）storyteller

image caption初探

Image Caption浅谈（2）

Image Caption浅谈（1）

Image Caption简述

image caption（二）代码

Image Caption（一）综述

image caption （四）Transformer

练手项目之image caption问题记录

Image Caption（一）论文及理解

Image Caption：图像字幕生成

【image caption】之任务图鉴：深度学习的图片描述生成方法集锦

深度学习之image-caption系列（一）show and tell （NIC）模型理解与实现

深度学习之image-caption（二）show attend tell 注意力机制

【深度学习】【python】用于image caption的rnn程序怎么实现中文注释版

image caption generation系列博文整理

Image Caption论文合辑2

论文笔记：Image Caption(Show and Tell)

eccv 2018 image caption generation论文导读

《Show and Tell: A Neural Image Caption Generator》笔记

Stylized Image Caption论文笔记

图片标注问题image_caption

Image caption领域的研究现状及分析

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)