行为识别阅读笔记：ActionRecognition using Visual Attention - 代码天地

行为识别阅读笔记：ActionRecognition using Visual Attention

其他 2019-01-18 07:10:59 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/AUTO1993/article/details/78315147

行为识别阅读笔记：ActionRecognition using Visual Attention

http://shikharsharma.com/projects/action-recognition-attention/

这篇文章是发表在ICLR2016上的一篇文章，从文章给出的多个数据集上的测试结果来看，效果一般，远不如双流法。但该篇文章创新之处在于将attention mechanism的思想引入actionrecognition中，思路算是比较简单，但是具有一定的启发意义。人在看东西的时候，目光沿感兴趣的地方移动，甚至仔细盯着部分细节看，然后再得到结论。Attention就是在网络中加入关注区域的移动、缩放机制，连续部分信息的序列化输入。采用attention使用时间很深的lstm模型，学习视屏的关键运动部位.

文章算法框架如下：

其中，第一项是带有时间维的交叉熵损失函数，第二项是对attention的惩罚项，第三项是对所有模型参数的权重衰减。实验证明，时效果最好，attention能更好的关注一些特定的运动区域，而不是全图。

实验效果

http://shikharsharma.com/projects/action-recognition-attention/

attention mechanism：

Attention的思想是将目标作进一步refined，让模型可以捕获更精细的特征，是通过将特征分成更小的patch，Attention将筛选出更有利于描述特征的那部分patch。Attention可以分为soft-attention和hard-attention两种。

Soft attention模型是deterministic, 可以使用BP训练，而hard attention模型是stochastic,可以使用强化学习训练。

Softattention：假如我们的输入是8*8*1024的特征向量，我们可以将8*8的特征分成4个4*4的或是16个2*2的或是64个1*1等等的patch。不同尺度patch的大小可以根据具体要求来。之后将patch送入softmax进行打分。此处的softmax函数是包含可学习参数的：

其实这个可以理解为softmax 回归。

猜你喜欢

转载自blog.csdn.net/AUTO1993/article/details/78315147

行为识别阅读笔记：ActionRecognition using Visual Attention

【论文阅读】Action Recognition Using Visual Attention

2021 《Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks》 Pytorch实现

[论文阅读]Visual Attention Network原文翻译

RAM： Recurrent Models of Visual Attention 学习笔记

【论文笔记】Attention和Visual Transformer

论文阅读：Learning Visual Question Answering by Bootstrapping Hard Attention

recurrent model for visual attention

【学习笔记】2019-Learning_UVOS_Through_Visual_Attention

论文笔记（5）：Recurrent Models of Visual Attention

论文阅读笔记-Segmentation-Aware Convolutional Networks Using Local Attention Masks

【论文阅读笔记】RETAIN: An Interpretable Predictive Model for ealthcare using Reverse Time Attention Mechani

《Image Super-Resolution Using Very Deep Residual Channel Attention Networks》阅读笔记

《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》阅读笔记

论文阅读笔记“Attention-based Audio-Visual Fusion for Rubust Automatic Speech recognition”

Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA 阅读笔记

Image Super-Resolution Using Very Deep Residual Channel Attention Networks 阅读理解

文献阅读:Image Super-Resolution Using Very Deep Residual Channel Attention Networks

超分：Image Super-Resolution Using Very Deep Residual Channel Attention Networks 阅读理解

论文阅读——A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN

Zero-shot Learning Using Synthesised Unseen Visual Data with Diffusion Regularisation 阅读笔记

论文：Show, Attend and Tell: Neural Image Caption Generation with Visual Attention-阅读总结

Visual Attention Consistency Under Image Transforms for Multi-Label Image Classification论文阅读

Visual Attention Consistency Under Image Transforms for Multi-Label Image Classification论文阅读

论文：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering-阅读总结

论文笔记：Realistic Image Generation using Region-phrase Attention

论文笔记：Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

《Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering》笔记

论文笔记：Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning

论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)