Attention Model 及其发展现状概述

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/StupidAutofan/article/details/83303368

Attention Model 及其发展现状概述

之前一段时间在学习注意力(Attention)模型相关的知识,现将学习笔记以及论文资料做些整理,供大家一起学习。

1. 什么是注意力模型

视觉注意力是人类视觉信息处理过程中一项重要的调节机制,在视觉注意力的引导下,人类能够从众多的视觉信息中快速地选择那些最重要、最有用、与当前行为最相关的感兴趣的视觉信息。当人类观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观察时,其实眼睛仅聚焦在很小的一块区域,这个时候人的大脑主要关注在这一小块图案上,因此人脑对整幅图的关注并不是均衡的,具有一定的权重区分。
而注意力模型(Attention model)就是对人脑的注意力模型进行模拟,旨在从众多信息中选择出对当前任务更关键的信息。考虑到人的目光会沿着感兴趣的地方移动,甚至仔细盯着部分细节看,然后再得到结论,因此注意力模型在处理输入信息时,是分块或分区域进行,对不同的块或区域采用不同的权值,权重越大越聚焦于其对应的内容信息,从而使得关键信息对模型的处理结果影响较大。

a. 优点

与传统机器学习方法相比,注意力模型具有显著的优越性,主要体现在如下几个方面:
1) 与人类利用有限的注意力从大量信息中快速筛选出高价值信息类似,注意力模型极大地提高了视觉信息处理的效率与准确性,减小处理高维输入数据的计算负担,通过结构化的选取输入的子集,降低数据维度;
2) 注意力模型让任务处理系统更专注于找到输入数据中显著的与当前输出相关的有用信息,从而提高输出的质量。

注意力模型的最终目的是帮助类似编解码器这样的框架,更好的学到多种内容模态之间的相互关系,从而更好的表示这些信息,克服其无法解释从而很难设计的缺陷。从上述的研究问题可以发现,注意力机制非常适合于推理多种不同模态数据之间的相互映射关系,这种关系很难解释,很隐蔽也很复杂,这正是注意力的优势—不需要监督信号,对于上述这种认知先验极少的问题,显得极为有效。

b. 缺点

注意力模型的缺点主要体现在如下几个方面:
1) 注意力模型更适合处理序列学习问题,对于静态的、非序列问题不适用或者处理效果不好;
2) 相比于传统模型,注意力模型引入了额外的成本,对于m个输入,n个输出的结构中,注意力模型参数也达到了m*n的数量级。

2. 主流算法

根据注意力模型的关注区域选择的不同,可以将注意力模型分为两类:Soft Attention ModelHard Attention Model
(示例如下图,图来自文献“Show, Attend and Tell: Neural Image Caption Generation with Visual Attention”[2])
图例 Hard Attention与Soft Attention示例图(以Image Caption任务为例)
图例 Hard Attention与Soft Attention示例图(以Image Caption任务为例)

a. Soft Attention Model:

Soft Attention Model。注意力关注区域是所有区域的一个加权和。即在求注意力分配时,对于输入的每个区域都给出个概率,然后进行加权。代表性工作如下:

1) 在[1]中,加拿大蒙特利尔大学, IEEE T-NNLS副主编,NIPS 2019会议主席,Yoshua Bengio提出了基于联合学习的提出了单层注意力模型(Neural Machine Translation by Jointly Learning to Align and Translate),该模型解决了机器翻译中不同长度的源语言对齐问题。使用注意力模型的基本思想是目标语言端的词往往只与源语言端部分词相关。而这个相关度通常用概率的形式表示。这个过程基本为:首先计算当前上下文的环境与每个源语言词语的相关度(一个得分),然后使用softmax公式,将这个相关度转化为概率的形式,最后用得到的概率乘以对应源语言端词的隐含表示作为该词对预测目标的贡献,将所有源语言端的词贡献加起来作为预测下一个词的部分输入。
2) 在[2]中,加拿大蒙特利尔大学, IEEE T-NNLS副主编,NIPS 2019会议主席,Yoshua Bengio提出了基于视觉注意力的图像标注生成模型(Show, Attend and Tell: Neural Image Caption Generation with Visual Attention),该模型将注意力模型应用到了图像标注生成问题中,在传统的Encoder-Decoder框架中加入了注意力模型,展示了如何利用注意力模型为图像标注生成过程提供更多的可解释性。并且该论文首次提出了Soft Attention Model与Hard Attention Model的概念。
3) 在[3]中,雅虎公司,雅虎公司联合创始人,Simon Osindero提出了一个基于注意力建模的递归循环网络(Recursive Recurrent Nets with Attention Modeling for OCR in the Wild),该模型联合递归神经网络和注意力机制模型,用于自然场景图像中无词汇光学字符识别。所提出的方法的主要优点是:(1)使用递归卷积神经网络,其允许参数有效和有效的图像特征提取;(2)该模型使用了Soft Attention Model,允许模型以协调的方式有选择地提取图像特征,并可以在标准反向传播框架内进行端到端的训练。
4) 在[4]中,上海交通大学,助理教授,张伟楠提出了一种带位置注意力的增强递归神经网络并应用于问答系统(Enhancing Recurrent Neural Networks with Positional Attention for Question Answering),该模型输入为“问题”句子中所有词语的词向量,输出“回答”句子中所有词语的词向量。而该论文使用注意力模型的假设为:如果“问题”句子中某个单词出现在“回答”句子中,则在“回答”句子中该单词周围的词语影响度更大,且该影响度随距离变化呈高斯分布。通过拟合高斯分布得到所有输入词的影响概率,然后将影响概率作为权重,和输入向量加权求和得到基于位置的影响向量,最后将得到的影响向量作为指定向量,计算所有输入单词的隐含向量与该指定向量的相关度,通过注意力模型计算得到的向量作为输入帮助完成预测。
5) 在[5]中,谷歌DeepMind,谷歌DeepMind联合创始人,Mustafa Suleyman提出了基于注意力机制的机器阅读理解模型(Teaching Machines to Read and Comprehend)。针对阅读理解缺乏大规模训练数据集,作者构建了相应的数据集。同时提出了三种神经网络模型来解决机器阅读理解问题,其中包括The Attentive Reader与Impatient Reader模型。The Attentive Reader是在LSTM的基础上,加入了注意力机制,Impatient Reader是在Attentive Reader的基础上做了更进一步的优化。

b. Hard Attention Model:

Hard Attention Model。注意力每次移动到一个固定大小的区域。 相对来说Soft Attention Model比较好理解,在 Hard Attention Model里面,每个时刻模型的序列只有一个取 1,其余全部为 0(即One Hot向量),也就是说每次只关注一个位置,而Soft Attention Model每次会照顾到全部的位置,只是不同位置的权重不同罢了。Hard Attention Model代表性工作如下:

1) 在[6]中,谷歌DeepMind,谷歌DeepMind研究负责人,Koray Kavukcuoglu提出了提出了一种基于递归神经网络的注意力模型(Recurrent Models of Visual Attention),这篇文章是Hard Attention Model开创性论文之一,提出的注意力模型能够通过自适应地选择一系列区域或位置,并且处理所选区域来从图像或视频中提取信息,解决了卷积神经网络对大型的图片的处理计算量巨大的问题。论文将注意力问题看做是目标引导的序列决策过程,能够和视觉环境交互。在每一个时间点,感受器只关注某一块区域,在局部区域进行信息提取,而不是全局范围内。
2) 在[7]中,美国斯坦福大学,ACM/AAAI/ACL Fellow,ACL前主席,Christopher Manning提出了基于注意力的神经机器翻译方法(Effective Approaches to Attention-Based Neural Machine Translation),该论文提出了两种模型:全局和局部注意力模型,全局注意力模型很类似于Soft Attention Model,每次考虑编码器的所有隐含状态;而局部注意力模型本质上是Soft和Hard Attention Model的一个混合,其计算复杂度较低,易于训练。
3) 在[8]中,谷歌DeepMind,Koray Kavukcuoglu提出了一种基于注意力的模型的用于图像中识别多个物体(Multiple Object Recognition with Visual Attention),该模型是利用强化学习来训练 Deep RNN,以找到输入图像中最相关的区域。尽管在训练的过程中,仅仅给出了类别标签,但是仍然可以学习定位并且识别出多个物体。
4) 在[9]中,加拿大多伦多大学,加拿大多伦多大学计算机科学学院教授,Richard S. Zemel提出了一个统一视觉语义嵌入与多模态神经语言模型(Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models),该模型基于Encoder-Decoder框架,来学习一个带图像和文本的多模态联合嵌入空间,以及用于解码来自我们空间的分布式表示的新型语言模型。该模型能有效地将联合图像文本嵌入模型与多模态神经语言模型相结合。

3. 最新流行算法/趋势

1) 2017年发表在ACM SIGIR会议上的题为“Attentive Collaborative Filtering: Multimedia Recommendation with Item- and Component-Level Attention”[10]的文章,介绍了基于领域知识的注意力机制如何用于推荐系统的。其中的注意力模型框架类似于层级注意力模型,唯一的不同就是它的输入使用了其他领域信息。文章中的注意力模型由两个注意力模块组成:用于学习选择多媒体信息内容组件的Component-level 注意力模块,以及学习对内容表现进行评分的Item-level注意力模块。
2) 2017年发表在KDD会议上的题为“GRAM: Graph-Based Attention Model for Healthcare Representation Learning”[11]的文章,利用知识图谱和注意力模型,提出了一种新的医疗诊断模型。改模型解决了深度模型在医疗问题中数据不足以及深度模型学到的表述与医学知识不匹配问题。
3) 2017年发表在CVPR会议上的题为“Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning”[12]的文章,提出了一种新的带有视觉标记的注意力模型,在每个时间步骤中,模型决定是否要关注图像(如果是,关注哪个区域)或视觉标记。
4) 2018年发表在CVPR会议上的题为“Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering”[13]的文章,提出了一种结合了Bottom-up和Up-down的注意力机制,该模型可以在对象以及其他显著性区域层面上来计算注意力的关注度。具体来说,自下而上的机制(基于更快的R-CNN)用来提出图像区域与对应的特征向量,而自上而下机制确定特征权重。
5) 2018年发表在CVPR会议上的题为“Generative Image Inpainting with Contextual Attention”[14]的文章,提出了一种新的基于深度生成模型的图像修复方法,该方法不仅可以合成新颖的图像结构,还可以用注意力模型在网络训练期间利用周围的图像特征作为参考,从而做出更好的预测。该模型是一个前馈完全卷积神经网络,它可以在测试时间内在任意位置以及可变尺寸下处理多个孔的图像。

4. 国内外主要研究小组

1) 腾讯AI Lab首席研究员马林研究组,代表工作是2018年发表在CVPR spotlight上的题为“Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning”[15]的文章,该文章主要解决了两个问题,即:(1)如何利用好过去和未来的信息以便更精确地定位出事件;(2)如何给解码器输入有效的视觉信息,以便更准确地生成针对该事件的自然语言描述。
2) 华为诺亚方舟实验室研究员李航研究组,代表工作是2015年发表在ACL上的题为“Neural Responding Machine for Short-Text Conversation”[16]的文章,该文章提出的Neural Responding Machine是很典型的应用创新,将带注意力模型的Encoder-Decoder框架应用到对话机器人任务中,输入Encoder-Decoder的是一句对话,而Encoder-Decoder输出的则是对话机器人的应答。
3) IEEE T-NNLS副主编,NIPS 2019会议主席,加拿大蒙特利尔大学教授Yoshua Bengio研究组,代表工作是2014年发表在IEEE T-MM上的题为“Describing Multimedia Content Using Attention-Based Encoder-Decoder Networks”[17]的文章,该文章关注的是输入具有丰富结构并且输入和输出结构有某种相关性的情况。
4) ACM/AAAI/ACL Fellow,ACL前主席,美国斯坦福大学Christopher Manning教授研究组,代表工作是2015年发表在EMNLP会议上题为“Effective Approaches to Attention-Based Neural Machine Translation”[7]的文章,该论文提出了全局注意力模型和局部注意力模型。
5) 中国工程院外籍院士、中国科学院外籍院士、美国工程院院士,美国伊利诺伊大学厄巴纳-香槟分校Beckman研究院图象实验室主任Thomas S. Huang教授研究组,代表工作是2018年发表在CVPR会议上题为“Generative Image Inpainting with Contextual Attention”[14]的文章,提出了一种新的基于深度生成模型与注意力模型的图像修复方法。

声明:

本文为作者原创,未经许可,不允许转载或用于其他用途!!!

5. 参考文献

[1] D. Bahdanau, K. Cho, and Y. Bengio, “Neural Machine Translation by Jointly Learning to Align and Translate,” Computer Science, 2014.
[2] K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R.Zemel, and Y. Bengio, “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention,” in Proc. Int’l Conf. Machine Learning, pp. 2048-2057, 2015.
[3] C. Le and S. Osindero, “Recursive Recurrent Nets with Attention Modeling for OCR in the Wild,” in Proc. Int’l Conf. Computer Vision and Pattern Recognition, pp. 2231-2239, 2016.
[4] Q. Chen, Q. Hu, J. Huang, L. He, and W. An, “Enhancing Recurrent Neural Networks with Positional Attention for Question Answering,” in Proc. Int’l Conf. on Research and Development in Information Retrieval, pp. 993-996, 2017.
[5] K. Hermann, T. Kocisky, E. Grefenstette, L. Espeholt, W. Key, M. Suleyman, and P. Bilunsom, “Teaching Machines to Read and Comprehend,” in Proc. Advances in Neural Information Processing Systems, pp. 1693-1701, 2015.
[6] V. Mnih, N. Heess, and A. Graves, “Recurrent Models of Visual Attention,” in Proc. Advances in Neural Information Processing Systems, pp. 2204-2212, 2014.
[7] M. Luong, H. Pham, and C. Manning, “Effective Approaches to Attention-Based Neural Machine Translation,” in Proc. Conf. Empirical Methods in Natural Language Processing, pp. 1412-1421, 2015.
[8] J. Ba, V. Mnih, and K. Kavukcuoglu, “Multiple Object Recognition with Visual Attention,” in Proc. Int’l Conf. Learning Representations, pp. 1-10, 2015.
[9] R. Kiros, R. Salakhutdinov, and R. Zemel, “Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models,” arXiv:1411.2539, 2014.
[10] J. Chen, H. Zhang, X. He, L. Nie, W. Liu, and T. Chua, “Attentive Collaborative Filtering: Multimedia Recommendation with Item- and Component-level Attention,” in Proc. Int’l ACM SIGIR Conf. Research and Development in Information Retrieval, pp. 335-344, 2017.
[11] E. Chio, M. Bahadori, L. Song, W. Stewart, and J. Sun, “GRAM: Graph-Based Attention Model for Healthcare Representation Learning,” in Proc. Int’l Conf. Knowledge Discovery and Data Mining, pp. 787-795, 2017.
[12] J. Lu, C. Xiong, D. P arikh, and R.Socher, “Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning,” in Proc. IEEE Conf. Computer Vision and Pattern Recognition, pp. 375-383, 2017.
[13] P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, and L. Zhang, “Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering,” in Proc. IEEE Conf. Computer Vision and Pattern Recognition, 2018.
[14] J. Yu, Z. Lin, J. Yang, X. Shen X. Lu, and T. Huang, “Generative Image Inpainting with Contextual Attention,” in Proc. IEEE Conf. Computer Vision and Pattern Recognition, 2018.
[15] J. Wang, W. Jiang, L. Ma, W. Liu, and Y. Xu, “Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning,” arXiv:1804.00100, 2018.
[16] L. Shang, Z. Lu, and H. Li, “Neural Responding Machine for Short-Text Conversation,” in Proc. Association for Computational Linguistics and Int’l Joint Conf. Natural Language Processing, pp. 1577-1586, 2015.
[17] K. Cho, A. Courville, and Y. Bengio, “Describing Multimedia Content Using Attention-Based Encoder-Decoder Networks,” IEEE Trans. Multimedia, vol. 17, no. 11, pp. 1875-1886, 2015.

猜你喜欢

转载自blog.csdn.net/StupidAutofan/article/details/83303368