图像描述(Image Captioning)的评价指标理论理解

这些指标都是用于评价文本生成质量的,大概做法都是比较某条候选文本(一般是机器生成的)和其他若干参考文本(一般是人类标注的)的相似性,不过适用场合略有区别:BLEU, METEOR, ROUGE 一般在翻译里用,ROUGE主要用于摘要评估,CIDEr和 SPICE一般在图像描述生成里用。

BLEU

BLEU 是最早提出的机器翻译评价指标,是所有文本评价指标的源头。BLEU 的大意是比较候选译文和参考译文里的 n-gram(实践中从 unigram 取到 4-gram) 重合程度,重合程度越高就认为译文质量越高。选不同长度的 n-gram 是因为unigram 的准确率可以用于衡量单词翻译的准确性,更高阶的 n-gram 的准确率可以用来衡量句子的流畅性

这是一个只看中准确率的指标,就是说更加关心候选译文里的多少 n-gram 是对的(即在参考译文里出现了),而不在乎召回率(参考译文里有哪些 n-gram 在候选译文中没出现)。有一点改进是 brevity penalty 来惩罚候选译文过短的情况(候选译文过短在机器翻译中往往意味着漏翻,也就是低召回率),但总的来说,现在还是普遍认为 BLEU 指标偏向于较短的翻译结果(brevity penalty 没有想象中那么强)。

METEOR

METEOR 大意是说有时候翻译模型翻译的结果是对的,只是碰巧跟参考译文没对上(比如用了一个同义词),于是用 WordNet 等知识源扩充了一下同义词集,同时考虑了单词的词形(词干相同的词也认为是部分匹配的,也应该给予一定的奖励,比如说把 likes 翻译成了 like 总比翻译成别的乱七八糟的词要好吧?)。在评价句子流畅性的时候,用了 chunk 的概念(候选译文和参考译文能够对齐的、空间排列上连续的单词形成一个 chunk,这个对齐算法是一个有点复杂的启发式 beam serach),chunk 的数目越少意味着每个 chunk 的平均长度越长,也就是说候选译文和参考译文的语序越一致。最后还有召回率和准确率两者都要考虑,用 F 值作为最后的评价指标。

优点是考虑了单词的词形和同义词
缺点是只有 Java 实现,而且还是 jar 包不是 API。而且是有四个超参数 alpha, beta, gamma, delta,让算法的结果和人的主观评价尽可能一致。最后是需要有外部知识源(WordNet 等)来进行单词对齐,所以对于 WordNet 中不包含的语言,就没法用 METEOR 来评价了。

ROUGE

ROUGE 和 BLEU 几乎一模一样,区别是 BLEU 只计算准确率,而 ROUGE 只计算召回率。主要用于摘要评估辅助工具,其 用作机器翻译评价指标的初衷是:在 SMT(统计机器翻译)时代,机器翻译效果稀烂,需要同时评价翻译的准确度和流畅度;等到 NMT (神经网络机器翻译)出来以后,神经网络脑补能力极强,翻译出的结果都是通顺的,但是有时候容易瞎翻译,比如改个人名/数字啊、扔掉半句话啊这种情况很常见。于是有人说,那我们不看流畅度只看召回率,这样就能知道 NMT 系统到底有没有漏翻(这会导致低召回率)。所以ROUGE 只适合评价 NMT,而不适用于 SMT,因为它不管候选译文流不流畅。

CIDEr

CIDEr 是 BLEU 和向量空间模型的结合,是专门设计出来用于图像标注问题的。它把每个句子看成文档,通过计算 TF-IDF 向量(只不过 term 是 n-gram 而不是单词)的余弦夹角(参考 caption 与模型生成的 caption ),据此两者的相似度。优点是不同的 n-gram 随着 TF-IDF 的不同而有不同的权重,因为整个语料里更常见的 n-gram 包含了更小的信息量。

图像描述生成评价的要点是看模型有没有抓取到关键信息,比如说一幅图的内容是『白天一个人在游泳池游泳』,其中最关键的信息应该是『游泳』,生成字幕时如果包含或者漏掉了一些别的信息(比如说『白天』)其实是无关紧要的,所以需要这么一种对非关键词降权的操作。在机器翻译中,译文应该忠实于原文,所以同一句话的多条译文应该互为转述,包含同样的信息;而同一幅图的多条描述则不一定互为转述,因为不同的描述可以包含不同数量的图像细节,不管描述得比较详细还是比较粗糙都是正确的。

SPICE

SPICE 也是专门设计出来用于 image caption 问题的。当生成的句子与参考句极为相似时,例如只有一词不一样,原句是tennis court,模型生成是basketball court,但我们仍认为这是一个糟糕的生成,原因在于考虑了语义的情况下,模型把网球场错误的识别成了篮球场。这时候BLEU 或者其他指标就不能很好的评价生成效果了。

SPICE 使用基于图的语义表示来编码描述中的 objects, attributes 和 relationships。它先将待评价 caption 和参考 captions 用概率上下文无关文法(PCFG) 依赖性分析器解析成句法依赖树,然后用基于规则的方法把依赖树映射成场景图。最后计算待评价的 caption 中 objects, attributes 和 relationships 的 F-score 值。

优点是对目标,属性,关系有更多的考虑;比基于 n-gram 的评价模式有更高的和人类评价的相关性。
缺点是不考虑语法问题,依赖于 semantic parsers ,每个目标,属性和关系的权重都是一样的(但一幅画的物体显然有主次之分)

参考文章:
https://www.zhihu.com/question/304798594/answer/567383628
https://blog.csdn.net/yangyanbao8389/article/details/121455709

猜你喜欢

转载自blog.csdn.net/weixin_46707326/article/details/129393009