生成语言模型真实性评估基准测试数据

解决问题:目标是解决在给定领域内,语言模型生成错误信息的倾向性的问题。现有的事实生成评估方法仅关注于来自于语言模型本身的事实,因此无法控制评估的事实集,并且可能低估罕见和不太可能的事实。

关键思路:提出了 FACTOR:基于语料库转换的事实评估,这是一种可扩展的方法,用于评估语言模型的事实性。FACTOR自动将感兴趣的事实语料库转换为基准,评估语言模型从语料库中生成真实事实与类似但不正确的陈述的倾向性。使用这个框架创建了两个基准:Wiki-FACTOR和News-FACTOR。实验结果表明:(i)我们的基准分数随着模型大小的增加而增加,并且当语言模型与检索相结合时效果更好;(ii)基准分数与困惑度相关,但两个指标在模型排名上并不总是一致;(iii)当困惑度和基准分数不一致时,后者更好地反映了开放式生成的事实性,这是由人工注释员测量的。

其他亮点:数据和代码已在https://github.com/AI21Labs/factor上公开发布。本文的一个亮点是提出了一种可扩展的方法来评估语言模型的事实性,该方法可以自动转换事实语料库为基准,评估语言模型的事实性。此外,本文还提出了两个基准:Wiki-FACTOR和News-FACTOR。

关于作者:本文的主要作者包括Dor Muhlgay、Ori Ram、Inbal Magar、Yoav Levine、Nir Ratner、Yonatan Belinkov、Omri Abend、Kevin Leyton-Brown、Amnon Shashua和Yoav Shoham。他们来自于以色列的希伯来大学、魁北克大学和AI21 Labs等机构。他们的代表作包括:Dor Muhlgay的“Learning to Optimize Join Queries with Deep Reinforcement Learning”、Yonatan Belinkov的“Analysis of Representations Learned by Neural Machine Translation Models”和Kevin Leyton-Brown的“Essentials of Game Theory”。

近期的相关研究包括:1)“Evaluating the Factual Consistency of Abstractive Text Summarization”(Yixin Liu等人,来自于华盛顿大学);2)“Fact or Fiction: Verifying Scientific Claims”(Tal Schuster等人,来自于以色列理工学院);3)“Fact-checking Deep Learning in Medical Imaging”(Andreas Holzinger等人,来自于格拉茨大学)。

《生成语言模型的事实性评估基准》 Dor Muhlgay、Ori Ram、Inbal Magar、Yoav Levine、Nir Ratner、Yonatan Belinkov、Omri Abend、Kevin Leyton-Brown、Amnon Shashua、Yoav Shoham 在将语言模型(LM)部署到特定领域之前,重要的是要衡量它在该领域中生成事实不正确信息的倾向。现有的事实生成评估方法侧重于从LM本身抽样的事实,因此无法控制评估的事实集,并可能低估罕见和不太可能的事实。我们提出了FACTOR:通过语料库转换进行事实评估,这是一种可扩展的方法,用于评估LM的事实性。FACTOR自动将感兴趣的事实语料库转换为评估LM从语料库中生成真实事实与类似但不正确的陈述的倾向的基准。我们使用我们的框架创建了两个基准:Wiki-FACTOR和News-FACTOR。我们表明:(i)我们的基准分数随着模型大小的增加而增加,并且在LM增加检索时得到改善;(ii)基准分数与困惑度相关,但这两个指标在模型排名上不总是一致;(iii)当困惑度和基准分数不一致时,后者更好地反映了人类注释员测量的开放式生成的事实性。我们在https://github.com/AI21Labs/factor上公开了我们的数据和代码。

猜你喜欢

转载自blog.csdn.net/elinkenshujuxian/article/details/131735941
今日推荐