本文是LLM系列文章,针对《A User-Centric Benchmark for Evaluating Large Language Models》的翻译。
用于评估大型语言模型的以用户为中心的基准
摘要
大型语言模型 (LLM) 是与用户协作完成不同任务的重要工具。评估它们的性能以满足用户在实际场景中的需求非常重要。虽然已经创建了许多基准测试,但它们主要关注特定的预定义模型能力。很少有人介绍真实用户对 LLM 的预期用途。为了解决这一疏忽,我们建议在数据集构建和评估设计中从用户的角度对 LLM 进行基准测试。我们首先从来自 23 个国家/地区的 712 名参与者的用户研究中收集了 1,846 个真实案例和 15 个 LLM。这形成了用户报告场景 (URS) 数据集,其中包含 7 个用户意图的分类。其次,在这个真实的多元文化数据集上,我们对 10 项 LLM 服务在满足用户需求方面的功效进行了基准测试。第三,我们表明我们的基准分数与用户报告的跨不同意图的 LLM 交互体验非常一致,这两者都强调了对主观场景的忽视。总之,我们的研究建议从以用户为中心的角度对 LLM 进行基准测试,旨在促进更好地反映真实用户需求的评估。基准测试数据集和代码可在 https://github.com/Alice1998/URS 获取。