本文是LLM系列文章,针对《Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators》的翻译。
与人类判断相一致:配对偏好在大型语言模型评估者中的作用
摘要
大型语言模型(LLM)作为评估生成的自然语言质量的自动评估器,已经证明了其很有前途的能力。然而,LLM在评估中仍然表现出偏见,并且经常难以产生与人类评估相一致的连贯评估。在这项工作中,我们首先对LLM评估者和人类判断之间的偏差进行了系统研究,揭示了旨在减轻偏差的现有校准方法不足以有效地调整LLM评估器。受RLHF中偏好数据使用的启发,我们将评估公式化为一个排序问题,并引入了成对偏好搜索(PAIRS),这是一种不确定性引导的搜索方法,使用LLM进行成对比较并有效地对候选文本进行排序。PAIRS在代表性评估任务上取得了最先进的性能,并比直接评分有了显著改进。此外,我们深入了解了成对偏好在量化LLM传递性中的作用,并展示了PAIRS如何从校准中受益。