众多高校和研究机构联合发表：LLMs评估综述

本篇文章是一份关于大型语言模型评估的综述，涵盖了评估的各种方法，包括评估什么、在哪里评估以及如何评估。

文章首先介绍了大型语言模型的发展历程和应用领域，然后详细介绍了大型语言模型的评估方法，包括人工评估、自动评估和基准测试等。接着，文章介绍了大型语言模型在不同任务中的表现，包括文本生成、问答、机器翻译等。最后，文章总结了大型语言模型评估的挑战和未来发展方向。

本文结构图

本文贡献点

LLMs评估论文趋势图

评估内容

本次调查涵盖了多个关键评估任务，包括一般自然语言处理任务、推理、医疗应用、伦理、教育、自然和社会科学、代理应用和其他领域。

最新综述评估任务总结

LLM 关于稳健性、道德、偏见和可信度的评估摘要。

基于数学、科学和工程三个方面的自然科学与工程任务评估综述

基于四个方面对医疗应用的评价总结：考试、助理、问答和教育

其他应用的评估总结，包含四方面：教育、搜拖推荐、性格测试和其他特殊任务

文章中提到了关于LLM在不同任务中成功和不成功的案例。

具体来说，在自然语言理解任务中，LLM在多项任务中表现出色。在文本生成任务中，LLM的生成质量有时甚至超过了人类提供的参考答案。然而，在法律任务中，LLM的零样本性能较差，存在多种问题，包括不完整的句子和单词、多个句子被无意义地合并以及更严重的错误，如不一致和虚构信息。