国内外大模型 “人情味” PK，调教最暖大模型

开源中国社区团队直播首秀，以分享为名讲述开源中国社区背后的故事”

人工智能领域迎来了期待已久的 “智慧涌现”，受到了全社会的关注和热议，但有相当一部分社会群体，除了关注大模型能否提供实用信息，也期待大模型的回答能温暖心灵、提供关怀，通俗来讲，他们期待大模型亦能有 “人情味” 的涌现。

近日，中国社科院社会学所、腾讯研究院、腾讯 SSV 银发科技实验室、腾讯 SSV 数字生态实验室和中国残联公益组织 - 腾讯无障碍创新实验室联合发布了调教最暖大模型 —— 通过 prompt 调试并比较国内外大模型 “人情味” 的小实验。

以下是该文件的核心内容概要：

研究背景与问题：
- 社会群体不仅期待大模型提供实用信息，还希望 AI 的回答能够温暖人心、提供关怀。
- 通过焦点小组讨论，收集了老年人、残疾人和心情低落者对大模型的提问和感受。
人情味的定义与测量：
- 人情味通常指人与人之间的温暖感情和兴味。
- 提出了一个 “人情味” 的测量表，从拟人、共情和表达三个层面进行评估。
实验设计与对象：
- 选择了 2 款国外大模型（GPT-4 和 Vicuna）和 3 款国内大模型进行比较。
- 实验时间为 2023 年 10 月，考虑到大模型更新迭代快，结论仅代表当时的水平。
实验发现：
- 在原始状态下，国内大模型在老年话题相关问答上更具人情味，而国外大模型在心情低落相关问答上表现更佳。
- 经过 prompt 调试后，GPT-4 的人情味得分提升显著，排名快速上升。
prompt 的撰写与效果：
- 提出了两种类型的 prompt：原则型和答案对型，并通过实验发现它们都能显著提升大模型的人情味。
- 分析了不同大模型对两种 prompt 的响应情况，发现各有适合的 prompt 类型。
实验技巧与最佳组合：
- 分享了如何有效使用 prompt 来提升大模型的人情味。
- 展示了在不同话题下，哪些大模型与 prompt 的组合效果最佳。
实战分析：
- 探讨了大模型在学习 “人情味” 方面的难点，发现拟人和共情能力有所提升，但表达友善度的提升较为有限。
人类与 AI 的比较：
- 通过让 20 位大学生撰写答案并进行人情味测量，发现人类在拟人、共情和表达层面都遥遥领先于 AI 模型。
结论与倡议：
- 强调了 “公众科技力” 的重要性，鼓励普通人参与到科技创新中，包括弱势群体。
- 通过实验流程的详细描述，展示了普通人如何通过简单的方法提升大模型的人情味。

目前，该报告已上传至开源中国 APP，详情可至「开源中国 APP - 报告模块」下载查看。

APP 下载地址：https://www.oschina.net/app

猜你喜欢

目录

热门文章