人工智能领域迎来了期待已久的 “智慧涌现”,受到了全社会的关注和热议,但有相当一部分社会群体,除了关注大模型能否提供实用信息, 也期待大模型的回答能温暖心灵、提供关怀,通俗来讲,他们期待大模型亦能有 “人情味” 的涌现。
近日,中国社科院社会学所、腾讯研究院、腾讯 SSV 银发科技实验室、腾讯 SSV 数字生态实验室和中国残联公益组织 - 腾讯无障碍创新实验室联合发布了调教最暖大模型 —— 通过 prompt 调试并比较国内外大模型 “人情味” 的小实验。
以下是该文件的核心内容概要:
-
研究背景与问题:
- 社会群体不仅期待大模型提供实用信息,还希望 AI 的回答能够温暖人心、提供关怀。
- 通过焦点小组讨论,收集了老年人、残疾人和心情低落者对大模型的提问和感受。
-
人情味的定义与测量:
- 人情味通常指人与人之间的温暖感情和兴味。
- 提出了一个 “人情味” 的测量表,从拟人、共情和表达三个层面进行评估。
-
实验设计与对象:
- 选择了 2 款国外大模型(GPT-4 和 Vicuna)和 3 款国内大模型进行比较。
- 实验时间为 2023 年 10 月,考虑到大模型更新迭代快,结论仅代表当时的水平。
-
实验发现:
- 在原始状态下,国内大模型在老年话题相关问答上更具人情味,而国外大模型在心情低落相关问答上表现更佳。
- 经过 prompt 调试后,GPT-4 的人情味得分提升显著,排名快速上升。
-
prompt 的撰写与效果:
- 提出了两种类型的 prompt:原则型和答案对型,并通过实验发现它们都能显著提升大模型的人情味。
- 分析了不同大模型对两种 prompt 的响应情况,发现各有适合的 prompt 类型。
-
实验技巧与最佳组合:
- 分享了如何有效使用 prompt 来提升大模型的人情味。
- 展示了在不同话题下,哪些大模型与 prompt 的组合效果最佳。
-
实战分析:
- 探讨了大模型在学习 “人情味” 方面的难点,发现拟人和共情能力有所提升,但表达友善度的提升较为有限。
-
人类与 AI 的比较:
- 通过让 20 位大学生撰写答案并进行人情味测量,发现人类在拟人、共情和表达层面都遥遥领先于 AI 模型。
-
结论与倡议:
- 强调了 “公众科技力” 的重要性,鼓励普通人参与到科技创新中,包括弱势群体。
- 通过实验流程的详细描述,展示了普通人如何通过简单的方法提升大模型的人情味。
目前,该报告已上传至开源中国 APP,详情可至「开源中国 APP - 报告模块」下载查看。
APP 下载地址:https://www.oschina.net/app
{{o.name}}
{{m.name}}