ChatGLM2-12B 评测效果公布 - 代码天地

ChatGLM2-12B 评测效果公布

业界资讯 2023-07-28 17:07:48 阅读次数: 0

距离 ChatGLM2 系列模型发布已有月余。日前，GLM 技术团队公布了 ChatGLM2-12B 在部分中英文典型数据集上的评测效果，数据集包括 MMLU(英文)、C-Eval(中文)、GSM8K(数学) 和 BBH(英文) 等。

“ChatGLM2-12B 模型在这些数据集上取得了不错的成绩。我们将继续不断改进和优化模型，以提供更优质的模型效果。”

MMLU

Chat 模型使用 zero-shot CoT (Chain-of-Thought) 的方法测试，Base 模型使用 few-shot answer-only 的方法测试。

C-Eval

Chat 模型使用 zero-shot CoT 的方法测试，Base 模型使用 few-shot answer only 的方法测试。

GSM8K

所有模型均使用 few-shot CoT 的方法测试，CoT prompt 来自 http://arxiv.org/abs/2201.11903

* 使用翻译 API 翻译了 GSM8K 中的 500 道题目和 CoT prompt 并进行了人工校对。

BBH

所有模型均使用 few-shot CoT 的方法测试，CoT prompt 来自此处。

猜你喜欢

转载自www.oschina.net/news/251279

ChatGLM2-12B 评测效果公布

ChatGLM 更新：LongBench—评测长文本理解能力的数据集，支持 32k 上下文的 ChatGLM2-6B-32K

降噪效果评测

AI虚拟主播数字人技术实现Wav2Lip【附完整版教程】及【效果评测】

ChatGLM2-6B 本地部署

ChatGLM2-6B，部署及微调

回声消除aec 效果评测

AIIA 公布首轮AI芯片基准评测结果

B-评测系统

ChatGLM2-6B、ChatGLM-6B 模型训练自己数据集实战

超写实虚拟数字人再升级：Wav2Lip-GFPGAN完整版教程及效果视频评测【手把手】

十分钟部署清华ChatGLM-6B，实测效果还可以~~（Linux版）

Camera效果评测-灰阶GAMMA测试

Camera效果评测-清晰度测试

第2模块评测

Ubuntu部署ChatGLM2-6B踩坑记录

Chatbot UI 和 ChatGLM2-6B 的集成

ChatGLM2-6B 训练参数解释

ChatGLM2-6B在Windows下的微调

Chatglm2-6b模型相关问题

JPEG公布智能图像编码提案结果，火山引擎排名主观质量评测第一

2023上半年“可信数安”评估评测结果公布

IPhone se2评测:

GLM 130B和chatGLM2-6B模型结构

B2B电商平台有哪几个？2023B2B电子商务平台排行榜公布

树莓派3B+发布评测

搭建AEC效果评测系统：（1）系统方案设计

中文分词器分词效果的评测方法

LLM - 第2版 ChatGLM2-6B (General Language Model) 的工程配置

（三）ChatGLM-6B 的 DeepSpeed/P-Tuning v2微调

今日推荐

周排行

键盘回车事件

提升git clone的速度

JDK8系列之LongAdder解析

ajax+formData完成多图片回显上传

个税起征点上调至5000元，你能多拿多少钱？

Exploding Carbon Nanotubes Could Work as Drug-Bas power sensor ed Delivery Devices

南京邮电大学网络攻防训练平台逆向第四题WxyVM

HTTP状态码记录

报错Permission denied: user=root, access=EXECUTE, inode="/tmp/hadoop-root"解决办法

sublime编译c

每日归档

更多

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)