中国电信推出开源大模型 TeleChat2 - 115B：全国产化万卡集群训练的创举

随着人工智能技术的飞速发展，自然语言处理（NLP）在各个领域的应用越来越广泛。从智能客服到内容生成，从机器翻译到智能问答，对语言模型的理解和生成能力提出了更高的要求。中国电信人工智能研究院顺应这一趋势，研发出了TeleChat2模型，旨在为用户提供更智能、更高效的语言服务。

一、TeleChat2介绍

星辰语义大模型TeleChat2是由中国电信人工智能研究院研发训练的大语言模型，该系列模型完全基于国产算力训练。本次开源TeleChat2-115B模型采用10万亿 Tokens中英文高质量语料进行训练，同步开源对话模型TeleChat2-115B的多格式、多平台权重文件。TeleChat2在训练数据、训练方法等方面进行了改进，在通用问答和知识类、代码类、数学类榜单上相比TeleChat1均有大幅提升。

*二、TeleChat2的训练基础与平台**

1. 强大的训练平台

TeleChat2是基于中国电信自研的天翼云“息壤一体化智算服务平台”和人工智能公司“星海AI平台”训练完成的。这个全国产化的训练平台为TeleChat2的诞生提供了坚实的基础。

天翼云“息壤一体化智算服务平台”具有强大的计算能力和存储能力，能够支持大规模的数据处理和模型训练。它为TeleChat2提供了高效的计算资源，使得模型能够在短时间内完成大量的训练迭代。
“星海AI平台”则为模型的训练和优化提供了丰富的工具和算法。通过这个平台，研究人员能够对模型进行精细的调整和优化，提高模型的性能和准确性。

2. 训练数据与处理

在数据方面，TeleChat2经过了精心的筛选和处理。研究人员对大量的文本数据进行了清洗、筛选和标注，以确保数据的质量和准确性。这些数据涵盖了多个领域和主题，包括新闻、科技、文化、娱乐等，使得TeleChat2能够理解和处理各种类型的自然语言。

为了进一步提高数据的质量和多样性，研究人员还采用了数据混合和数据合成的方法。数据混合通过在线领域采样权重调整算法，将不同来源和类型的数据进行合理的混合，使得模型能够学习到不同领域和风格的语言表达方式。数据合成则通过构建复杂指令，让大模型生成知识密度高的合成数据，丰富了训练数据的内容。

三、TeleChat2的性能表现

1. 高效的训练效率

TeleChat2在保证训练精度的前提下，利用多种优化手段提升了模型训练效率和稳定性。它实现了GPU同等算力计算效率的93%以上，同时模型有效训练时长占比达到98%以上。这意味着在相同的硬件条件下，TeleChat2能够更快地完成训练，并且训练效果更加稳定可靠。

2. 卓越的通用能力

在2024年9月最新公布的C-Eval评测Open Access模型综合榜单中，TeleChat2以86.9分的成绩排名第一。它的通用能力较之前的TeleChat系列模型提升近30%，特别是在工具使用、逻辑推理、数学计算、代码生成和长文写作等方面能力均有大幅提升。

在工具使用方面，TeleChat2能够更好地理解用户的需求，并根据需求调用相应的工具，为用户提供更加准确和有用的服务。
逻辑推理能力的提升使得TeleChat2能够更好地理解和分析复杂的逻辑关系，从而给出更加合理和准确的答案。
在数学计算方面，它能够快速准确地进行各种数学运算，为用户解决数学问题提供了有力的支持。
代码生成能力的增强使得开发人员可以利用TeleChat2生成高质量的代码片段，提高开发效率。
长文写作能力的提升则使得TeleChat2能够生成更加连贯、逻辑清晰、内容丰富的长文，满足用户在内容创作方面的需求。

四、TeleChat2的技术优势

1. 模型构建的创新

位置编码：TeleChat2采用了Rotary embedding位置编码。这种位置编码方式能够更好地捕捉文本中的位置信息，提高模型对长文本的处理能力。与传统的位置编码方式相比，Rotary embedding在处理长文本时具有更好的性能和准确性。
激活函数：激活函数选用了swiglu替代gelu。Swiglu激活函数具有更好的非线性表达能力，能够使模型更好地拟合复杂的数据分布，从而提高模型的性能。
层标准化：层标准化运用基于rmsnorm的pre-normalization。这种层标准化方式能够有效地稳定模型的训练过程，减少梯度消失和爆炸的问题，提高模型的训练效率和稳定性。
参数解耦：将词嵌入层与输出lmhead层参数解耦，这样可以减少模型的参数数量，提高模型的训练效率和泛化能力。
应用GQA：在大参数模型上应用GQA（Group-Query Attention）技术，能够有效地提高模型的并行计算能力和推理速度，从而提高模型的性能。

2. 数据处理的优化

如前所述，TeleChat2在数据处理方面进行了多方面的优化。数据清洗运用了多种手段提升预训练数据质量，去除了噪声和错误的数据，使得模型能够学习到更加准确和有用的信息。
数据混合采用在线领域采样权重调整算法，使得模型能够学习到不同领域和风格的语言表达方式，提高了模型的通用性和适应性。
数据合成构建了复杂指令让大模型生成知识密度高的合成数据，丰富了训练数据的内容，提高了模型的知识储备和语言理解能力。

五、TeleChat2的应用前景

1. 智能客服

TeleChat2可以应用于智能客服领域，为用户提供更加智能、高效的服务。它能够理解用户的问题，并快速准确地给出答案，提高客户满意度。

2. 内容生成

在内容生成方面，TeleChat2可以帮助用户生成文章、故事、诗歌等各种类型的文本内容。它的长文写作能力和丰富的语言表达能力能够为用户提供高质量的内容创作支持。

3. 机器翻译

凭借其强大的语言理解和生成能力，TeleChat2可以在机器翻译领域发挥重要作用。它能够准确地理解源语言的含义，并生成流畅自然的目标语言译文。

4. 智能问答

TeleChat2可以应用于智能问答系统，为用户提供准确、详细的答案。无论是在学术研究、日常生活还是工作中，它都能够帮助用户快速获取所需的信息。

六、TeleChat2模型部署推理

import os``import torch``from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig``   ``tokenizer = AutoTokenizer.from_pretrained('../models/115B', trust_remote_code=True)``model = AutoModelForCausalLM.from_pretrained(`  `'../models/115B',``   trust_remote_code=True,  ``  device_map="auto",`  `torch_dtype=torch.float16)``   ``generate_config = GenerationConfig.from_pretrained('../models/115B')``question = "生抽与老抽的区别？"``answer, history = model.chat(`  `tokenizer=tokenizer,``   question=question,  ``   history=[],  ``  generation_config=generate_config,`  `stream=False)``   ``print(answer)

输出：

生抽和老抽是两种不同的酱油，它们在风味、色泽和用途上都有所区别。

1.颜色：生抽的颜色比较淡，而老抽的颜色较深。生抽的颜色呈红褐色或棕红色，而老抽的颜色则呈棕黑色。

2.味道：生抽具有鲜美的咸味和微甜的味浅，而老抽浓郁，颜色较深。根据个人口味和烹饪需求选择不同的酱油类型可以获得更好的口感和菜肴效果。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】