1.国内外目前主流的大模型
AI大模型是平台级AI,包括大模型如ChatGPT等,可以作为技术基础,全面赋能操作系统,被视为下一代操作系统的新内核
序号 |
模型名称 |
研发机构/公司 |
主要特点/能力 |
1 |
ChatGPT |
OpenAI |
基于GPT-3.5的大型语言模型,支持多轮对话,生成创意内容,广泛应用于问答、聊天等场景 |
2
扫描二维码关注公众号,回复:
17438546 查看本文章
![]() |
GPT-4 |
OpenAI |
多模态预训练大模型,支持图像和文本输入,输出及回复,在多个专业测试和学术基准上表现优异 |
3 |
Llama 3 |
Meta |
基于Transformer的大语言对话模型,拥有1370亿个参数,进行广泛对话训练,能够自由流畅地对话 |
4 |
PaLM/Gemini/Imagen3 |
|
PaLM是自然预研大模型,Gemini是多模态大模型,能够处理文本图像、音频和视频等多种类型的数据,magen 3是文生图模型 |
5 |
文心一言 |
百度 |
具备文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力,应用于文学创作、商业文案、语音处理等多个领域 |
6 |
通义千问 |
阿里巴巴 |
创意文案、办公助理、学习助手、趣味生活等多个应用场景,提供丰富交互体验 |
7 |
讯飞星火 |
科大讯飞 |
具备文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力,助力知识学习和内容创作 |
8 |
混元 |
腾讯 |
具备强大的语言理解和生成能力,能够进行多轮对话、文本创作、知识问答等多种任务 |
9 |
豆包 |
字节跳动 |
豆包大模型家族包括通用模型Pro、通用模型lite、语音识别模型、文生图模型等九款模型 |
10 |
日日新 |
商汤科技 |
包括自然语言处理模型“商量”(SenseChat)、文生图模型“秒画”和数字人视频生成平台“如影”(SenseAvatar)等 |
11 |
盘古 |
华为 |
包括NLP大模型、CV大模型、科学计算大模型等,旨在深度赋能工业制造等多个领域 |
12 |
Ajax GPT/Ferret |
苹果 |
Ajax GPT为大语言模型,Ferret 为多模态大语言模型 |
2.大模型分类
按照部署方式划分,AI大模型主要分为云侧大模型和端侧大模型两类。
云侧大模型由于部署在云端,其拥有更大的参数规模、更多的算力资源以及海量的数据存储需求等特点;
端侧大模型通常部署在手机、PC 等终端上,具有参数规模小、本地化运行、隐私保护强等特点
3.多模态大模型与NLP及CV大模型对比
多模态大模型 |
NLP自然语言处理大模型 |
CV计算机视觉大模型 |
||
描述 |
需要综合处理多种信息源的领域 |
自然语言处理领域,处理文本和自然语言 |
计算机视觉领域,处理图像和视频 |
|
示例 |
自动驾驶,医疗辅助,智能客服 |
文本摘要,报告总结 |
进行图像识别,分类,分割等 |
|
描述 |
可同时处理和分析来自不同模态的数据 |
输入数据为文本,关注文本的语义理解 |
输入数据为图像与视频,关注图像视觉特征 |
|
示例 |
文本描述和图像内容结合,语音和面部表情结合 |
输入数据如句子、段落或整个文档 |
/ |
|
模型结构 |
采用深度学习算法,结合CNN/RNN/ Transformer等多种网络结构处理不同模态数据 |
通常采用循环神经网络(RNN)、卷积神经网络(CNN)或Transformer等结构,以处理文本数据 |
常采用卷积神经网络(CNN)、深度残差网络(ResNet)等结构 |
|
关键技术 |
包括数据融合、跨模态表示学习、多模态交互等,以实现不同模态信息之间的有效整合和交互 |
关注文本的语义理解,通过词的嵌入表示、注意力机制等技术实现文本的深层特征抽取和组合 |
关注图像的视觉特征提取和分析,通过卷积、池化等操作实现图像的有效表示 |
|
评估指标 |
可能包括准确率、召回率、F1值、交并比(IoU)等多种指标的综合考量 |
通常采用准确率、召回率、F1值等指标来评估模型的性能 |
常采用准确率、精确率、召回率、交并比(IoU)等指标来评估模型的性能 |
4.当下各芯片厂家合作大模型的情况
芯片厂家 |
支持芯片型号 |
合作大模型厂家 |
英伟达 |
Orin系列 |
包括但不限于OpenAI(GPT系列模型)、谷歌(TPU支持的模型)等 |
华为 |
Ascend系列芯片 |
包括华为盘古,百度(文心一言等)、阿里巴巴(通义千问等)等 |
阿里巴巴 |
含光800 |
主要支持通义千问的推理和部署 |
高通 |
8gen3以上系列 |
包括文心一言, Llama,GPT-4, PaLM (8295、8775以及8255等芯片在不同程度上均支持大模型的部署和应用); 骁龙8Gen3,支持运行100亿参数端侧大模型 |
MTK |
天玑9300系列/ CT-X1/CT-Y1 |
包括通义千问, CT-Y1和CT-X1分别支持70亿和130亿参数的AI大语言模型; 天玑9300支持运行10亿至330亿参数的端侧大模型 |
Intel |
在客户端CPU中采用了Chiplet(芯粒)设计和自家的Foveros先进封装技术,集成了NPU(神经网络处理单元),可以本地运行200亿参数大模型,无需联网即可秒级生成高质量多模态数据 |
|
地平线 |
J6系列 |
/ |
SambaNova |
SN40L |
2023 年,该公司宣布发布其最新的 AI 芯片 SN40L |
Cerebras Systems |
WSE-3 |
据该公司称,WSE-3 配备 4 万亿个晶体管,可以处理数万亿个参数的生成式 AI 任务 |
Intel |
Gaudi 3 |
号称它将提供高达 1.7 倍的训练性能、50% 的推理能力和 40% 的效率 |
AMD |
MI300系列 |
/ |
5.当下端侧大模型部署的软硬件通用方案
软硬件方案 |
描述 |
示例 |
硬件方案 |
专用AI芯片 |
NVIDIA Jetson系列、高通8Gen4以上、联发科天玑9300等旗舰芯片上部署了通义千问大模型,这些芯片集成了高性能的NPU(神经网络处理单元),专为AI推理设计,能够显著提升大模型在端侧的推理速度 |
边缘计算盒 |
百度EdgeBoard系列,集成了高性能的AI计算单元和存储单元,适用于对算力要求较高的场景,如工业质检、安防监控等;地平线的征程6系列芯片等 |
|
高性能嵌入式设备 |
ARM架构工业级开发板 |
|
软件方案 |
模型压缩与优化 |
飞桨PaddleSlim、Paddle Lite等通过量化、剪枝、蒸馏等技术,减少模型的体积和复杂度,提高推理效率 |
端侧推理框架 |
TensorFlow Lite、Paddle Lite、ONNX Runtime等,这些框架支持将训练好的模型转换为端侧可执行的格式,并提供高效的推理能力 |
|
自动化部署工具 |
百度EasyEdge,提供了一站式的模型训练、优化、部署服务,支持多种硬件平台和操作系统,降低了模型端侧部署的门槛 |
6.端侧大模型对硬件侧的要求
端侧大模型对芯片算力,内存,内存带宽,功耗和散热都有一定要求,依据模型的大小,参数要求也不同,以手机端为例,参考如下示例
装载和运行端侧AI大模型的存储芯片、主控芯片的CPU\GPU\NPU\RAM设计、AI智能传感器、运行AI智能传感器TinyML微模型的MCU\ROM、集成度更高的SLP类载板主板、AiP集成天线等,将是产业升级的核心重点
以车端高通芯片来看,8255目前可以部署支持的参数在1.5B左右,8295在3B左右,8775在6B左右
7.大模型优势
1)能提升识别精度,并提升交互方式的体验, 真正扮演智能助理角色
利用大模型的理解能力,能够提升指令的识别精度,并处理:
• 复杂语义,如“调整座椅靠背到令我习惯的位置,并打开空调到合适的温度,然后打开音乐播放一首张信哲热度最高的歌曲”。
• 模糊需求,如“我想去吃饭,但没想好去哪儿吃什么”。
• 隐含意图,如“这屏幕也太不清楚了吧”。
• 开放式需求,如“帮我想一遍年度总结报告”。
部分难以处理的交互方式也可利用大模型处理
2)大模型特别是在车端能显著增强用户情感共鸣和沉浸感,带来更多场景和功能
3)利用大模型生成能力取代部分APP, 简化用户操作控制,同时在智能客服上的应用可以降本生效
例如AI大模型的多模态生成能力已经开始取代一部分车机生态APP,由用户自定义的“一句话任务生成”功能进一步提升用户座舱定制化的普及率。同时, AI Agent的“用车百科”、“智能客服”等模块,能够大大降低车企在售后维护方面的人力成本,实现降本增效。Agent生成能力可取代部分APP,并简化车控功能
8. 大模型发展趋势
1)大模型的技术发展将趋向多功能与小型化,底层框架将趋于标准化,后进者机会可能是基于标准框架进行二次开发应用
2)基于大小模型和应用方向的不同, 模型参数也有分化,端侧短期来看模型参数将维持在10B以下
9.大模型与小模型
大小模型的选择可根据实际业务需求、资源投入、数据情况等具体选择模型参数情况
大模型训练时间长、投入资源高、可解释性差,更适合需要极强理解和表达能力的知识密集领域,大模型的横向生态融合,多聚焦于多模理解、文本生成、图片生成、音频生成等不同领域大模型的融合,在特定规则任务中仍然有发展和应用传统AI小模型的必要。大模型具有语义理解、任务推理等强大能力,但并不能完全替代小模型。在某些基础和垂直行业领域,小模型具备精准分类、响应快速等特点,仍不可或缺
类型 |
小模型 |
大模型 |
代表模型 |
经典机器/深度学习模型,如CNN、 RNN |
GPT-4、 LLaMA、文心一言 |
参数量 |
小(万-千万级) |
大(亿级) |
训练数据量 |
低(百-万级) |
高(百万级) |
训练时间 |
短(分钟-小时级) |
长(日-月级) |
计算资源需求 |
服务器、嵌入式设备、移动设备等 |
高性能服务器集群 |
泛化能力 |
无,只能处理训练的特定任务 |
有,具备学习、推理和联想能力 |
优势 |
轻量化、易解释、高实时 |
强表达、可泛化、自学习 |
不足 |
难以处理复杂问题 |
资源要求高,幻觉、偏见难消除 |
适用范围 |
特定规则任务、 高准确要求领域, 如趋势预测、图像分类、文本分类等 |
需要知识储备、 高创意要求领域, 如语义理解、文本生成、图像创作等 |
10.当下大模型的主要应用
1)手机端
AI大模型在手机端的主要应用体现在个性化推荐,语音助手,图像处理,智能翻译等方面
类型 |
手机端 |
个性化推荐 |
AI大模型能够根据用户的喜好、行为习惯和需求,提供个性化的内容推荐 |
语音助手 |
AI大模型在语音识别和自然语言处理方面的能力使得手机语音助手更加智能 |
图像识别与处理 |
通过AI算法实现智能美颜、场景识别等功能,而图像搜索则可根据用户上传的图片快速找到相似或相关的内容 |
智能翻译 |
AI大模型使得手机上的翻译应用能够实现快速、准确的实时翻译,打破语言障碍 |
健康管理 |
AI大模型为用户提供个性化的运动和饮食建议,帮助其保持健康的生活方式 |
大模型于手机的影响
(1). 当下智能手机发展处于困境,需要新的技术进入以破局
a)当下用户换机欲望降低,手机硬件迭代升级缓慢,软件体验没有突破,全球智能手机换机周期拉长到4年
b)手机进入存量市场,技术创新是拉动其回到复苏周期的关键,产业链在呼唤新的力量来打破僵局
c)手机行业竞争固化,唯有新的技术出现,才容易出现排名洗牌和弯道超车,改变市场格局
d)把握AI手机先发优势的手机厂商将率先抢占用户心智,厚植品牌效应;获取海量用户数据并进一步训练和优化端侧大模型,不断优化用户体验,有望形成飞轮效应;培养并提升用户黏性
(2). 大模型在目前手机上的一些应用
a)OPPO 推出 AI 大模型通话摘要功能,可以提取和总结通话中的要点信息
b)三星内置通话实时双向翻译和文字翻译功能, 无需第三方应用并支持 13 种语言。效率提升类目前已有笔记智能摘要、 网页智能摘要等功能落地,三星即圈即搜功能进一步完善了交互逻辑
c)Pixel 系列推出的个人助手 Assistant with Bard 初步具备智能助力雏形
d)魅族 21 pro 系列推出的 Aicy 助手初步具备智能助力雏形
e)Apple Intelligence核心能力包括文生文、文生图、跨App交互与个人情境理解,并需要以OpenAI Chat GPT4作为云端备选模型,配备上了目前已有的大部分AI功能
(3)AI手机典型应用及趋势
目前语音助手、修图、写作助手等功能成为主流
2)车端
AI大模型在车端的应用正在逐步深化,为智能座舱和智能驾驶技术的发展注入了新的动力,带来了更多场景和功能
类型 |
智能座舱 |
车载语音助手 |
AI大模型在车载语音助手领域主要聚焦于深化语义理解和优化语料生成,从而精准捕捉用户的意图与需求,轻松应对复杂语句和语境,并输出自然、拟人、流畅且逻辑清晰的回答与建议,为用户提供更好的“情绪价值” |
多模态交互 |
大模型技术的多模态特点可以综合处理语音、视觉、触觉等多种类型的数据,使智能座舱能更全方位地感知乘客和驾驶员的需求,提供多模态且更专业化的服务 |
类型 |
智能驾驶 |
计算机视觉 |
AI大模型通过计算机视觉技术,能够实时处理和分析来自摄像头等传感器的图像数据,准确识别道路标志、交通标识、行人、车辆、障碍物等,构建出详细的环境地图 |
多传感器融合 |
AI大模型能够整合来自不同传感器(如摄像头、激光雷达、雷达等)的数据,通过跨模态学习,提高感知系统的准确性和鲁棒性。这种多传感器融合技术能够更全面地感知周围环境,减少感知盲区 |
路径规划与决策制定 |
AI大模型通过分析环境、交通状况、地图数据等,制定车辆的最佳路径和行驶策略。这需要综合考虑交通规则、道路状况、车辆性能等多种因素,以确保车辆能够安全、高效地行驶 |
实时决策与避障 |
AI大模型能够实时分析周围环境的变化,做出即时的决策,避免障碍物、规避危险情况。这包括急刹车、变道、超车等复杂动作,确保车辆和乘客的安全 |
车辆控制 |
AI大模型负责生成控制命令,包括油门、刹车、方向盘等,以实现车辆的自动控制。这些控制命令需要精确无误地执行,以确保车辆按照规划路径稳定行驶 |
在线学习与模型迭代 |
AI大模型的参数需要根据实际使用情况不断更新和优化,以适应不同的驾驶场景、改进性能,并处理新的挑战和问题。这可以通过在线学习、模型迭代等技术实现 |
仿真测试与验证 |
AI大模型在虚拟环境中进行大规模仿真测试,以验证驾驶决策、训练模型和测试系统的鲁棒性。通过模拟不同场景和极端情况,可以更全面地评估系统的性能,减少在实际道路测试中的风险 |