小罗碎碎念
紧追学术进展的,不仅只有学术界,还有头部公司们。
最近两年大模型这个概念变得家喻户晓,也彻底融入大家的日常生活中。通用大模型的成熟,意味着产业界将开始寻找下一个切入点。
目前市面上的大模型想要实际应用于自己的公司或产品,还有很长一段路要走。
其余医学AI领域的发展趋势和整体行业的发展趋势是一样的——未来基础模型的研究会大幅度减少,更多的课题组将研究如何将现有的基础模型实际应用于自己的特定研究领域——由通才转变为专才。
一、2023 年以来我国各地出台的大模型产业相关政策
二、AI 大模型主要类型
按照部署方式划分,人工智能(AI)大模型主要可以分为云侧大模型和端侧大模型两大类。
2-1:云侧大模型
云侧大模型通常部署在远程服务器或数据中心,这些模型能够利用云计算的强大能力,处理和分析大量数据。由于其部署在云端,云侧大模型具有以下几个显著特点:
- 参数规模大:云侧大模型通常包含数亿甚至数千亿的参数,这使得它们能够捕捉和学习复杂的数据模式。
- 算力资源丰富:云端提供了几乎无限的计算资源,使得大模型能够进行高效的训练和推理。
- 数据存储需求高:为了支持模型的训练和运行,云侧大模型需要访问和存储海量的数据。
云侧大模型进一步细分为通用大模型和行业大模型。通用大模型的设计目标是广泛的适用性,它们在训练时使用跨领域的数据集,能够处理多种类型的任务,如语言翻译、图像识别等,具有很高的普适性。而行业大模型则是针对特定行业的需求定制的,例如金融行业的大模型会专注于风险评估和市场分析,医疗行业的大模型则专注于疾病诊断和治疗建议。这些模型因为专注于特定领域,所以能够提供更深入的业务理解和更精准的场景应用。
2-2:端侧大模型
端侧大模型则部署在用户的个人设备上,如智能手机、个人电脑等。与云侧大模型相比,端侧大模型有以下几个特点:
- 参数规模小:由于设备资源的限制,端侧大模型的参数数量通常较少。
- 本地化运行:端侧大模型在用户的设备上运行,可以减少对网络连接的依赖。
- 隐私保护强:数据在本地处理,减少了数据传输过程中的隐私泄露风险。
端侧大模型主要包括手机大模型和PC大模型。这些模型直接在用户设备上运行,能够提供更加个性化和即时的智能服务。例如,手机上的大模型可以用于语音识别、图像编辑等,而PC上的大模型则可以用于复杂的数据分析和创意工作。端侧大模型的部署方式使得用户能够享受到更加流畅和私密的智能体验,同时也对设备的计算能力和能源效率提出了更高的要求。
2-3:中国 AI 大模型分类及典型案例
三、中国 AI 大模型产业发展所面临的挑战
3-1:大模型产业遭遇算力瓶颈
随着人工智能技术的飞速发展,AI大模型的规模和复杂性也在不断增长,这对计算资源提出了更高的要求。AI大模型的训练过程需要大量的算力来处理和学习海量数据,这些数据的规模和多样性直接影响到模型的性能和智能水平。特别是在大型语言模型(LLM)如GPT系列中,算力成为了决定模型“智商”的关键因素。
高性能AI芯片是提供所需算力的核心硬件。目前,英伟达的A100和H100芯片是市场上公认的高性能AI芯片,它们被广泛应用于主流AI大模型的训练中。例如,微软Azure云服务为ChatGPT提供了1万枚英伟达A100 GPU,这样的算力配置成为了业界公认的AI大模型训练的门槛。然而,在国内,拥有如此规模GPU资源的企业并不多,且单个GPU的性能普遍低于英伟达A100。
由于英伟达A100及以上性能的GPU被列入了出口管制清单,中国企业获取这些高性能芯片的渠道受到了限制。作为替代品,英伟达A800成为了中国企业的选择,但A800同样面临着供应短缺和价格溢价的问题。这不仅增加了企业的成本,也限制了AI大模型训练的规模和速度。
面对这一挑战,中国正在加大在高性能芯片领域的研发投入,并取得了显著进展。华为海思、寒武纪、地平线、昆仑芯等中国本土企业正在成为高性能AI芯片的领军者。虽然国产芯片在性能上与国际顶尖水平仍有差距,但部分解决方案已经开始替代英伟达的产品,成为一些大型企业的选择。
中国的AI芯片产业正在快速发展,随着技术的不断突破和产业链的完善,预计未来国产高性能AI芯片将能够更好地满足国内AI大模型训练的需求。这不仅能够降低对外部供应链的依赖,还能够推动中国AI产业的自主可控和高质量发展。随着国产芯片性能的提升和成本的降低,AI大模型的训练将变得更加高效和经济,从而加速AI技术在各行各业的应用和创新。
3-2:主流大模型架构仍存在诸多局限
当前,主流AI大模型主要采用Transformer架构,这种架构虽然在处理自然语言任务上表现出色,但也存在一些局限性,尤其是在算力资源消耗和内存储量占用方面。
首先,Transformer架构的算力资源消耗普遍较大。由于其算法特性,计算量会随着上下文长度的增加呈平方级上升。例如,如果用户输入的上下文增加32倍,计算量可能会增加1000倍以上。这种计算复杂度的增长对于硬件资源的要求极高,尤其是在处理长序列数据时,需要大量的计算资源来保证模型的性能。
其次,基于Transformer架构的大模型对存储设备的要求也更高。在训练过程中,需要在内存中存储参数的当前值、梯度以及其他优化器状态。随着模型参数数量的增加,所需的计算量和存储空间也随之增加。例如,一个拥有1000亿个参数的Transformer模型,仅存储这些参数就需要大约400GB的空间。这不仅对硬件设备提出了更高的要求,也增加了训练和部署模型的成本。
为了应对这些挑战,研究者和工程师们正在探索新的模型架构和技术,以减少计算量和内存消耗,提高模型的效率。例如,Adaptive-Span Transformer、Reformer、Lite-Transformer等模型通过改进注意力机制,降低了内存和算力消耗。此外,一些技术如FlashAttention也在优化计算过程中的内存使用,减少数据搬运次数,提高计算效率。
尽管存在局限性,Transformer架构仍然是当前AI大模型的主流选择,并且随着技术的不断进步,未来可能会有新的解决方案来克服这些挑战。同时,国产芯片的发展也在为AI大模型的训练提供新的可能,尽管目前与国际顶尖水平存在一定差距,但随着投入的加大和技术的突破,有望逐步减少对外部高性能芯片的依赖。
3-3:高质量的训练数据集仍需扩展
国内的AI大模型数据来源主要依赖于互联网、电商、社交、搜索等渠道,这些数据虽然丰富,但也存在一些问题。
首先,数据类型的全面性不足,信息的可信度也有待提高。例如,悟道语料库虽然包括文本、图文和对话数据集,但其最大的数据集仅为5TB,其中开源的文本部分仅为200GB。而另一个开源的中文本数据集CLUECorps的大小为100GB。相比之下,GPT-3的训练数据量,主要以英语为主,达到了45TB。
此外,国内大模型的数据源调用存在一定的局限性,有效数据源呈现碎片化分散状态。例如,微信公众号的文章仅在搜狗引擎支持调用,而多数大模型如智谱清言在联网收集数据时无法直接调用微信公众号文章(PS:腾讯最近推出了一个知识库ima copilot,可以读取公众号文章)。这表明,尽管国内有着丰富的数据资源,但在数据的整合和利用上还有很大的提升空间。
政府部门的权威数据和大型企业掌握的行业或内部数据通常不对外公开,这也限制了大模型训练数据的来源和质量。以阿里巴巴的“通义千问”大模型为例,其训练数据主要来自公开来源的混合数据,中文语料主要来自知乎、百度百科、百度知道等公开网络数据,来源于政府及企业数据较少。
为了提升AI大模型的性能和应用范围,未来需要构建更高质量的训练数据集,并不断扩充数据源,提高数据质量。这不仅需要技术层面的创新,还需要政策支持和跨部门、跨行业的合作,以实现数据资源的共享和有效利用。同时,也需要关注数据的隐私保护和合规使用,确保AI大模型的发展既高效又安全。
四、中国 AI 大模型产业趋势展望
4-1:AI 云侧与端侧大模型满足不同需求,C 端用户将成为端侧的主要客群
中国的云侧大模型呈现出多样化和数量众多的特点,其中以百度的文心一言、阿里巴巴的通义千问、科大讯飞的星火认知大模型、腾讯的混元大模型等为代表。这些模型依赖于强大的算力和海量的训练数据,能够提供包括语言理解、知识问答、数学推理、代码生成等在内的多种能力。
对于C端个人用户,云侧大模型能够提供智能问答、文本生成、图片生成、视频生成等功能,极大地丰富了用户的数字生活体验。而对于B端企业用户,云侧大模型则能够变革企业的传统业务模式,提供营销、客服、会议记录、文本翻译、预算管理等个性化服务,帮助企业提升效率和创新能力。
端侧大模型则以其成本低、移动性强、数据安全等优势,主要应用在手机、PC等终端设备上。端侧大模型主要面向C端用户,能够重塑传统个人设备的使用方式和习惯,提供手机文档搜索、智能识屏、图像创作、生活助手、出行助手等专属服务。端侧大模型的数据保存在本地,个人数据不需要上传云端,这使得个人隐私数据更加安全。
成本方面,云侧大模型的服务器每年成本可达数亿或数十亿,高昂的服务器支出成为各大厂商发展大模型的障碍。而将大模型端侧化,能把一部分云端计算转移给终端,从而大大降低云端服务器成本。瑞银预计生成式AI智能手机出货量将从2023年的5000万部增长到2027年的5.83亿部,到2027年收入将达5130亿美元,显示了未来面向广大C端用户的端侧大模型市场前景广阔。
总的来说,中国的AI大模型在云侧和端侧都有广泛的应用和巨大的潜力,随着技术的不断进步和市场的不断扩大,未来大模型端侧化可能成为趋势,为个人和企业带来更多的便利和价值。
4-2:AI 大模型趋于通用化与专用化,垂直行业将是大模型的主战场
通用大模型以其庞大的参数规模、强大的泛化能力和优秀的多任务学习能力而著称。
这些模型通常拥有数百亿甚至上千亿的参数,通过在大规模数据集上进行训练,能够学习并捕捉复杂的规律和特征,从而对未见过的数据进行准确预测。
通用大模型能够处理多种任务,如文本总结、对话问答、逻辑推理等,得益于大规模预训练和微调范式,它们能够完成多领域任务,并具备多模态(包括文字、图像、语音、视频)理解和生成能力。
行业大模型则专为特定行业和领域设计,如金融、政务、医疗等,更好地处理相关行业的特定任务。例如,金融大模型可以帮助企业评估信用风险,政务大模型提供政务问答、公文撰写润色、内容审核等服务,而医疗大模型则为医生和患者提供影像诊疗、手术评估、导诊服务等。
与通用大模型相比,行业大模型具有更强的专业性和更高的数据安全性。它们将通用大模型的多领域能力集中在特定领域,模型参数相对较小,对于企业落地而言具有显著的成本优势。同时,行业大模型结合企业或机构内部数据,为B端用户的实际经营场景提供服务,能更加体现模型对于机构的降本增效作用。
未来,大模型的真正价值将体现在更多行业及企业的应用落地层面。行业大模型通过针对性训练降低计算资源需求,提高模型落地的经济性,同时使用行业数据有助于保护数据隐私和安全,规避通用大模型可能带来的数据泄露风险。
随着“人工智能+”战略的推进,行业大模型将成为推动传统产业智能化升级的重要工具,通过将先进的AI能力与行业场景相结合,为行业数字化转型提供新的路径和动能。
4-3:AI 大模型将广泛开源,小型开发者可调用大模型能力提升开发效率
未来,大模型开源化的趋势将有助于降低开发者的使用门槛,并提高算法的透明度和可信度。
例如,2022年8月,清华大学开源了中英双语预训练模型GLM-130B,该模型使用通用模型算法进行预训练。紧接着在2023年6月,百川智能发布了支持中英双语的开源可商用大规模预训练语言模型Baichuan-7B。
同年10月,智谱AI开源了ChatGLM3系列模型,而11月vivo开源了70亿参数的大模型,为开发者提供了获取大模型技术的渠道。到了12月,阿里云开源了Qwen-72B、Qwen-1.8B和Qwen-AudioQwen大模型,进一步推动了AI大模型产业的创新发展。
小型开发者将能够通过调用这些大模型的能力,显著提升编程效率,推动AI应用的落地。他们可以基于大模型进行项目、应用以及插件等的开发,无需担心算力资源的限制,也不必进行复杂的模型训练和参数调整,从而轻松实现应用的落地。
此外,通过在代码工具中集成大模型的能力,小型开发者可以辅助完成部分重复性工作,获得量身定制的代码建议,甚至自动检测代码中的Bug并生成相应的测试用例,有效缩短开发流程中的编码和纠错时间。
瑞银预测,生成式AI智能手机的出货量将从2023年的5000万部增长到2027年的5.83亿部,到2027年收入将达到5130亿美元,这表明面向广大C端用户的端侧大模型市场前景广阔。
随着大模型技术的不断进步和市场的扩大,端侧大模型化可能会成为未来的发展趋势,为个人和企业带来更多便利和价值。
4-4:AI 高性能芯片不断升级,AI 大模型产业生态体系将不断完善
在大模型场景下,AI高性能芯片主要用于大模型的训练环节,芯片性能的强弱直接影响大模型的性能和表现。
在全球AI高性能芯片市场中,英伟达的芯片产品采用最前沿半导体工艺和创新GPU架构保持行业的领先地位。目前,英伟达的A100芯片在主流AI大模型训练中占据重要市场份额,H100虽性能强劲但难以获取。AI高性能芯片未来将不断迭代升级,持续推动大模型性能和能力的提升。
在国内,AI高性能芯片近年来发展速度加快。其中,华为昇腾主要包括310和910两款主力芯片,其中昇腾910采用了7nm工艺,最高可提供256 TFLOPS的FP16计算能力,其能效比在行业中处于领先水平。寒武纪是中国具有代表性的另一本土AI芯片厂商,公司先后推出了思元290和思元370芯片及相应的云端智能加速卡系列产品、训练整机。
未来,随着全球AI高性能芯片不断迭代升级,也将持续推动大模型性能和能力的提升。
参考资料