浅聊一下大模型

一项有重大突破的技术从问世到普及使用通常会经历如下阶段:

1、初始阶段的盲目崇拜。新技术表现出来的特征完全超出人们传统的经验认知,于是被奉为“神迹”,无论是技术还是创造技术的人,都会被捧得很高,光彩夺目。

2、跟风阶段的一片混乱。当然也会引来诸多跟风者,都试图在新技术开创的蓝海里分一杯羹。天下熙熙,皆为利来;天下壤壤,皆为利往。蹭热点的有的实力还不错,有的图个响刷下存在感,有的则是声东击西意在拉抬股价。

3、热点过后阶段的四处质疑。新技术的诞生期一定是不完美的,可能体现在成本高,可能体现在不稳定,可能体现性能差,林林总总,于是会被人攻击,抓着小问题放大质疑,于是有人幸灾乐祸,放话说不过如此。

4、产品打磨阶段的静寂无声。聚光灯下,难以打磨产品。舞台的喧闹、媒体的炒作会让人飘飘然。只有当炒作的潮水退却之后,真正意识到新技术价值,并且致力于用新技术去改变世界的人,才能持续投入持续发力。

5、成功阶段的摧枯拉朽。当技术短板得以弥补,产品更好地整合应用新技术发挥价值,不仅仅实现技术的成功,更获得商业上的成功,于是鲜花礼炮聚光灯再一次迎向成功者。

工业时代的电,互联网时代的电子商务、区块链、元宇宙莫不如是,同样,大模型也正走在这条路上。


在AI领域,目前最受欢迎且最成功的是神经网络。神经网络是个有意思的东西,当年大学期间浅浅地接触过,帮师兄写了几段实现代码,然后就改道方向,跑到应用软件领域,至今一直被诟病科创属性不强。而在此赛道上深耕的师兄,致力于机器人的研究,早几年晋升为工程院院士。openAI首席科学家Sutskever差不多同期接触神经网络,持续20年深研和实践,如今站上领域全球巅峰。

如果用可视化的方式,将大模型的机理打开,可能看到的就是一堆的圆和连线。圆代表着神经元,可作为计算和存储单元。连接线则对应着不同的权重,也可称为参数,通过训练进行调整。神经元将输入以及对应的权值进行函数运算,完成输出。如果输出不理想,则调整权值直到满意为止。

很显然,单一的神经元实现不了太多的能力,做做简单分类而已。但如果将神经元的个数和层数不断扩大和加深,神奇的效果就会显现出来。

More is different, 量变引发质变。

GPT1神经网络层数是12层,参数规模1.5亿;GPT2的层数翻倍到24层,参数规模上升到3.5亿,而到了GPT3到了96层,参数规模产生指数变化跃升到1750亿,GPT4的参数量更是超过万亿。

随着层数变深和参数规模变大,神经网络展现出玄妙的效果,变得似乎有了心智。通过高质量语料的训练,参数调整到位后,大模型不但懂得人类的表达,还能够以合乎场景合乎逻辑的方式进行对答。

尽管机器并不是真懂,而是通过将文字表征向量化,基于神经网络的推演,以统计和概率的方式识别以及生成相应的内容。结合注意力机制的加持,大段的文本文字都能以逻辑合理的方式整合在一起进行呈现。

最关键的是,经过训练后,大模型能够展现出来的理解能力、概括总结能力、推理能力已经达到了类人的水平。而一旦机器达到类人的水平,具备了通用的智能,加上机器不受限的存储(另一个关键是知识信息压缩)、不受限的输入、不眠不休的精力、以及持续的进化,整个社会形态确实可能发生巨变。


大模型出来后,引发很多担忧,被大模型取代的担忧。也有很多人看到机会,基于大模型来重塑产品甚至行业的机会。

openAI走在最前面,特性和论文的发表,剧透着技术路线方向。走在相对明确能成功的路径上,可以缩短成功所需要的时间。

不过大模型之争,最终胜下来的,可能也就3-5家。这跟财力、科研实力息息相关。在开源上套个壳号称自研推出的大模型,愚人愚己,要么为了政绩,要么为了股价,终归是一个利益。

但基于大模型的应用,或者用大模型来重塑的应用,必然百花齐放,多姿多彩。

能被大模型直接重构的是智能问答、咨询聊天机器人类的应用,既可以训练垂直行业大模型,也可以外挂向量数据库管理行业知识再结合通用大模型总结能力生成答案。相比之前的知识库、分词搜索,会有更好的体验提升。

再就是基于AIGC的能力,自动生成营销文案类的应用。这类应用一度新鲜火爆,不过核心价值来自于大模型,门槛不高,容易被拷贝复制,难以长久持续,初期明星公司Jasper是典型例子。

而如果能将大模型的概括总结能力、推理能力有效结合融入行业应用,有可能让大模型大放光辉。

行业应用通常讲DIKW模型,数据-信息-知识-智慧。表达从原始记录的数据进行加工,找到关联形成信息;再对大量的信息进行提炼总结以及归纳,生成能反映事物本质的知识;而结合信息以及知识进行演绎推理可上升为智慧。

比如:(20,24,50…)是原始杂乱的数据,“装维人员张三一天的施工量为30张”是形成的可读可理解的信息,从大量的装维人员施工情况可总结出“一天正常施工量为15张”的知识,基于张三的忙闲程度,如何动态调度其它人员来承接新的施工单,需要对应的智慧。

大模型擅长基于领域知识训练之后的再推理。例如派单调度,涉及到系列的领域规则,基于技能、地域、就近路线、工作忙闲、满意度等等不同的维度设定规则进行派单。将这些规则投喂给大模型之后,大模型可立身变为派单调度引擎。

除了装维调度,类似的场景非常多,比如故障诊断、工程割接等等。

传统模式下,不同的场景要写不同的调度引擎。如果能基于大模型完成通用的智能解析,将生成的答案步骤进行分解形成思索链,再以此为基础编排调度,集成企业IT系统的数据查询或服务调用,企业智慧大脑便自然形成,而且通过持续的学习,企业生产流程覆盖面会越来越宽。

如此,企业级的IT架构将会产生本质变化,基于大模型的智慧大脑,在中心不断增强及丰富经营策略和管理规则,并统一指挥周边执行体的各类业务系统。

在云端有大脑,在边端则有copilot助理改变现有IT系统的交互形态。不再需要在层级纵深的菜单中寻找使用的模块,简单的对话方式告知系统你要做什么,由copilot理解并执行相应的动作,完成生产逻辑,或者汇总呈现报表报告。有能干助理在身边的感觉能让你爽到飞起。


随着百川、GLM、LLAMA的免费商用,相信基于大模型的行业应用会进一步加速。

猜你喜欢

转载自blog.csdn.net/whalecloud/article/details/131933913