导读 本文根据 Fabarta AI 算法专家邱道明在“2023中国数据与存储峰会”主题演讲整理而来。本文将围绕以下几部分来探讨:企业数据的演进、大语言模型相关概念、大语言模型企业场景应用的挑战、Fabarta 产品和解决方案、大语言模型企业场景应用案例。
01 企业数据技术的演进
数据技术演进过程
首先,我们来看企业数据技术的演进。这张图总结了过去几十年企业数据相关的技术演进过程。从最早的文件系统到现在的分布式图和向量,我们可以看到技术的不断创新和变革。最早出现的技术是计算机的文件系统,上世纪 60 年代开始出现数据库的概念,70 年代出现关系数据库,80 年代出现数据仓库的概念。90 年代进入到个人电脑时代,Excel 和 Access 成为个人数据管理的标准。2000 年之后互联网火爆,出现了云计算和大数据。2010 年移动互联网的兴起,出现了数据湖概念和云原生和分布式流处理,这些都是非常的热门技术。2020 年之后是分布式图和向量,目前应该是比较热的方向。
数据的发展趋势
这张图描述了未来几年全球数据发展的趋势,来源于 IDC 的统计和预测报告,蓝色代表结构化数据的总产量,紫色代表非结构化数据的总产量。从这个图中我们可以看到,今后几年全球数据总产量年增长率在 21%左右,这远超过 GDP 的增长,而且绝大部分是非结构化的数据,比如说文档、图片、语音、视频等等。中国数据产量在全球居于第二位,而且增长率也很高。对于企业来说,这意味着我们需要更好的技术和方法来挖掘海量而且多模态的数据。
02 大语言模型相关概念
人工智能的发展历程
我们再看目前人工智能相关的概念,这张图是人工智能将近 70 年的发展历程,先后经历了两次高峰和两次寒冬。自 1956 年人工智能概念在达特茅斯的技术会议上首次提出以来,该领域迅速蓬勃发展。当时人们普遍认为计算机可以解决人类所有问题,并出现了多层级神经网络架构。然而,十几年后,人们发现人工智能的能力实际上非常有限,可能只能解决一些非常简单的玩具问题。因此,当时的人工智能在互联网时代遭遇了第一次寒冬期。
到了上世纪 80 年代,专家系统出现了,它们能够实际帮助人们解决一些问题,使用了一些符号推理的语言,比如 Prolog。同时,日本推出了一个名为“五代机”的计划,旨在让计算机具备类似人类推理和解决生活中问题的能力。然而,几年后证明,整体上人工智能的进展仍然缓慢。其中包括“五代机”计划最终也以失败告终,将人工智能带入了第二次寒冬期。因此,直至 90 年代,若有人提及学习人工智能或神经网络,往往会引来他人的嘲笑,认为这条路不切实际或者没有前途。
直到 2000 年之后,随着互联网的发展,数据、算力和算法的高速增长,人工智能的发展才达到了前所未有的快速发