▐ 引言:AI时代,未来已来
(【注】推荐大家去阅读《陆奇的大模型观》。强烈建议直接看陆奇演讲视频 奇绩创坛| 陆奇最新演讲完整视频|大模型带来的新范式:演讲涵盖陆奇对大模型时代的宏观思考,包括拐点的内在动因、技术演进、创业公司结构性机会点以及给创业者的建议。)
▐ AIGC简介与发展历程
在与业务等交谈过程中,经常会听大家提到AIGC、ChatGPT、大模型、XX等许多概念,但也发现部分内容混淆。首先来解决下当下最火概念AIGC、ChatGPT、大模型到底是什么?
ChatGPT "Chat Generative Pre-trained Transformer”的缩写,ChatGPT是一种基于人工智能技术的聊天机器人,能用于问答、文本摘要生成、机器翻译、分类、代码生成和对话AI,是一款由OpenAI开发的基于Transformer架构的的自然语言处理工具。
AIGC,全名“AI generated content”,又称生成式AI,意为人工智能生成内容。狭义概念是利用AI自动生成内容的生产方式(UGC->PGC->AIGC);广义的AIGC可以看作像人类一样具备生成创造能力的AI技术,包括但不限于文本生成、音频生成、图像生成、视频生成及图像、视频、文本间的跨模态生成等等。
大模型:大模型通常是指参数量非常大的深度学习模型,如Transformer架构的GPT-3、BERT、T5等模型。这些模型通过在海量数据上进行训练,能够学习到丰富的语言和知识表示,并展现出强大的自然语言处理能力。
早期萌芽阶段(1950s-1990s)
-
1957 年,莱杰伦·希勒和伦纳德·艾萨克森完成历史第一支由计算机创作的弦乐四重奏《伊利亚克组曲》。 1966年,约瑟夫·魏岑鲍姆和肯尼斯·科尔比开发了世界第一款可人机对话的机器人Eliza。
80年代中期,IBM基于(Hidden Markov Model,HMM)创造了语音控制打字机Tangora。
80年度末-90年度中,由于高昂系统成本无法带来可观的商业化变现,AIGC未取得重大突破。
沉淀积累阶段(1990s-2010s)
-
2006年,深度学习算法取得重大突破,及图形处理器(GPU)、张量处理器(TPU)等算力设备性能不断提升,互联网规模膨胀提供海量训练数据,但AIGC仍受限算法效率,应用及效果有待提升。 -
2007年,世界第一部完全由人工智能创作的小说《1 The Road》问世,虽其可读性不强,但象征意义远大于实际意义。 -
2012年,微软公开展示了一个全自动同声传译系统,基于深层神经网络(Deep Neural Network,DNN)可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。
快速发展阶段(2010s至今)
快速发展阶段(2010s至今),深度学习模型不断迭代,AIGC突破性发展。
2014年,随着以生成式对抗网络(Generative Adversarial Network,GAN)为代表深度学习算法的提出和迭代更新,AIGC迎来了新时代,生成内容百花齐放,效果逐渐逼真直至人类难以分辨。
2017年,微软人工智能少女“小冰”推出了世界首部100%由人工智能创作的诗集《阳光失了玻璃窗》。
2018年英伟达发布了StyleGAN模型可以自动生成图片,目前已经发展到了第四代模型StyleGAN-XL,其生成的高分辨率图片让人难以分辨真假。
2019 年,DeepMind 发布了 DVD-GAN 模型用以生成连续视频,在草地、广场等明确场景下表现突出。
2021 年,OpenAI 推出了 DALL-E 并于一年后推出了升级版本 DALL-E-2,主要应用于文本与图像的交互生成内容,用户只需输入简短的描述性文字,DALL-E-2 即可创作 出相应极高质量的卡通、写实、抽象等风格的绘画作品。
2022年,12月OpenAI的ChatGPT在推出,两个月后用户数量就突破1亿了。在文本生成、代码生成与修改、多轮对话等领域,已经展现了大幅超越过去AI 问答系统的能力。
随后各大厂也纷纷卷入AIGC领域(百度“文新一言”、阿里“通义千问”、商汤“商量”SenseChat等),涌现运用AI于写作、编曲、绘画和视频制作等创意领域。目前 AIGC 技术可以自动生成文字、图片、音频、视频,甚至 3D模型和代码,在搜索引擎、艺术创作、影音游戏,以及金融、教育、医疗、工业等领域的应用前景十分广阔。
据 TBanic Date 估计,到 2025 年人工智能生成数据占比将达到 10%。
▐ 大模型与AIGC的关联
-
技术基础:大模型是实现AIGC的重要技术基础之一。大模型通常经过训练,以从海量数据中学习语言、图像或音频的模式。这些模型能够理解和模仿人类创作的风格和结构,从而在不同的领域中生成新的内容。例如,使用大模型可以生成文本、图像等内容,这些都是AIGC的核心应用场景。 -
性能提升:随着大模型的发展,其生成内容的能力也在不断提高,使得AIGC的质量更加逼真和丰富,从而拓展了应用范围。 -
协同工作:在某些情况下,大模型可能需要与其他技术(如计算机视觉或自然语言理解)结合使用,共同为AIGC服务。 -
产业影响:大模型的广泛应用推动了AIGC相关产业的发展,AIGC利用这些模型在媒体、娱乐、教育、科研和商业领域中创造价值。
▐ 大模型的定义和特点
其主要特点包括:
大量参数:大模型拥有庞大的参数量,通常包含数百万到数十亿甚至更多的参数,远超过传统的小型模型。使其具备极高的表达能力,能够模拟和学习非常复杂的函数关系。
强大的学习能力:由于参数量巨大,这些模型具有强大的学习和泛化能力,能够在各种任务上达到或超越人类的表现。
大数据集&计算资源密集:为了训练这些模型避免过拟合,并充分利用其学习能力,需要大量的训练数据。且需要大量的计算资源进行训练,包括高性能硬件GPU集群和大量的电力。
预训练和微调:大多数大模型采用两阶段的学习过程,首先在大量的无标注数据上进行预训练,然后在特定任务的数据集上进行微调,以获得更好的性能。
自我监督学习:许多大模型通过自我监督学习来提高其泛化能力,这种学习方法不需要人工标签,而是让模型自己从输入数据中学习到有用的特征。
上下文敏感性:大模型在处理自然语言理解和生成任务时,能考虑到更多的上下文信息,从而生成更加准确和流畅的文本。因此在实践大模型过程中要尽可能输入足够的上下文信息来提高结果的准确度。
解释性的挑战:由于模型的复杂性,理解模型的决策过程和内部工作机制是具有挑战性的,这通常被称为模型的解释性或透明度问题。
▐ 典型大模型举例
国际:
组织 |
模型/应用 |
备注 |
OpenAI |
GPT-1/GPT-2/GPT-3 |
|
OpenAI |
GPT-4 |
|
LaMDA |
|
|
PaLM-E |
|
|
Meta |
PaLM-A |
|
Meta |
LLaMA |
|
微软 |
Windows Copilot |
|
组织 |
模型/应用 |
备注 |
|
|
|
阿里 |
通义千问 |
|
清华大学 |
ChatGLM |
|
华为 |
盘古 |
|
商汤 |
“商量”SenseChat |
|
腾讯 |
混元 |
|
科大讯飞 |
星火认知 |
|
百川智能 |
Baichuan-7B、Baichuan-13B |
|
百度 |
文心一言 2023.10.17 文心大模型4.0正式发布 |
|
总结来看:
模型演进方向:模型参数规模更大、多模态支持演进
技术成熟度:国内整体能力尚处在追赶GPT3.5阶段,部分中文能力上逼近GPT3.5(见下附图),与国外有一定差距
▐ 业务背景
▐ AIGC技术落地过程
模型选择
生图模型:Stable Diffusion
成本方面估算:对于英文,1个token大约为4个英文字符或0.75个英文单词;对于中文,1中文约1-3个token。前期试验下来,探物品 cost=0.12元/品,是在业务可接受的范围。
测算token数网站:https://gpttools.com/estimator
技术框架选择
特点 |
LangChain |
Llama-Index |
Semantic Kernel(微软) |
语言 |
Python ;Js/Ts |
Python |
TypeScript |
可组合性 |
是 |
是 |
是 |
LLMs和Prompt管理 |
是 | 是 | 是 |
Chains(编排能力) |
是 | 否 |
是 |
数据索引处理 |
是 | 是 |
是 |
任务管理(agents) |
是 | 否 |
是 |
状态管理 |
是 |
否 | 是 |
Evaluation |
是 | 否 |
是 |
文档 |
https://github.com/hwchase17/langchain https://langchain.github.io/ |
https://github.com/microsoft/semantic-kernel https://learn.microsoft.com/en-us/semantic-kernel/ |
【注】这些框架的目的是为 LLM 交互创建一个底层编排引擎
LangChain是一个基于大型语言模型(LLMs)构建应用的框架。它的核心思想是定义标准接口(可以自定义实现)& 可以将不同的组件“链接”起来,创建更高级的LLMs应用 ,类似spring全家桶。它可以帮助你实现聊天机器人、生成式问答、文本摘要等功能。
|
langchain-java |
|
生态繁荣度和可靠性 |
高,社区活跃,github 4.7W+star |
低,集团内部团队自建 |
扩展工具多样性 |
高度丰富的组件能力 |
极少 |
集团中间件兼容 |
和集团内部对接都需要进行框架层开发,比如hsf调用、数据库对接、服务化的能力 |
支持 |
集团容器兼容 |
支持 |
支持 |
集团LLM接口兼容 |
需要进行框架层对接,开发成本较低 |
有对接成本 |
开发成本 |
python数据处理(爬取、清洗、标注)、大模型交互python性价比更高,可快速搭建试错 |
跟数据处理和大模型交互更重,试错周期长 |
文档 |
langchain官网:https://python.langchain.com/en |
-
核心LLM执行引擎层:langchain-python选型具备优势(数据处理、大模型交互python性价比更高,也可快速搭建试错) -
上层能力层可以采用java工程搭建(偏业务交互)
整体架构设计
数据层:弹内/弹外数据->自然语言文本处理->国际自营行业向量数据库
模型层:依赖集团内部/国际自营大模型能力
工程引擎:横向通用能力视角(生文、生图、会话等),支撑上层业务场景&嵌入生产投放链路
LLM任务执行引擎层:基于langchain框架思想构建,将 LLM 模型与外部数据源进行连接,按场景编排链路,以及选择执行工具
图任务引擎:高清化能力、图像切割能力、背景替换合图能力
prompt工程能力:prompt模板定义(Instruction、Input Data、Output Indicator、requirements等),动态化模板解析&填充能力(具备外部输入+规则动态拼接能力,串联生产链路)
任务调度能力:支持业务excel/圈品等多方式任务创建、任务试跑(准确性校验&费用预估等)、DTS任务调度执行能力
▐ 部分实践案例
建设批量文生文AIGC工程引擎,具备prompt模板提示&自动填充、任务试跑预览、费用预估、批量化AIGC生产等能力。已应用素材文生文、商品咨询FAQ生产等场景。
建设图生图AIGC工程引擎,完成图片的超分处理、AI二创等工程建设,支持业务优化商品图片素材质量。已应用探物标品素材图生图等场景。
▐ 其他应用场景
下面是本人收集的一些应用场景case,希望给大家更多的思考启发。
外部公司应用场景更广,这里简单列举下:
AIGC+传媒:写稿机器人、采访助手、视频字幕生成、语音播报、视频锦集、人工智能合成主播等
AIGC+电商:商品3D模型、虚拟主播、虚拟货场等
AIGC+影视:AI剧本创作、AI合成人脸和声音、AI创作角色和场景、AI自动生成影视预告片等
AIGC+娱乐:AI换脸应用(如FaceAPP、ZAO)、AI作曲(如初音未来虚拟歌姬)、AI合成音视频动画等
AIGC+教育:AI合成虚拟教师、AI根据课本制作历史人物形象、AI将2D课本转换为3D
AIGC+金融:通过AIGC实现金融资讯、产品介绍视频内容的自动化生产,通过AIGC塑造虚拟数字人客服等
AIGC+医疗;AIGC为失声者合成语言音频、为残疾人合成肢体投影、为心理疾病患者合成医护陪伴等
AIGC+工业:通过AIGC完成工程设计中重复的低层次任务,通过AIGC生成衍生设计,为工程师提供灵感等。
AIGC的实践挑战
笔者在AIGC应用的初探,技术挑战与机遇并存。下面给大家分享下AIGC的实践挑战以及部分解决思路。
▐ 技术挑战
问题 |
描述 |
解决方案及思路 |
知识量有限 |
|
|
效果问题 |
|
|
延迟问题 |
|
|
资源和性能 |
|
|
▐ 伦理和监管问题
随着大模型在AIGC中的广泛应用,它们引发了关于数据隐私、版权、内容监管和偏见等问题的讨论。因此,大模型的使用不仅涉及技术层面,还涉及伦理和法律层面。
问题 |
描述 |
解决方案及思路 |
安全与合规 |
如政治敏感、违法犯罪、伦理道德等问题,尤其是LLM直接面向C端场景 |
1、建设安全校验模块能力 3、C端:生成式大模型必须通过SFT、RLHF等微调技术对大模型做适配微调,对齐人类的价值观; |
政策问题 |
对于类GPT能力作为C端应用的开放程度需受限于政策 |
1、上线前需安全评估 |
【附】网信办411公布《生成式人工智能服务管理办法》征求意见稿,规范生成式人工智能产品(AIGC,如 ChatGPT)的开发和使用方式、行业的定义、对生产者的要求和责任等方面。意见稿中尤其提出:“利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。
C端应用上线需要过“双新评估”:
业务侧规划:基于业务场景继续创新,扩大战果。更多还是聚焦基建和业务场景应用。
技术期待:AI大势浩浩荡荡,顺之者昌逆之者亡。YY几个未来的期待场景
增强的交互式AI:类似google最近发布的Gemini,改变当前信息交互方式,期待每个人都有专属钢铁侠中的人工智能“贾维斯”。
个性化和定制化内容:大数据+AIGC根据用户偏好、历史行为和实时反馈生成的个性化和定制化内容。
虚拟现实内容:AIGC多模态内容生成发展,图像、视频、音频等,未来说不定AI构建虚拟现实内容。
langchain 官方文档 https://python.langchain.com/en/latest/getting_started/getting_started.html
langchain 快速入门中文版 https://github.com/liaokongVFX/LangChain-Chinese-Getting-Started-Guide
吴恩达llm教程 https://www.deeplearning.ai/short-courses/
GPT开发应用利器:LangChain https://zhuanlan.zhihu.com/p/630253274
LangChain使用调研 https://blog.csdn.net/benben044/article/details/130843326
openai 原始接口文档 https://platform.openai.com/docs/api-reference/completions
本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。