
随着人工智能技术的飞速发展,AIGC(生成式人工智能)逐渐走入大众视野。在2025年央视春晚这一国民级舞台上,一项基于AIGC的创新互动玩法——“春晚云参演证”应运而生。用户只需上传个人照片,即可通过AI换脸技术融入九大类春晚经典节目场景(如主持、歌舞、相声等),实现“一键智能换脸+场景沉浸式角色扮演”的全新体验。这项技术不仅打破了专业演出的壁垒,让普通观众瞬间化身为“AI数字演员”,还通过零门槛的创作方式,为千万用户带来了“上春晚”的仪式感与传播裂变势能。
本文将详细回顾该项目的开发历程,涵盖算法设计、工程实施、问题解决及成果影响等多个方面,全面展示AIGC技术如何赋能春晚,推动文化IP破圈传播,并为未来更多创新玩法提供借鉴与启发。

我们的技术实施采用了“分模块化开发与滚动验收”的高效模式,三线并行推动算法、工程和测试,仅用四周时间便成功实现了服务开发与上线。依托三级熔断机制来保障抗压能力,AIGC服务在高峰期保持万级QPS的稳定状态,使得千万用户能够在零故障情况下流畅体验。并在社交平台上引发了现象级传播,生成了数亿张个性化参演图像,超8成用户导出这些内容进行分享。在小红书,用户自发发表的相关帖子近万篇,在抖音和视频号等平台有大量的用户自主创作内容不断涌现,体现了技术价值和社区影响力的双重突破。
部分产品效果图如下所示
算法开发历程与问题回顾
▐ 2.1需求确认
在2025年,淘宝成为春晚的独家电商互动平台,推出了一系列创新互动玩法。其中,领取“春晚云参演证”成为用户参演春晚节目的重要一环。通过这一功能,用户可以参与到春晚节目《如意》中,其参与的精彩瞬间将被记录并分享, 节目最终截图如下所示:
这次尝试标志着春晚首次与全民互动的舞台表演方式,融入了全新的技术与创意。我们希望通过引入AIGC技术,大幅提升春晚云参演证的趣味性和传播价值。新玩法不仅成为活动的一大亮点,更激发了用户自发分享和宣传的热情。
支持春晚项目的AIGC换脸技术为每位用户带来了“全民参演上春晚”的独特体验。算法服务通过处理用户上传的正面人脸图像,生成与之高度相似的云参演证图片,默认生成数量为8张,并通过动态随机生成保持新鲜感。这些参演模板覆盖了9大类春晚项目,涵盖从婴幼儿到老年人的不同年龄段,系统能够提供高质量的演绎效果,确保所有用户都能享受这一创新的交互体验。
然而,与以往不同的是,此次AI玩法面临三大挑战:
-
流量挑战:由于春晚口播的广泛影响,此次AIGC服务首次需应对爆发式流量的冲击。 -
用户体验保障:在高峰期时段,需确保用户体验流畅,减少用户等待排队的时间。 -
多样性适配:活动覆盖全民参与,对不同年龄段和地域的相貌特点进行适配,具有较高的难度。
通过应对这些挑战,项目力求为用户提供无缝的互动体验,并展示AI技术在大规模复杂应用环境中的潜力。
整体项目开发分为两个主要链路:离线模板生产链路和在线推理链路。
1. 离线模板开发生产链路:
由业务团队提供相关模板标准和冷启动数据
使用多模态对图片的理解能力, 构建多组类型的模板生产任务
-
对生成的模板进行统一的挑选,最终形成标准化的模板库。
2. 在线推理链路:
-
前置处理链路
-
对用户上传的图像进行基础质量和风控检测, 并完成人脸检测与人脸信息提取
换脸处理链路
符合生成需求的图像请求相关合成服务, 通过后返回给用户端,完成整个流程
模板需求
-
高质量标准:模板必须具备高度的美学质感,确保视觉效果吸引人且专业。 -
避免侵权:设计过程中不能侵犯央视版权,亦不能涉及任何明星或经典形象的侵权问题。 -
政策与安全合规性:模板的制作必须严格遵循相关政策法规,确保不涉及任何安全风险。 -
自然的用户体验:需避免产生明显的AI人工痕迹,让用户体验更自然、更真实。
模板生产标准
-
结构完整性:模板必须毫无瑕疵,无人物四肢偏差、服饰和道具细节错误,或明显景深问题和异常文字情况。 -
高美感与质感:模板须具备强烈的美学吸引力和精致的图像质感,符合市场主流审美。 -
多样性与趣味性:确保模板的多样性和可玩性,提供趣味性体验。 -
广泛适用性:支持不同年龄段和性别的用户,适应全场景用户的参与需求。 -
个性化偏好:模板设计应考虑不同性别和年龄段的偏好,例如中年男性用户更加重视阳刚气质和形体表现。
基础模型和模型训练
-
场景氛围适配:
-
整体画面缺乏春晚特有的节日喜庆氛围,红色主色调未充分运用。 -
场景元素融合不足,未能有效结合灯笼、中国结等节庆符号。 -
画面缺乏春晚舞台的恢宏仪式感。
-
文化元素表达:
人物服饰缺少传统中国风元素,如汉服的形制与刺绣工艺。
妆容设计未能准确反映春晚演员的标志性舞台风格。
装饰元素中出现中西风格混淆。
-
人物表现力:
-
皮肤质感不够自然,呈现塑料感。 -
眼神光反射不自然,瞳孔细节缺失。 -
面部表情僵硬,缺乏舞台表演者的神态。 -
肢体语言显得机械化,缺乏舞蹈的柔美。
-
定制春晚定妆人物的妆容与眼神。 -
融入更多中国风的服装设计与武术动作。 -
提升照片质感,以契合现代C端用户的审美标准。 -
增强模型对春晚特定道具、场景及细节的理解,使生成图像更加自然真实。
基础模型与微调 |
|||||
基础模型 |
模型微调 |
基础模型 |
模型微调 |
基础模型 |
模型微调 |
批量模板生产prompt 工程
工作流程:
首先,收集一批具有准确语义和明确场景的高质量图片。
使用这些图片,通过反向推理和大型语言模型(LLM)扩展生成大量精确的文本描述,作为模板生产的基础。
挑战:
春晚项目涵盖多种类别,文本提示(prompt)需要覆盖九种类型,且每种类别内部需包括丰富的人物妆造、服饰、动作、道具和构图元素。
-
很难找到既语义准确又满足高清完整要求的图片。有的图片背景合适但前景人物混乱,有的前景合适但背景人物杂乱,这些都使得直接反推的文本提示难以使用。
-
解决方案:
-
为了实现批量化、多样化、并确保可玩性和广泛传播性,算法团队通过 qwen-VL-max 模型,应用多种 prompt 技术,如反推、分段、改写、扩展和组装:
整体反推:对完整的参考图片进行文本反推。
单点反推:针对图片中的特定元素如衣服、动作或背景进行反推。
直接改写:对已经反推出的文本提示进行改写。
拆解提示:将完整的文本提示拆解为面部、服饰、动作、背景及其他质感组件。
扩展与组装:对单个元素进行扩展改写,并通过多样化组装形成丰富的提示集合。
通过多组自动化的 prompt 改造流水线,我们能够大规模生产满足模板生成需求的文本提示,这为批量模板生图提供了基础。
图片修复技术
生成的AI图像在细节上常存在诸多问题,需要进行后处理修复来提升画面的合理性,从而确保在终端市场赢得良好口碑,提高用户的保存和传播率。为此,我们的算法团队构建并升级了一整套模板图片的修复流程,包括文字擦除、局部擦除、图像延展、图像重绘、手部修复及图像清晰化等。通过这些精细的后处理技术,我们确保AI生成图像的质量更符合用户的期望,从而带来更高的用户满意度和更广泛的传播效果。
a. 手部修复。手部绘制始终是AI生成图像中的一大挑战, 手部崩坏会极大降低模板图成图率和优图率,我们利用inpaint技术、LoRA微调技术和ControlNet技术,开发了专用于春晚的手部修复模型,手部修复成功率超过90%。在模板图的生产过程中,手部修复被整合至图片后处理阶段,以显著提升成图率和图像质量.
原始图 |
修复图 | 原始图 | 修复图 |
![]() |
b. 文字擦除。由于春晚项目的特殊性,经常会在图像的舞台上、道具中、背景中出现文字。AI 直接生成文字的能力还比较弱,容易在前景精美的图像背景中出现部分字符,会降低成图率。我们利用文字检测、擦除能力构建通用文字擦除模块,可以在图像后处理中加入,对文字进行自动化检测与擦除。
原始图 |
修复图 | 原始图 | 修复图 |
c. 细节擦除与重绘。AI 生图在细节上、局部上极容易出问题。手部只是一个特例。其他的诸如发饰、耳环、衣服花纹细节、发型细节、道具细节等。如果因为局部细节问题而直接丢弃一张美观度较高的图片,那么优图率会进一步降低。利用淘宝擦除重绘模型,在图片审核后的后处理中加入,可以提升图片的优图率,并保证模板图局部和细节上的合理性。
原始图 | 修复图 | 原始图 | 修复图 |
d. 图像尺寸。AI生图在构图上,有时候不合理,因此需要做图像延展,来保证诸如人物居中、头发不被截断等问题。我们通过微调开发出了适合春晚的图像延展模型和图像延展策略, 可以修复构图不合理的问题。
原始图 |
延展图 | 原始图 | 延展图 |
e. 图像高清。模型生产直出的图片一般在1024的宽高。在画面中,人脸的占比往往更小,发饰细节、脸部纹理细节、服饰细节会存在一定的模糊。通过专门的人像图像高清模型,可以将图片放大至四倍宽高。显著提升模板图细节与质感。
原始图 | 高清图 | 原始图 | 高清图 |
通过这些精细的后处理技术,我们确保AI生成图像的质量更符合用户的期望,从而带来更高的用户满意度和更广泛的传播效果。
审核链路完善
成图率优化
-
通过与业务和产品团队的紧密协作,算法团队得以迅速完成第一轮粗审核和第二轮详细审核,确保选择的图片不存在结构性问题(如人物四肢、道具和背景的崩坏)。 -
通过多轮出图策略优化与修图策略优化,模型生成图片的成图率大约在3~4成之间。我们设立了专门的图片审核工具和专业标准。
-
优图率提升
-
提升图片的优图率涉及专业的审美和排序标准。关键在于了解什么样的图片符合C端用户的审美,哪些图片的保存率更高。 -
我们的算法团队通过多轮与业务和产品的深入沟通,建立了一致的优选标准和高效的审图流程。 -
在进行图片修复和换脸效果生成后,继续进行第三轮细致审核和最终的确认审核,以确保图片符合C端的美学标准,从而提高市场传播效果。
|
|||||
模板图 |
模板图 |
模板图 |
模板图 |
模板图 |
模板图 |
图像内容检查:确保上传图像的安全性和合适度,确保符合平台标准
人脸区域检测:识别并提取图像中的人脸区域。
人脸信息提取与选择:从检测到的人脸中选择最佳候选。
性别和年龄识别:增强对选择人脸的性别和年龄识别的准确性,特别是提升未成年人性别预测的可靠性。
人脸特征提取:获取人脸的embedding数据,为后续处理提供基础支持。
前置处理
年龄与性别判别
整体服务
▐ 2.4换脸算法模块开发与优化
换脸模型架构
基础模型选择
-
模型架构部分, 为了平衡算法的耗时与效果,我们基于SDXL模型开发了换脸算法。训练了两个功能的模型:一个用于文本生成图像(T2I),专注于解决图像内容的稳定性;另一个用于图像重绘(inpaint),着眼于解决图像边缘处理问题。 T2I 基础模型。该基础模型使用团队自研开发的通用t2i模型作为基底,该基底采用 sdxl une作为主干模型,使用千万级高质量数据进行泛化训练,然后使用高质量人像数据微调了人脸质感LoRA模型,用于提升人脸的颜值和自然度, 来满足春晚换脸需求。为了有效引入身份特征,我们利用 ControlNet 进行高效的特征学习与控制。该过程基于 UNet 的编码器部分实现,ControlNet 主要的引导语义为人脸的高维特征编码,而非文本语义。ControlNet 的输入包括噪声信息及模板人脸的关键点图,这使得模型能够精确控制人脸五官的位置。在模型输出的每一层,我们将 ControlNet 的输出与 t2i 模型的输出相加,从而实现身份表征特征的注入。我们基于上述 t2i 基础模型和百万级高质量人脸数据,对 ControlNet 进行微调。
-
人脸细节注入参考ip-adapter技术架构。t2i 主干模型的每个Attention模块均有两个并行的交叉注意力模块,一个用于处理文本prompt特征,一个用于处理人脸特征,处理结果相加。文本特征由两个CLIP特征提取器提取,人脸特征由一个CLIP特征提取器提取。ip-adapter用于处理人脸细节信息和文本的交互融合,还原用户的人脸特征。ip-adapter基于 t2i 基础模型,使用百万级别的高质量人脸数据训练, 将人脸特征embedding与prompt特征embedding一起送入UNET进行信息注入, 实现人脸细节特征的保持。
-
Inpaint 基础模型。我们的换脸算法采用了经过专业开发和微调的 SDXL Inpaint 模型,该模型以 16 通道输入为基础,提供了优越的保真效果。此模型在生成图像内容的美观性和合理性方面表现极为出色,显著优于现有的开源解决方案。同时,模型在低步数条件下也能够有效地保持良好的去噪效果。为了有效引入身份特征,为适应 Inpaint 推理结果,我们采用微调 LoRA 的方式对已经基于t2i基础模型训练的ControlNet进行参数微调,以确保其与 Inpaint 模型的效果无缝整合。这种方法使得我们的换脸算法在多样性和真实性之间取得了良好的平衡,为最终用户提供了高质量的人脸替换效果。通过构建这些高效的模型,我们不仅提升了技术性能,还确保了在实际应用中的优质用户体验。
a. 人脸特征引导:
固定t2i基础模型的参数,专注训练IP-Adapter部分。
通过图像MSE损失函数,快速赋予主干网络人脸特征引导能力,生成逼真的人像。
b. 人脸注入初步训练:
保持t2i基础模型参数不变,集中训练适配t2i基础模型的ControlNet。
使用图像MSE损失,使ControlNet迅速具备人脸特征注入能力。
c. 人脸注入相似度提升:
在固定t2i基础模型和IP-Adapter参数的情况下,微调已训练的ControlNet。同时微调适配inpaint基础模型的Controllora。
使用人脸ID损失函数,并运用ArcFace模型提取换脸图像和注入人脸图像特征,优化其余弦距离,提高ControlNet的人脸注入准确性和换脸图像的人脸相似度。
d. 人像质感LoRA微调:
固定IP-Adapter和ControlNet参数,利用高质量数据微调t2i基础模型中的LoRA。
这一过程旨在提升人像的颜值和质感效果。
整体推理流程如下图所示。
推理部分
在推理中为提高推理速度,模型的推理步数压缩到10步, 有一定的生成质量损耗, 但是整体效果损失可接受(95%情况下差异较难观察)
为了在推理过程中平衡图像的美观度和相似度,我们的策略是适当降低 mask 区域加噪的强度,生成的图像在相似度和美观度方面表现会更好。通过采用这种策略,即使用户上传的面部图像美观度不足,我们也能确保实现较好的效果。
在推理过程中,为了提升生成效果,我们通过增加人脸在图中的占比来实现。模型的输入图像是人脸区域的裁剪图(crop image),这确保了人脸在图像中的占比约为50%。在推理完成后,我们会将生成图像中的人脸区域贴回到模板图中,以消除边界感。
使用上述优化后的模型和推理策略后,换脸的效果在五官的位置控制和美观程度、相似度、自然度、合理性等方面均提升明显。对比case如下表。
AI换脸 |
|||||
用户图 |
优化前 |
优化后 |
用户图 |
优化前 |
优化后 |

▐ 3.1工程侧需求
大流量
-
高可用
-
低耗时
▐ 3.2技术挑战
算力资源问题
春晚期间在峰值生图容量要求为上万QPS,按照模型原始性能,需要约等效数万余张计算卡的计算资源来支撑业务峰值需求。
模型适配&优化
由于需要筹备大量GPU,获取到的卡型有数十种。大部分卡型推理时长均大于业务要求3s,且由于硬件实现不同,依赖环境、推理效果、加速方案都需要独立进行优化与适配。
系统架构设计
算力资源有限,为了实现在算力满载的情况下,依旧保持高可用、低耗时的效果,这对系统流量调度和运维提出了更高的要求。
▐ 3.3解决方案
模型适配 & 优化
业务明确要求生图算法部分需要加速至单次推理耗时3S以下,而模型原始计算在多种卡型上普遍高于3秒。由于筹集到的卡型众多,硬件实现不同,意味着需要对大量的卡型定制独立的加速方案。在实践中,我们也发现各卡型存在一定的精度GAP,推理时会造成效果差异,这需要我们对卡型加速后的效果进行对齐,并逐一校验。
下面简单介绍下在不同卡型上部署的主要优化手段:
Nvidia卡推理加速
虽然Nvidia卡型都对CUDA生态有良好的支持,但本次涉及卡型较多(包含L20、H20、A100、H100等),卡型架构不尽相同,支持的计算精度、算力也存在差距。
卡型 |
RT(原始) |
RT(优化) |
L20 |
3.3 s |
1.7 s |
H20 |
3.7 s |
2.2 s |
A100 |
1.9 s |
1.1 s |
AMD卡型主要为AMD MI308X,其硬件特性决定在F16上可以拿到比F32更好的计算性能。我们利用Torch.Compile的默认优化方案,拿到了相比MIGraphX方案更好的加速效果,并通过预存Autotune编译过后的Graph来减少前置编译耗时。值得注意的是,AMD卡型特有的CPX模式对于较大规模的扩散模型并不能带来吞吐的提升。使用SPX模式,可以在相同吞吐下有效减少单次请求的耗时。
卡型 |
RT(原始) |
RT(优化) |
MI308X |
4.2 s |
2.7 s |
某系列国产推理卡
国产推理卡在本次项目中承载了约60%的算力需求,涉及到多种卡型,部署近两万实例。
这些国产推理卡在项目中对常见Pytorch、CUDA等深度学习技术表现出了优异的兼容性:无需对代码进行任何的适配,即可顺利运行模型。在常见的模型结构的推理上展现也优于AMD且不输于Nvidia卡型的性能和稳定性。针对国产卡型的硬件特点,我们优化工作主要是对Attention模块的QKV计算模块做了Fuse融合,并且通过预编译实现模型加速。
卡型 |
RT(原始) |
RT(优化) |
某国产卡型-A |
1.8 s |
1.23 s |
某国产卡型-B |
1.9 s |
1.33 s |
某国产卡型-C |
3.3 s |
2.7 s |
在线服务架构
全链路架构
架构图:
流程简介:
用户的请求图片经过安全检测后,将任务等信息记录,并发出生图的任务消息;
Worker拉到任务后,经过令牌桶限流,保证调用到算法的请求量稳定在万级QPS;
AI服务系统进行调度与推理,最终任务结果以消息通知到服务端。
设计思路:
通过MQ和令牌桶的设计,即使上游服务遇到极高的脉冲流量,其对AI服务的请求速度依旧稳定且控制在AI服务总容量的以内。
AI系统架构图
流程简介:
首先生图请求经过网关,网关根据不同卡型的算力得到相应的路由比例,将流量分发到不同的调度服务。
调度服务根据请求的生图数目分别调用算法出图服务。
设计思路:
将不同卡型算法服务进行独立部署,有效地进行容灾域的隔离。这也有助于运维管理,使得版本迭代和部署过程可以互不干扰。
算法网关根据不同算法集群的算力来进行动态流量路由调整,提供了便捷有效的集群水平扩容能力。
单集群调度架构
架构图:
流程简介:
请求发送的任务经过网关层被分配到某个队列;
AI服务的worker每次从单个分片中拉取单个任务进行处理;
任务处理完则立即继续拉取队列数据处理,若无任务则sleep一段时间后再次拉取任务;
设计思路:
对万卡集群做到自适应负载均衡,使得在满载的情况下依然可以做到RT稳定且任务拉取低延时。
服务运维
水平扩展与灾难域隔离
通过架构上流量网关、队列的设计,调度服务、AI模型服务拥有良好的水平扩展能力。同时通过对不同卡型、地域集群的拆分,提供了针对机房地域性灾难的容灾的手段。
全面的压测方案
分别对 AI 算法服务的单链路、全链路进行多次高强度压测,模拟了业务项目全生命周期的流量变化,对异常情况的容灾SOP进行了针对性的演练,有效暴露了系统瓶颈和容灾能力的不足。

小红书接近万篇相关讨论帖子, 抖音与视频号均有大量自来水构建大量视频帖进行分享,网友在小红书、微博等社交媒体平台发帖并互相推荐:“一个参演证,把我家春节气氛直接拉满了!”、“太好玩啦!根本停不下来!”、“我也停不下来,感觉在免费拍艺术照”、“不是,这以后还拍啥写真啊?直接给无痛整了上百张,比拍写真好看,淘宝这个春晚云定妆照搞的有点东西”、“这活动以后可以多搞点,还有点春晚的参与感” 、“云参加也是参加呀!这个定妆照美的不行”、“我也参与一起上春晚啦哈哈哈,好好玩!!”等等。有许多网友表示在 aigc 上玩了一个多小时甚至半天。

在项目实施过程中,我们也暴露出了一些问题。卡型多样化所带来的部分集群结果不一致问题; 为了应对最终超高的 QPS我们补充了大量机器, 平台部署超大集群的发布更新及稳定性也面临挑战。用户输入的多样性和复杂度也为整体服务带来了不可控因素。
在前期阶段,我们的一些审美设定给部分用户带来了不好的体感。例如,老年人参演春晚却被表现为年轻人形象,模型偏好导致部分用户圆脸效果看起来更瘦, 影响了少量用户体验。此外,首次进行大规模多卡部署时,不同卡型之间的计算差异也造成了效果不一致。我们通过多种手段进行效果对齐,并通过多种监控手段解决了部分物理机带病导致的推理效果异常问题。
展望未来,我们将进一步对相关 AIGC 玩法进行规范化,提升模板生产的自动化程度,标准化业务图片素材的生产过程,从而提高图片审核通过率与可玩性,减少算法在此方面的投入时间。同时,我们将继续迭代升级模板生产模型与链路,确保模板的质感和自然度再上新台阶。通过对换脸模型的不断升级,我们致力于解决用户反馈的相似度低以及脸型不适配等问题。此外,我们将继续探索更多有趣的 AIGC 玩法,为淘宝的广大用户带来更多创新与服务。
附录
部分小红书贴截图
团队介绍
淘宝视觉智能团队是淘天集团供给技术侧以AI能力为核心驱动的技术团队。自2023年成立以来,团队由30余位来自清华大学、北京大学、复旦大学、上海交通大学、浙江大学、中国科学技术大学等顶尖院校的博士和硕士组成,形成了产研一体化的研发矩阵。
本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。