AI绘图模型（PaintsUNDO）

在这里插入图片描述

PaintsUNDO工具能够模拟真人将目标画作拆解成一步步绘画过程。由 AI 绘图圈大神、ControlNet 作者张吕敏（lvminzhang）开发。用户只需上传一张图片，就能让 AI 根据图片分解成相应步骤，然后录制成绘画过程视频，对于想要学习绘画过程或制作绘画教程的人来说非常有用。
PaintsUndo 是一个创新的人工智能项目，它专注于模拟和理解人类在数字绘画中的绘图行为。该项目的愿景是开发出能够精确反映人类艺术家需求和行为的 AI 模型，以促进人工智能与人类艺术家之间更紧密、更自然的合作。
输入一张完成的图像，模型能够将其“拆解”成一个约 25 秒的绘画过程视频，详细展示从线稿、勾线、上色、添加阴影等，到最终成品的每一步。并且它可以处理多种风格的图像，如动漫、油画、水墨画等。
包含单帧模型和多帧模型。单帧模型可以根据输入的图片和指定的操作步骤数，模拟撤销相应次数的操作并生成中间图像；多帧模型则可以输入两张图像，生成这两张图像之间的 16 个中间帧，展现更连续的动态过程。通常两种模型会结合使用，先利用单帧模型生成关键帧，再用多帧模型在关键帧之间插入中间帧，以获得更长的视频片段。
用户可以控制撤销的步骤数等参数，从而控制视频中展示的内容，以满足不同的需求和创作想法。

一、主要功能

行为模拟：模型能够展示各种人类绘画行为，如素描、着墨、着色、阴影处理、图像变换、左右翻转、颜色曲线调整、图层可见性更改，甚至是在绘画过程中改变整体构思。
输入输出：模型接受一张完成的图像作为输入，然后输出该图像逐步绘制的序列，模拟了从最终作品回溯到初始笔触的过程。
单帧模型 (paints_undo_single_frame)：通过输入一张图像和一个操作步骤数，输出该操作步骤数对应的图像，模拟指定数量“撤销”操作后艺术作品的外观。
多帧模型 (paints_undo_multi_frame)：在两个输入图像之间生成16个中间帧，创建更一致但不太“创造性”的结果。
视频生成：结合使用单帧模型和多帧模型，可以生成更长的绘画过程视频，通常输出为25秒长，每秒4帧的视频，分辨率为320x512、512x320、384x448或448x384。
免费使用： PaintsUndo 是免费使用的，用户可以克隆存储库，并在本地机器上设置，无需任何费用。

二、使用方法

1.技术要求
项目在配备24GB VRAM的Nvidia 4090和3090TI上进行了测试，理论上最小VRAM需求在极端优化下约为10~12.5 GB。
处理一张图像的时间大约为5到10分钟，具体取决于相关设置。
项目还提供了其他功能，如从静态图像中提取草图，进行外部草图插值，以及动漫风格转换等。
2.使用指南：
1）克隆 PaintsUndo 的 GitHub 仓库。
2.）进入项目目录。
3）使用 conda 创建一个新的 Python 环境，并激活它。
4）安装必要的 Python 包。
5）启动 PaintsUndo 的 Web 界面。
6）上传图像并生成绘画过程视频。

三、技术原理

包含两个基于 StableDiffusion1.5 修改而成的模型：
1.单帧模型（paints_undo_single_frame）：架构基于 SD1.5 并进行了修改，训练时使用了特定的 betas 值，移除了文本编码器的最后一层，并以额外嵌入方式添加了 operationstep 条件。输入为一张图像和一个操作步骤数（0 到 999 之间的整数），输出是根据指定操作步骤模拟撤销相应次数后的单图像。
2.多帧模型（paints_undo_multi_frame）：训练基于 VideoCrafter 家族，对神经网络的拓扑结构和行为进行了大量修改。主要组件包括与特定动漫 VAE 相同的 VAE、修改后的 3DUnet、SD2.1 版本的 CLIP、支持任意纵横比的 CLIPVision 以及图像投影模块等。输入两张图像，输出这两张图像之间的 16 个中间帧。

四、不足之处

在处理写实风格的图像或复杂构图时，模型可能会存在一定的困难，生成的结果与原图像可能有较大的差异，并且在某些情况下可能无法准确理解特殊概念或遵循主流的工作流程。

生成效果方面：
写实内容还原度有限：在处理写实风格的图像时，模型生成的结果与原图像可能有较大的差异，难以准确地再现逼真的图片内容。比如对于一些细节丰富、光影效果复杂的写实照片，模型在还原其线条、色彩、纹理等方面可能会出现偏差或丢失部分关键信息，导致生成的绘画过程视频与原照片的写实程度相差甚远。
复杂构图处理能力欠佳：对于复杂的构图，模型可能无法很好地理解和处理。在处理包含众多元素、层次丰富的图像时，可能会出现元素缺失、位置错乱或整体效果不协调等问题。例如对于一张包含多个物体、人物且相互遮挡关系复杂的场景图片，模型生成的绘画过程可能无法准确地呈现出各个元素之间的正确关系。
生成速度与效率方面：
处理时间较长：模型处理一张图片大约需要 5 至 10 分钟，这对于用户来说等待时间较长，尤其是在需要处理大量图片或对实时性要求较高的场景下，该模型的效率可能无法满足需求。
生成视频帧率和分辨率受限：生成的视频时长为 25 秒，帧率为 4fps，分辨率也仅支持几种特定的格式，如 320x512、512x320、384x448 或 448x384 等。较低的帧率和有限的分辨率可能会影响视频的流畅度和清晰度，无法满足一些用户对高质量视频的需求。
创造性和灵活性方面：
创造性相对较低：多帧模型生成的结果虽然更加一致，但相对来说创造性较低，可能会过于依赖输入的图像信息，难以产生出具有高度创新性和独特性的绘画过程。在一些需要突破常规、展现独特创意的场景下，模型的表现可能不尽如人意。
对输入的依赖较强：模型的生成结果高度依赖输入的图片，如果输入的图片质量不高、信息不完整或不符合模型的要求，可能会影响到最终的生成效果。而且用户在使用过程中需要按照模型规定的方式和格式输入图片，缺乏一定的灵活性和自由度。
概念理解和特殊场景处理方面：
特殊概念理解不足：对于一些特殊概念或特定场景，模型可能无法准确理解和处理。例如在处理水瓶激起水花等具有动态效果和特殊物理现象的场景时，模型可能无法准确地呈现出水花的形态、运动轨迹等细节，导致生成的绘画过程与实际情况不符。
工作流程与主流不符：在某些情况下，模型生成的绘画过程可能并不遵循主流的艺术创作工作流程，这可能会让一些专业的艺术家或艺术学习者感到困惑或不适应，影响他们对模型的使用和认可。
硬件要求方面：
对硬件配置要求较高：模型对硬件的要求较高，至少需要 10GB 以上的显存，这对于一些普通用户的设备来说是一个较大的挑战，限制了模型的广泛应用。

五、应用场景

对于绘画初学者或艺术学习者来说，PaintsUNDO 可以帮助他们更好地理解不同风格图像的绘画技巧和创作过程，提供了一个很好的学习和参考工具。专业艺术家可以利用该工具查看自己或他人的艺术作品的不同可能过程，从而获得新的创作灵感。

艺术学习与教育领域：
绘画技巧教学：对于绘画初学者来说，该模型可以帮助他们理解不同风格作品的绘画步骤和技巧。通过观看由模型生成的绘画过程视频，学生能够清晰地看到从线稿到上色、添加阴影等每一个环节的具体操作，从而更好地学习和模仿，快速提升自己的绘画水平。
教学资源辅助：教育工作者可以利用 PaintsUNDO 模型将优秀的绘画作品转化为绘画过程视频，作为教学资源在课堂上展示，使教学内容更加生动、直观，激发学生的学习兴趣和创造力。
艺术创作领域：
灵感启发：专业艺术家可以输入自己或他人的作品，让模型生成绘画过程，借此观察不同的创作思路和方法，从中获取灵感，探索新的创作方向。例如，艺术家可以将一幅已完成的抽象画输入模型，观察其生成的绘画过程，思考如何将这种过程应用到自己的新作品中。
创作过程优化：在创作过程中，艺术家可以使用该模型对自己的作品进行分析，了解不同阶段的效果，以便及时调整创作思路和方法，优化创作过程。例如，艺术家可以在完成一幅作品的初稿后，使用模型生成其绘画过程，根据过程中的每一个阶段的效果，对作品的构图、色彩等进行进一步的调整和优化。
动画与游戏领域：
动画制作：在动画制作中，该模型可以为动画师提供创意和参考。动画师可以输入一些关键帧图像，让模型生成中间帧的绘画过程，从而快速获得一些过渡效果的参考，节省动画制作的时间和成本。例如，在制作一部二维动画电影时，动画师可以使用 PaintsUNDO 模型为一些复杂的动作场景生成中间帧的绘画过程，以便更好地把握动作的连贯性和流畅性。
游戏设计：游戏设计师可以利用该模型生成游戏角色、场景等的绘画过程，为游戏的美术设计提供灵感和参考。例如，在设计一款角色扮演游戏时，游戏设计师可以使用模型生成游戏角色的不同服装、发型等的绘画过程，以便更好地设计游戏角色的外观。
广告与设计领域：
广告创意设计：广告设计师可以使用 PaintsUNDO 模型将广告创意转化为绘画过程视频，使广告更加生动、有趣，吸引消费者的注意力。例如，在设计一款食品广告时，广告设计师可以将食品的图片输入模型，生成绘画过程视频，展示食品的美味和诱人之处。
产品设计：在产品设计中，设计师可以使用该模型对产品的外观设计进行分析和优化。例如，在设计一款汽车的外观时，设计师可以使用模型生成汽车外观的绘画过程，根据过程中的每一个阶段的效果，对汽车的线条、色彩等进行进一步的调整和优化，使产品的外观更加美观、时尚。
视频与电影特效领域：
特效制作：电影和视频制作人员可以将 PaintsUNDO 模型生成的绘画过程视频作为特效元素，应用到电影、电视剧、纪录片等视频作品中，增强作品的视觉效果和艺术感染力。例如，在一部科幻电影中，制作人员可以使用模型生成一些未来科技设备的绘画过程视频，作为特效元素添加到电影场景中，使观众更加直观地感受到未来科技的魅力。
场景构建：该模型可以帮助制作人员快速构建一些复杂的场景。例如，在制作一部历史纪录片时，制作人员可以使用模型生成一些古代建筑的绘画过程视频，然后将这些视频作为参考，使用计算机图形技术构建出古代建筑的场景，使观众更加真实地感受到历史的氛围。
总体而言，PaintsUNDO 是一个具有创新性和潜力的 AI 绘图项目，为人们理解和探索绘画过程提供了新的视角和方法，但在实际应用中仍需要根据具体情况进行调整和优化。