使用预训练好的 DALLE 模型进行 Text-to-Image 生成图像

企业开发 2023-04-08 19:49:20 阅读次数: 0

使用预训练好的 DALLE 模型进行 Text-to-Image 任务

Hugging Face 文档：https://huggingface.co/kuprel/min-dalle

安装库：

pip install min-dalle

本文使用的库：

import torch
from min_dalle import MinDalle

import numpy as np
from PIL import Image
import matplotlib.pyplot as plt

加载模型：

model = MinDalle(
    models_root='./pretrained',  # 预训练模型的保存地址, 运行代码时自动从网上下载到这里, 即使该地址不存在都没事
                                 # 首次运行时需等待较长时间, 因为从网上下载预训练好的模型需要一些时间
    dtype=torch.float32,
    device='cuda',
    is_mega=True,  # True 表示使用dalle-mega, 大模型, 效果更好, 占用显存也多
                   # False表示使用dalle-mini, 小模型
    is_reusable=True
)

生成图像：

images = model.generate_images(
    text='Objects in the photo: Dessert, Fast food, Snack, Drink',  # 文本
    seed=-1,
    grid_size=3,               # 最终生成的图像为 grid_size*grid_size 个
    is_seamless=False,
    temperature=1,
    top_k=256,                 # 从生成的 top-k 个中再选择最贴合文本的 grid_size*grid_size 张图像
    supercondition_factor=16,
    is_verbose=False
)

显示并保存生成的图片：

images = images.to('cpu').numpy()  # images.shape = (grid_size^2, 256, 256, 3)

# 显示图片
for i in range(images.shape[0]):
    image = Image.fromarray(np.uint8(images[i]))
    plt.subplot(3, 3, i+1)  #表示第i张图片，下标只能从1开始，不能从0
    plt.imshow(image)
    plt.axis('off')  # 去掉横纵坐标
plt.show()

# 保存图片
for i in range(images.shape[0]):
    image = Image.fromarray(np.uint8(images[i]))
    image.save('image_{}.png'.format(i))  # 保存地址

使用 dalle-mini 生成图像的示例（因为显存不够所以用的是 dalle-mini，而且没有 fine-tune，所以效果并不是很好）：

完整代码：

https://github.com/friedrichor/Text-to-Image-Summary/blob/main/demo/DALLE.ipynb

猜你喜欢

转载自blog.csdn.net/Friedrichor/article/details/128086733

使用预训练好的 DALLE 模型进行 Text-to-Image 生成图像

dalle:zero-shot text-to-image generation

深度学习系列31：Dalle生成模型

Text2Video-Zero:Text-to-Image扩散模型是Zero-Shot视频生成器

文本转图片自动生成(Text-to-Image)历史最全模型、数据集、经典论文整理分享

【Pytorch】使用训练好的模型进行图像分类预测

DALLE2-文本图像生成

基于Huggingface完成text-to-image的文本生成图像实例(AIGC)--零基础

Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers(通过Transformer控制文本生成图像)

Text to image论文精读 MirrorGAN: Learning Text-to-image Generation by Redescription（通过重新描述学习从文本到图像的生成）

dalle2：hierarchical text-conditional image generation with clip

DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）

深度学习tensorflow实战笔记用预训练好的VGG-16模型提取图像特征

[PMLR 2021] Zero-Shot Text-to-Image Generation：零样本文本到图像生成

Text to image论文精读 TISE (Text-to-Image Synthesis Evaluation):用于文本到图像合成的评估度量工具包

使用深度2img预训练模型生成图像到图像--附源码

Pytorch对预训练好的VGG16模型进行微调

Text to image论文精读从菜谱描述自动生成菜肴照片 CookGAN: Causality based Text-to-Image Synthesis（基于因果关系的文本图像合成）

清华团队新作 | 从Text-to-Image扩散模型中提取表征，服务下游任务

论文阅读_DALLE-2的unCLIP模型

Windows下Caffe的学习与应用（三）——使用OpenCV3调用自己训练好的Caffe模型进行图像分类

【Keras】使用预训练的模型进行图像分类fine-tuning

深度学习中的迁移学习：使用预训练模型进行图像分类

AI绘画神器DALLE 3的解码器：一步生成的扩散模型之Consistency Models

使用预训练语言模型进行文本生成的常用微调策略

Pytorch使用预训练好的卷积神经网络进行推理预测

【论文】2102.DALL-E: Zero-Shot Text-to-Image Generation（文字生成各种各样充满想象图像的开端）

在 C/C++ 中使用 TensorFlow 预训练好的模型—— 间接调用 Python 实现

tensorflow 使用预训练好的模型的一部分参数

3.3 使用训练好的模型

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)