首页 > 其他分享> 文章详细

DALL-E: Zero-Shot Text-to-Image Generation

2021-07-10 22:03:21 阅读：435 来源： 互联网

标签：Shot 训练 Generation DALL image tokens text

Zero-Shot Text-to-Image Generation 论文阅读笔记

摘要：
基于零样本（zero-shot）生成。使用两亿个文本-图像对训练。
公开源码（https://github.com/openai/DALL-E）不是很完善，缺了比如text encoder等关键部分。
这论文写得emmm不堪入目。

效果：
在这里插入图片描述

方法

训练阶段分两部分：

阶段一，压缩图片。训练一个discrete variational autoencoder (dVAE)，即离散的变分自编码器来压缩256x256大小的RGB图片到32x32的image tokens，每个token有8192个可能值。（？）
将256个用BPE编码的text tokens和image tokens 连接在一起，然后训练一个自回归的transformer来建模text和image共同的分布。

整体思路是这样，细节看不太懂，之后再说。

标签：Shot,训练,Generation,DALL,image,tokens,text
来源： https://blog.csdn.net/qq_26136211/article/details/118640102

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

DALL-E: Zero-Shot Text-to-Image Generation

方法