泡泡资讯网

技术博文:如何用尽量简单的方案做一个文本生成图像模型地址:网页链接“训练现代文本

技术博文:如何用尽量简单的方案做一个文本生成图像模型地址:网页链接“训练现代文本到图像模型常常让人觉得难以企及,因为人们普遍认为这需要庞大的基础设施和高度复杂的工程流水线。我们想探索相反的方向:如果采用一种刻意简单的方案,并将计算预算控制在可管理的范围内,究竟能走多远?

其结果就是 MiniT2I:一个像素空间扩散模型,基于直接明了的架构(MM-JiT)和极简的数据设计。MiniT2I 使用学术规模的模型,以及大致相当于标准 ImageNet 训练级别的计算资源,却在主流文本到图像基准测试中取得了非常有竞争力的结果。此外,随着我们增加模型容量,这套极简方案依然保持稳定。

在这篇文章中,我们将分享我们做了什么,以及在过程中学到的实践经验。我们也会发布 PyTorch 和 JAX 代码、Hugging Face 检查点,以及模型生成样例图库。”AI创造营