英伟达推出GAN“超级缝合体”，输入文字草图语义图都能生成逼真照片

展全思梦 2025-10-27 21:40:58

原标题:英伟达推出GAN“超级缝线”，通过输入文字草图和语义图即可生成逼真的照片。

小法子奥菲寺

量子报道|微信官方账号QbitAI

GauGAN2之后，英伟达推出了GAN- Poegan 的“超级缝线”。

PoE GAN可以接受各种模式的输入，文字描述，图像分割，草图和样式都可以转换成图片。

并且它可以同时接受上述输入模式的任意两种组合，这就是PoE的含义。

PoE是韩丁在2002年提出的“专家的产品”概念。每个专家(个体模型)被定义为输入空之间的概率模型。

每个单独的输入模态是合成图像必须满足的约束条件，因此满足所有约束的一组图像是每个约束集的交集。

假设每个约束的联合条件概率分布服从高斯分布，用单个条件概率分布的乘积表示交集的分布。

在这种情况下，为了使产品分布在一个区域具有高密度，每个个体分布需要在该区域具有高密度，从而满足每个约束。

PoE GAN侧重于如何将每个输入混合在一起。

PoE氮化镓的设计

PoE GAN的生成器使用全局PoE-Net来混合不同类型输入的变化。

我们将每个模态输入编码成一个特征向量，然后使用PoE将其总结成全局PoE-Net。解码器不仅使用全局PoE-Net的输出，还直接连接分割和草图编码器输出图像。

全球PoE-Net的结构如下。这里，使用一个潜在的特征向量z 0作为样本来使用PoE，然后由MLP处理以输出特征向量w。

在鉴别器部分，作者提出了多模态投影鉴别器，将投影鉴别器扩展到处理多个条件输入。

与计算图像嵌入和条件嵌入之间的单内积的标准投影鉴别器不同，应该计算每个输入模态的内积并相加以获得最终损失。

随机改变输入

PoE可以生成单模输入、多模输入甚至无输入的图片。

当采用单输入模式进行测试时，PoE-GAN的性能优于之前专门为此模式设计的SOTA方法。

比如在分段输入方式上，PoE-GAN优于之前的SPADE和OASIS。

在文本输入方式上，PoE-GAN优于文本转图像模型DF-GAN和DM-GAN+CL。

当使用模式的任何子集作为条件时，PoE-GAN可以生成不同的输出图像。下图显示了PoE-GAN的随机样本，前提是景观图像数据集上有两种模式(文本+分割、文本+草图、分割+草图)。

PoE-GAN甚至可以实现无输入，那么PoE-GAN将成为无条件生成模型。以下样本由PoE-GAN无条件生成。

团队介绍

本文的作者是***英伟达工程师刘明，他的研究重点是深度生成模型及其应用。NVIDIA Canvas、GauGAN等有趣的产品都是他做的。

比较好篇论文是黄浚，毕业于北航空航天大学，获得康奈尔大学学士和博士学位，现就职于英伟达。

论文地址:

https://arv.org/abs/2112.05130

PoE:

https://cs.toronto.edu/~hinton/absps/icann-99.pdf

投影鉴别器:

https://arv.org/abs/1802.05637

- End -

本文为网易***网易特别内容激励计划签约账号【qubit】原创内容，未经账号授权，禁止随意转载。

“智能汽车”交流群正在招募！

欢迎关注智能汽车和自动驾驶的朋友加入社区，交流学习行业，不要错过智能汽车行业的发展&技术进步。

赞美诗添加好友时请注意自己的姓名-公司-职位~

注意我这里，记得标记星星~

一键三连的“分享”、“喜欢”和“观看”

前沿科技进步与日俱增~回到搜狐看看更多。

负责编辑:

点击更多内容

文章标题：英伟达推出GAN“超级缝合体”，输入文字草图语义图都能生成逼真照片
本文地址：https://www.55jiaoyu.com/show-254035.html
本文由合作方发布，不代表展全思梦立场，转载联系作者并注明出处：展全思梦

隐私计算兴起研究者建言将“成本项”转为“营收项”

***的女友职业排行榜Top10

英伟达推出GAN“超级缝合体”，输入文字草图语义图都能生成逼真照片

热门文档

推荐文档