英伟达推出GAN“超级缝合体”,输入文字草图语义图都能生成逼真照片

英伟达推出GAN“超级缝合体”,输入文字草图语义图都能生成逼真照片

原标题:英伟达推出GAN“超级缝线”,通过输入文字草图和语义图即可生成逼真的照片。

小法子奥菲寺

量子报道|微信官方账号QbitAI

GauGAN2之后,英伟达推出了GAN- Poegan 的“超级缝线”。

PoE GAN可以接受各种模式的输入,文字描述图像分割草图样式都可以转换成图片。

并且它可以同时接受上述输入模式的任意两种组合,这就是PoE的含义。

PoE是韩丁在2002年提出的“专家的产品”概念。每个专家(个体模型)被定义为输入空之间的概率模型。

每个单独的输入模态是合成图像必须满足的约束条件,因此满足所有约束的一组图像是每个约束集的交集。

假设每个约束的联合条件概率分布服从高斯分布,用单个条件概率分布的乘积表示交集的分布。

在这种情况下,为了使产品分布在一个区域具有高密度,每个个体分布需要在该区域具有高密度,从而满足每个约束。

PoE GAN侧重于如何将每个输入混合在一起。

PoE氮化镓的设计

PoE GAN的生成器使用全局PoE-Net来混合不同类型输入的变化。

我们将每个模态输入编码成一个特征向量,然后使用PoE将其总结成全局PoE-Net。解码器不仅使用全局PoE-Net的输出,还直接连接分割和草图编码器输出图像。

全球PoE-Net的结构如下。这里,使用一个潜在的特征向量z 0作为样本来使用PoE,然后由MLP处理以输出特征向量w。

在鉴别器部分,作者提出了多模态投影鉴别器,将投影鉴别器扩展到处理多个条件输入。

与计算图像嵌入和条件嵌入之间的单内积的标准投影鉴别器不同,应该计算每个输入模态的内积并相加以获得最终损失。

随机改变输入

PoE可以生成单模输入、多模输入甚至无输入的图片。

当采用单输入模式进行测试时,PoE-GAN的性能优于之前专门为此模式设计的SOTA方法。

比如在分段输入方式上,PoE-GAN优于之前的SPADE和OASIS。

在文本输入方式上,PoE-GAN优于文本转图像模型DF-GAN和DM-GAN+CL。

当使用模式的任何子集作为条件时,PoE-GAN可以生成不同的输出图像。下图显示了PoE-GAN的随机样本,前提是景观图像数据集上有两种模式(文本+分割、文本+草图、分割+草图)。

PoE-GAN甚至可以实现无输入,那么PoE-GAN将成为无条件生成模型。以下样本由PoE-GAN无条件生成。

团队介绍

本文的作者是***英伟达工程师刘明,他的研究重点是深度生成模型及其应用。NVIDIA Canvas、GauGAN等有趣的产品都是他做的。

比较好篇论文是黄浚,毕业于北航空航天大学,获得康奈尔大学学士和博士学位,现就职于英伟达。

论文地址:

https://arv.org/abs/2112.05130

PoE:

https://cs.toronto.edu/~hinton/absps/icann-99.pdf

投影鉴别器:

https://arv.org/abs/1802.05637

- End -

本文为网易***网易特别内容激励计划签约账号【qubit】原创内容,未经账号授权,禁止随意转载。

“智能汽车”交流群正在招募!

欢迎关注智能汽车和自动驾驶的朋友加入社区,交流学习行业,不要错过智能汽车行业的发展&技术进步。

赞美诗添加好友时请注意自己的姓名-公司-职位~

注意我这里,记得标记星星~

一键三连的“分享”、“喜欢”和“观看”

前沿科技进步与日俱增~回到搜狐看看更多。

负责编辑:

  • 姓名:
  • 专业:
  • 层次:
  • 电话:
  • 微信:
  • 备注:
文章标题:英伟达推出GAN“超级缝合体”,输入文字草图语义图都能生成逼真照片
本文地址:https://www.55jiaoyu.com/show-254035.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦

热门文档

推荐文档