深度学习|通过短文本生成图像( 二 ) 微软

下图提供了Obj-GAN模型的高级架构。该模型接收一个带有一组标记的句子作为输入，然后将其编码为单词向量。在此之后，输入经过三个主要阶段进行处理:框生成、形状生成和图像生成。
Obj-GAN模型的第一步以句子为输入，生成语义布局，即由其边界框指定的对象序列。模型的边框生成器负责生成一个包围边框序列，然后由形状生成器使用。给定一组边界框作为输入，形状生成器预测相应框中每个对象的形状。由形状生成器产生的形状被图像生成器GAN模型使用。
Obj-GAN包括一个基于两个主生成器的多级图像生成神经网络。基生成器首先根据全局句子向量和预先生成的语义布局生成低分辨率图像。第二个生成器通过关注最相关的单词和预生成的类标签来细化不同区域的细节，并生成更高的分辨率。
到目前为止，您可能想知道架构的对抗性组件在哪里发挥作用?这就是对象鉴别器的作用。该组件的作用是充当训练图像生成器的对手。 Obj-GAN模型包括两个主要鉴别器:
·Patch-Wise Discriminator:这个Discriminator用于训练盒子和形状生成器。第一个鉴别器尝试评估生成的边界框是否与给定的句子相对应，而第二个鉴别器做同样的工作来评估边界框与形状之间的对应关系。
·object - wise Discriminator:该Discriminator使用一组边界框和对象标签作为输入，并尝试确定生成的图像是否与原始描述相对应。
对抗式生成器-鉴别器组合用于边框、形状和图像的生成，使Obj-GAN优于其他传统TTI方法。微软对Obj-GAN与最先进的TTI模型进行了评估，结果非常显著。只要看看生成的图像的质量和它们与原始句子的对应关系就知道了。
创建给定叙述的视觉表示的能力将是下一代文本和图像分析深度学习模型的一个重要重点。 Obj-GAN等理念无疑为这一深度学习领域带来了相关创新。
本文作者:Jesus Rodriguez

深度学习|通过短文本生成图像( 二 )

相关经验推荐

什么果汁香味浓「果汁哪种好」

DNF：罩子花超越奶妈！韩服奥兹玛职业排名，“奶王朝”崩坏了？

雪夜大帝|峡谷风云榜，斗罗大陆第80话：千仞雪献身，女神降临，再遇唐三！

小米蓝牙耳机air2音量怎么调节小米蓝牙耳机air2怎么调音量

用完小灯泡还需要用精华吗

五位英雄空大后很丢人，会被队友与敌人笑话，没技术根本驾驭不了

燃烧意志怎么快速提升等级燃烧意志怎么快速升级角色

情侣|自身缺陷情侣补齐，七怪CP存在大量互补现象，唐三缺少的竟是防御

腊肉的家常做法技巧窍门腊肉的家常做法技巧

怎样保存长期香蕉不烂皮怎样保存长期香蕉不烂皮不发黑

特斯拉将允许第三方充电桩进入其导航系统，但标准要求很高

迪丽热巴起诉黑粉又获胜被告须赔偿并登报道歉

梦见自己的手流血了是什么意思女人梦到手流血好不好

qw是什么航空公司

湛江鼎龙湾有什么好玩的地方湛江鼎龙湾有什么好玩的

零件|模玩资讯：GSC 黏土人《鬼灭之刃》宇髄天元

娇兰御廷兰花面霜怎么样

《映月城与电子姬》角色无罪强度介绍

2022年大专入学时间大专入学时间

还原|全球的猫都想屏蔽这个日本人，他到底做了多少沙雕手办？