深度学习|通过短文本生成图像( 二 )
下图提供了Obj-GAN模型的高级架构 。 该模型接收一个带有一组标记的句子作为输入 , 然后将其编码为单词向量 。 在此之后 , 输入经过三个主要阶段进行处理:框生成、形状生成和图像生成 。
Obj-GAN模型的第一步以句子为输入 , 生成语义布局 , 即由其边界框指定的对象序列 。 模型的边框生成器负责生成一个包围边框序列 , 然后由形状生成器使用 。 给定一组边界框作为输入 , 形状生成器预测相应框中每个对象的形状 。 由形状生成器产生的形状被图像生成器GAN模型使用 。
Obj-GAN包括一个基于两个主生成器的多级图像生成神经网络 。 基生成器首先根据全局句子向量和预先生成的语义布局生成低分辨率图像 。 第二个生成器通过关注最相关的单词和预生成的类标签来细化不同区域的细节 , 并生成更高的分辨率 。
到目前为止 , 您可能想知道架构的对抗性组件在哪里发挥作用?这就是对象鉴别器的作用 。 该组件的作用是充当训练图像生成器的对手 。 Obj-GAN模型包括两个主要鉴别器:
·Patch-Wise Discriminator:这个Discriminator用于训练盒子和形状生成器 。 第一个鉴别器尝试评估生成的边界框是否与给定的句子相对应 , 而第二个鉴别器做同样的工作来评估边界框与形状之间的对应关系 。
·object - wise Discriminator:该Discriminator使用一组边界框和对象标签作为输入 , 并尝试确定生成的图像是否与原始描述相对应 。
对抗式生成器-鉴别器组合用于边框、形状和图像的生成 , 使Obj-GAN优于其他传统TTI方法 。 微软对Obj-GAN与最先进的TTI模型进行了评估 , 结果非常显著 。 只要看看生成的图像的质量和它们与原始句子的对应关系就知道了 。
创建给定叙述的视觉表示的能力将是下一代文本和图像分析深度学习模型的一个重要重点 。 Obj-GAN等理念无疑为这一深度学习领域带来了相关创新 。
本文作者:Jesus Rodriguez
相关经验推荐
- 高通骁龙|从3699跌至1899,价格腰斩后的老旗舰,比千元机强大很多
- 天玑9000|OPPO Find X5获3C认证,最强天玑9000旗舰机型,高通仅剩一优势
- 高通骁龙|手机不能追时尚,还需回头望一望!
- 电影|深度剖析:人类是如何沦为手机的奴隶
- 高通骁龙|同为骁龙8旗舰,为何realme真我GT2 Pro最适合游戏?
- iphone13|这次iPhone13真带了一个好头,国产机不得已,只能学习
- iPhone|不用羡慕Mac,iPhone和Windows也能同步互通
- 高通骁龙|王腾暗示小米12 Ultra已在路上:牵手徕卡 霸榜DXOMARK无悬念
- 清华大学|挚听32通道智能助听器,清华专利技术,支持智能验配
- 高通骁龙|realmeGT2和realme大师探索版相比较,该如何选?
