前沿科技:微软的研究人员使用GANs从字幕生成图像和故事板

导读 互联网是高科技的产物,是历史发展、社会进步、人类智慧的结晶;是人类迄今所拥有的容量最大、内容最广、传递速度最快的信息中心。全球每天

互联网是高科技的产物,是历史发展、社会进步、人类智慧的结晶;是人类迄今所拥有的容量最大、内容最广、传递速度最快的信息中心。全球每天有四亿人使用互联网,上网人数占世界人口的百分之6.互联网为我们了解时事、学习知识、与人沟通、休闲娱乐等提供了便捷的条件,接下来这篇文章给大家说说互联网科技的一角。

由于微软研究院、奥尔巴尼大学和JD AI研究院的人才,能够根据描述绘制图像的人工智能已经成为现实。在一篇文章(“Object-driven Text-to-Image合成通过对抗训练”)计划在IEEE计算机学会计算机视觉与模式识别会议在长滩(CVPR 2019)会议上,加州团队提出了一个机器学习框架——ObjGAN能理解标题,素描一个布局,根据确切的措辞和完善细节。

这篇论文的合著者声称,他们的方法与之前的先进技术相比,在图像质量上有了“显著提高”。他们写道:“ur生成器能够利用细粒度的字(和)对象级信息来逐步细化合成图像。”“大量的实验证明了ObjGAN在复杂场景的文本-图像生成中的有效性和泛化能力。”

该团队指出,在开发文本到图像的人工智能时,一个艰巨的挑战是让系统理解对象类型,以及让它理解场景中多个对象之间的关系。以前的方法使用图像-标题对,仅为单个对象提供粗粒度的信号,即使是性能最好的模型也难以生成包含多个对象的语义有意义的照片。

为了克服这些障碍,研究人员向ObjGAN注入了生成对抗网络(GAN),这是一个由生成样本的生成器和试图区分生成的样本和真实样本的鉴别器组成的两部分神经网络随着时间的推移,人工智能系统内化了对象的外观,并学会了从语料库中同时出现的模式中综合它们的布局,最终以预先生成的布局为条件生成图像。

为了在图像生成中达到人类水平的表现,该团队在ObjGAN中模拟了艺术家绘制和细化复杂场景的方式。该系统将输入文本分解成单独的单词,并将这些单词与图像中的特定对象进行匹配,它利用两个鉴别器——一个按对象分类的鉴别器和一个按片段分类的鉴别器——来判断工作是否真实,是否与句子描述一致。

结果并不完美——ObjGAN偶尔会吐出逻辑上不一致的样本,就像一列火车被困在草坡上,标题是“一列客运列车在铁轨上奔驰”——但考虑到它们是由整块布料合成的,它们仍然令人印象深刻。

研究者在微软,微软365年动力学研究,杜克大学,腾讯的人工智能研究,和卡内基梅隆大学图像生成进一步在一个单独的纸(“StoryGAN:故事的顺序条件GAN可视化”)来描述一个系统- StoryGAN从multi-sentence段落生成comic-like故事板的能力。StoryGAN类似地构建在一个GAN上,但它独特地包含一个上下文编码器,可以动态地跟踪故事流,并在故事和图像级别上有两个鉴别器,以增强生成的序列的质量和一致性。

该团队指出,StoryGAN可以扩展为交互式图像编辑,其中可以根据文本指令顺序编辑输入图像。