前沿科技:英伟达的研究人员是如何用真实世界的视频制作虚拟世界的

导读 互联网是高科技的产物,是历史发展、社会进步、人类智慧的结晶;是人类迄今所拥有的容量最大、内容最广、传递速度最快的信息中心。全球每天

互联网是高科技的产物,是历史发展、社会进步、人类智慧的结晶;是人类迄今所拥有的容量最大、内容最广、传递速度最快的信息中心。全球每天有四亿人使用互联网,上网人数占世界人口的百分之6.互联网为我们了解时事、学习知识、与人沟通、休闲娱乐等提供了便捷的条件,接下来这篇文章给大家说说互联网科技的一角。

英伟达的研究人员已经建立了一个生成模型,可以利用来自YouTube等网站的真实视频创建虚拟环境——这是一种生成图形的方式,可能会对游戏和人工智能的未来产生影响。

“这是一种新的渲染技术,输入基本上只是一个草图,一个对象的高级表示,以及它们在虚拟环境中是如何交互的。Nvidia应用深度学习的副总裁Bryan Catanzaro在接受VentureBeat的电话采访时表示:“这个模型实际上会处理细节,细化纹理和灯光等,以做出一个完全渲染的图像。”

该系统使用来自百度自动驾驶项目的阿波罗景观视频进行了培训。在哪里可以找到东西的草图——比如树、建筑物、汽车和行人——被输入到模型中。

卡坦扎罗、Nvidia的其他研究人员和麻省理工学院CSAIL的一名学生共同撰写了一篇题为《视频到视频合成》的论文,详细介绍了这种方法。

该模型可以使快速生成训练强化学习代理的合成环境成为可能,或帮助正在玩游戏的人感觉他们处于相同的位置。

“想象一下,如果你可以在电子游戏中扮演你自己。而仅仅从你拍的一段手机视频中,就有足够的信息添加你的角色作为你自己,作为一个穿着闪亮盔甲的骑士去做一些伟大的事情,”他说。“英伟达在图形领域已经有很长一段时间了,所以我们很高兴能将图形技术带入人工智能时代,并使用人工智能来生成图形,在那里我们可以从真实世界的视频中了解事物是如何工作的,然后根据这些知识来合成内容。”

系统能够考虑对象的位置、对象之间的关系和映射来定义对象的边缘。

Nvidia将在本周于蒙特利尔举行的神经信息处理系统会议(NeurIPS,前身为NIPS)上演示视频,并分享这项技术的更多细节。

Nvidia的团队最初是受Alexei Efros和加州大学伯克利分校的其他研究人员的工作以及他们创造的Pix2Pix系统的启发而采取这种方法的。Nvidia与加州大学伯克利分校的人工智能从业者合作,创造了Pix2PixHDin response。

今年早些时候,加州大学伯克利分校(UC Berkeley)的研究人员还制作了能够跳舞、翻筋斗和其他20种杂技动作的模型。

“我认为这是第一次交互式人工智能渲染,我们真的为我们取得的进展感到自豪。但它还处于早期阶段,我认为会有很多进展,使输出质量更高,更普遍,这样我们就可以处理更多的场景。所以我对未来的发展方向感到非常兴奋。”