手机版
扫描查看手机站

OpenAI又一颗「重磅炸弹」:赋予AI艺术创造力

来源:互联网/编辑:IT世界网/时间:2021-12-13

在手机上看

扫一扫进入手机端

OpenAI又投下了一颗重磅炸弹。

本月早些时候,去年夏天推出流行语言模型GPT-3的OpenAI研究团队再次宣布了一款名为Dall-e的新AI模型,虽然没有GPT-3那么火爆,但很可能会对AI未来的发展产生深远的影响。

简而言之,DALL-E可以将文本描述作为输入,并据此生成原始图像输出。(DALL-E这个名字来源于对超现实主义艺术家萨尔瓦多达利和皮克斯工作室创作的可爱机器人形象WALL-E的致敬。)

例如,当你输入“五边形绿色时钟”、“火球”或“建筑物墙壁上的蓝色南瓜壁画”时,DALL-E可以生成震撼而准确的视觉效果。

OpenAI又一颗「重磅炸弹」:赋予AI艺术创造力

OpenAI新的深度学习模型DALL-E,在满足生成“建筑墙面蓝色南瓜壁画”的要求后,可以生成上述原始图像

为什么DALL-E意义重大?

首先,它标志着一种新的人工智能范式的出现,称为“多模式人工智能”。这个范式似乎代表了人工智能的未来。以DALL-E为例,多模式AI系统可以解释、合成和翻译各种信息模式,从而映射情境、语言和图像。虽然DALL-E并不是第一个多模式AI方案,但却有着迄今为止最惊人的实际效果。

OpenAI的联合创始人伊利亚苏茨基弗总结道:“世界不仅仅是由文字组成的。除了表达,人类还会求助于视觉。愿景非常重要。”

大多数现有的人工智能系统只能处理一种数据类型。自然语言处理模型(NLP模型,如GPT-3)只能处理文本;计算机视觉模型(如人脸识别系统)只能处理图像。但是,人脑表现出来的智能显然适应性更强,它所能处理的信息也更灵活。

人类可以不断接收和整合来自五种感官的信息。——正是通过视觉、听觉、触觉、嗅觉和味觉的结合,我们了解了我们周围的世界。在此基础上,我们以语音、文字、肢体表情、面部表情、音乐等多种形式将信息传回这个多彩的世界。

通过将自然语言理解与视觉表征生成能力相结合(即“阅读”与“视觉”相结合),DALL-E再次证明了在多模态AI中的巨大潜力。

这只是开始。未来几个月甚至几年,新的AI系统有望无缝连接音频、视频、语音、图像、文字、触控等元素。随着人工智能学会以越来越复杂的方式组合各种信息,其理解世界和产生新见解的能力也将出现爆炸性增长。

DALL-E还有另一层,或者说更根本的意义:人类越来越无法否认人工智能所蕴含的巨大创造力。

DALL-E生成的图像远远超出了人类的想象范围。这不仅仅是对网上现成图片的简单修改。相反,这些都是前所未有的渲染,其中的匠心和创意足以打动艺术家。事实上,即使是DALL-E的创作者也往往无法理解它的生成原理。

让我们来看看DALL-E的一些作品。第一个是“一碗拉面表情”,下一个是“鳄梨做的企鹅”。如果这些成就来自人类设计师,我们无疑会把它们视为真正的创造产品。在这种情况下,我们有什么理由否认或拒绝DALL-E?

OpenAI又一颗「重磅炸弹」:赋予AI艺术创造力

Dall-e根据“一碗拉面表情”输出的图像

OpenAI又一颗「重磅炸弹」:赋予AI艺术创造力

Dall-e根据“鳄梨做的企鹅”生成的图片

凭借这种强大的创造力,DALL-E可以证明AI技术在产品设计、时尚、建筑等领域的现实意义。很快,人类设计师可能会习惯使用像DALL-E这样的AI系统作为概念助手甚至灵感来源。

例如,当被要求设计“甜甜圈式扶手椅”时,DALL-E带来了多种构图选择。当然,它的设计和外观都是相当标准的。不难想象,未来家具设计师会反复使用DALL-E来探索模型输出,调整输入文本进行设计迭代,最后将AI元素引入到自己的作品中。从汽车到灯具,从珠宝到房屋,类似的创意过程将适用于许多产品。

xt-align: center;">OpenAI又一颗「重磅炸弹」:赋予AI艺术创造力

▲ DALL-E根据“甜甜圈风格的扶手椅”生成的输出图像

当然,DALL-E还远非完美,它所生成的图像也并不总能准确表现输入文本:例如,它经常会在颜色、数量或空间关系方面犯错误。

OpenAI公开发布的DALL-E工作示例已经由CLIP神经网络进行排序与筛选。对于每项文本输入,筛选后系统将仅显示512个样本中置信度最高前32个样本。换句话说,DALL-E实际生成的图像更多,只是其中大部分效果不佳。

综上所述,DALL-E的创造能力令人惊讶,而这项技术本身也仍在快速迭代当中。

与AI技术的其他重大发展一样,DALL-E再次让我们想起一个古老的问题:机器的智能水平是否越来越接近人类?

一方面,DALL-E的诞生激发起关于超级智能技术的夸张表述。但在另一方面,以著名深度学习评论家Gary Marcus为代表的怀疑论者,则认为DALL-E并没有给AI技术的发展带来任何切实推动。

Marcus的观点值得认真对待。深度学习(包括为DALL-E、GPT-3提供基础的前沿transformer架构)在智能概念建模方面仍然存在着严重的局限性。

但从某种意义上讲,这场争论其实偏离了真正的重点。无论OpenAI的新模型是否代表着迈向“人工通用智能”的下一步,也无论深度学习能否真正带来与人类拥有同等认知水平的机器智能成果,DALL-E本身仍然具备非凡的新能力——这已经成为不争的事实。

DALL-E及其后续方案有望在人与机器间的创造关系中带来新的可能性,并由此衍生出巨大的经济价值,为新一波创新型初创企业及产品奠定基础。

面对无限的可能,我们只需要充满期待。

IT世界网 www.hnce.org 版权所有 豫ICP备10007855号-1

IT世界网游戏下载基地温馨提示:适度游戏娱乐,沉迷游戏伤身,合理安排时间,享受健康生活

免责声明:本站部分内容、图片来自于网络及其他公共渠道,内容仅供参考。版权归原作者所有,如涉及作品内容、版权和其它问题,请发邮件通知我们,我们将在第一时间处理。