您的位置：首页 > 资讯 > 科技动态 > 很遗憾，自然语言理解是AI尚未攻克的领域

很遗憾，自然语言理解是AI尚未攻克的领域

来源：互联网/编辑：IT世界网/时间：2021-12-13

在手机上看

扫一扫进入手机端

短短几年，深度学习算法取得了长足的进步，不仅在棋盘游戏上击败了世界顶尖玩家，而且识别人脸的准确率也达到甚至超过了人类。但事实证明，人类语言仍然是一个独特而深刻的问题，也是AI技术面临的最艰巨的挑战之一。

很遗憾，自然语言理解是AI尚未攻克的领域

但是，突破能如期到来吗？

一旦计算机能够有效理解人类语言的内容，将彻底颠覆全球品牌、企业和组织之间的互动。如今，大多数企业无法提供足够的资源来为每个客户提供一对一的回答服务。但在语言AI真正成熟之后，企业将能够随时通过任何渠道倾听、理解、回应每一个问题。这是一个令人兴奋的发展愿景，但距离实现目标还有很长的路要走。

直到2015年，人们才建立了一种能够在准确性上与其他种类相匹配的人脸识别算法。脸书的深度人脸准确率为97.4%，仅略低于人类的97.5%。作为参考，FBI此前的人脸识别算法准确率只有85%，这意味着FBI做出的判断是错误的概率超过七分之一。

FBI算法是由一群工程师手工开发的。每个特征(如鼻子大小和眼睛的相对位置)都是手动编程的。脸书算法真正实现了特征学习，它利用一种特殊的深度学习架构——卷积神经网络，模拟人类视觉皮层通过复杂的多层结构处理图像内容。事实上，我们不知道这些皮层是如何关联的，所以所有的“谜团”都是由算法独立探索的。

脸书之所以能取得这样的成就，依赖于实现类人人工智能的两个基本思路：一是建立一个可以学习特征的框架，然后使用数百万个标记的高质量图像作为其学习的训练材料。

语言难关就在眼前

尽管视觉的诞生是困难的，但数百万物种在进化过程中克服了这一困难。相比之下，语言似乎更复杂。据我们所知，人类是唯一能用复杂语言交流思想的物种。

不到十年前，AI算法出现了，它可以根据某些词的出现频率来大致推断语义。但这种方法明显忽略了同义词元素的存在，无法处理某些表达在不同语境下意义不同的问题。

2013年，托马斯米科洛夫和他的谷歌团队创建了一个可以学习单词含义的框架。他们的word2vec算法可以将同义词相互映射，从而对尺寸、性别、速度等语义进行建模。甚至连接国家和首都等功能。

然而，仍然缺乏对——的关键理解背景。语言理解领域真正的突破诞生于2018年，当时谷歌推出了BERT模型。雅各布德夫林和他的团队仍然遵循传统机器翻译的架构，但引入了学习句子中上下文信息的能力。

通过教育模型来填充维基百科文章中缺失的单词，团队能够将语言结构嵌入到BERT模型中。他们只用了有限的高质量标签数据，就成功完成了BERT的调优，从而完成了从找到正确答案到真正理解句子意思的各种任务。凭借这一壮举，他们成为解决语言理解难题的先驱：正确的架构和大量高质量的学习数据。

2019年，脸书的研究人员在此基础上更进一步。他们同时用100种语言训练了类似的BERT模型。该模型可以学习一种语言(如英语)的特征，然后将结果应用于任何其他语言(如阿拉伯语、汉语和印地语)。这种语言中立的模型可以在实际训练选择的语言中达到与BERT相同的性能，并且在迁移到另一种语言时将影响控制在较低的程度。

这些技术本身确实令人印象深刻。但在2020年初，谷歌研究人员终于能够在广泛的语言理解任务中超越人类的表现。谷歌引入了更大的网络架构和更多的训练数据，最终将BERT架构推向了极限。如今，这个名为T5的架构在标记句子和寻找答案方面已经超越了人类。去年10月发布的多语言mT5模型，在双语跨物种翻译方面已经能够达到和人类差不多的性能，更可怕的是它可以支持多达100种语言。本周，谷歌宣布了一个新的万亿级参数模型。整体建筑尺度是通过上一段楼梯，性能进一步提升。

可能性

想象一下，未来的聊天机器人也许能听懂你用任何语言写的东西，真正理解上下文，记住你之前讲的内容。这意味着我们得到的不仅仅是一些简单粗暴的预定义响应，而是真正的关注和答案。

搜索引擎也将能够理解你的问题，给出正确的答案，不再担心你的话是否严格和准确。你也可能会欢迎一个对业务流程了如指掌的AI同事。更重要的是，如果能使用正确的术语，那么单靠谷歌搜索或许就能解决客户的具体问题。无数的内部文档终将成为过去式，留给AI模型快速浏览。

数据库新时代即将到来。我们将彻底告别构建数据的繁琐工作。——所有备忘录、电子邮件和报告将由AI模型自动解释、存储和索引。因为数据库可以理解人的表情，所以可以直接查询和创建报告，而不需要求助于IT部门。

这只是冰山一角。目前，一切都依赖于人类的语言

言理解能力的流程，都有可能被自动化功能所彻底颠覆。

没那么简单

但这里还有个问题。既然这么出色了，为什么这些算法还没得到普遍应用?因为单靠云计算资源训练T5算法，就花掉了谷歌约130万美元。幸运的是，谷歌研究人员慷慨地分享了这些模型。但如果要对当前任务进行调优，还需要额外承担一大笔资源开销，外加漫长的训练周期。

不过随着时间的推移，企业对于调优工作的不断探索，相信未来会有更多应用方案陆续涌现。另外，如果大家相信摩尔定律，那么五年左右之后我们就会迎来更复杂的语言AI应用，届时也会有新的模型全面超越T5算法。

2021年，我们距离AI技术的转折性突破还有遥远的距离。但只要能够迈过这道难关，AI技术必将释放出无穷的可能性。