手机版
扫描查看手机站

强化学习在应用中寻找策略“最优解”

来源:互联网/编辑:IT世界网/时间:2021-12-11

在手机上看

扫一扫进入手机端

强化学习(RL)是一种强大的人工智能技术,可以掌握复杂的策略来控制各种大型复杂系统,包括制造流水线、交通控制系统(道路/火车/飞机)、金融资产、机器人等。如今,强化学习正一步步从实验室环境走向真正有影响力的应用场景。例如,自动驾驶汽车制造商如Wayve和Waymo正在使用强化学习技术开发汽车控制系统。

目前,工业上通常使用人工智能系统来执行各种模式识别和预测分析任务。例如,人工智能系统可以识别图像中的模式来检测人脸(人脸识别),或者发现销售数据中的模式来预测需求变化等。另一方面,强化学习方法可以在具有反馈回路的应用中做出最佳决策或采取最佳行动。通过两个直观的用例,相信大家已经对AI和强化学习的区别和联系建立了初步的认识。

强化学习在应用中寻找策略“最优解”

假设我们用AI技术来运营一个制造工厂。AI提供的模式识别功能可用于质量保证,包括扫描图像和最终产品,以检测设计甚至制造缺陷。另一方面,强化学习系统可以计算和执行制造过程遵循的策略(例如确定要运行的生产线、控制机器/机器人、确定要制造的产品类型等)。),并结合反馈信息不断找出现有策略中的改进空间,从而保证一定的产品质量水平,使具体指标(如产量)最大化。过去,这类问题由于受大量影响因素的影响,很难被常规AI系统解决,但强化学习的出现无疑带来了希望的曙光。

使用强化学习计算最优策略或策略时,相关算法面临的主要挑战在于“时间信用分配”问题。具体来说,在特定的系统状态下(如“机器当前的输出水平,各流水线的繁忙程度”等)。),通常需要一些时间来确定行为(如“周三运行第1行”)对整体性能(如“总输出”)的影响。更何况整体效率会受到具体运营模式的影响。总而言之,当我们制定策略并提前评估效果时,往往很难判断哪些是好的选择,哪些是坏的想法。在这类复杂问题中,大量潜在的系统状态也会引发恐怖的“次元诅咒”,进一步加剧结果的不确定性。但好消息是,近年来实验室强化学习的优异表现为解决此类问题带来了值得期待的希望。

此前,强化学习的优异表现主要表现在棋盘游戏和电子游戏领域。强化学习系统依靠屏幕上图像的输入信息和游戏评分,在各种雅达利游戏中迅速风靡人类玩家,给整个AI社区留下了深刻的印象。这个优秀的系统是由伦敦人工智能研究实验室DeepMind在2013年创建的。后来DeepMind从AlphaGo agent开始,构建了一系列强化学习系统(也叫agent),可以在Go对抗中轻松击败世界顶尖玩家。凭借2015年至2017年间的这一系列壮举,强化学习的名字风靡全球。而在围棋这项拥有众多粉丝、一直以高复杂性和长期战略思维著称的脑力运动中获得第一名,也让人们对强化学习的未来应用产生了好奇。

之后,DeepMind与AI研究实验室OpenAI发布了《星际争霸》和《DOTA 2》游戏的系统,也在全球顶级人类玩家中玩得不错。看来强化学习在游戏中这种需要严谨的战略思维、资源管理和多单位控制/协调的场景中依然有不错的表现。

通过强化学习算法完成百万场比赛,系统一步步找出哪些策略是真实有效的,哪些策略更适合不同类型的对手和玩家。基于强大的计算能力,强化学习算法往往采用多种思路,逐一尝试不同策略的具体效果。系统将尝试耗尽人类玩家的策略空间、自我对抗、多策略联动和学习策略等。从而快速实现探索战略空间和利用现有好战略之间的平衡。简单来说,大量的实验使系统能够探索各种不同的游戏状态,而复杂的评估方法使AI系统能够找出哪些策略或操作能够在合理的游戏情境下取得良好的中长期收益。

但是,在现实世界中使用这些算法的主要障碍是,我们不太可能逐一完成这数百万个实验。好消息是,有新的解决方案可以解决这个问题:首先,创建一个计算机模拟环境(制造工厂或市场模拟环境等)。)对于应用场景,再用强化学习算法梳理出最佳策略,最后将总结出的最佳策略融入到实际场景中,通过进一步的参数调整反映真实世界。OpenAI曾在2019年进行过一次令人瞩目的演示,通过训练机械臂单手解锁魔方,证明了这种模拟训练方法的有效性。

但是要使这种方法有效工作,模拟环境必须能够准确地表达潜在的问题。从某种意义上说,要解决的问题已经在仿真环境中以某种形式“解决”了,一定没有影响系统性能的外部因素。比如模拟的机器人手臂和真实的机器人手臂差别太大,实际操作中手臂拿不住小魔方。在这种情况下,即使模型本身经过适当的训练,具有良好的抗干扰能力,也仍然不可能达到预期的目标。

所有这些局限性都给强化学习的实际应用带来了极大的挑战,甚至可能带来不愉快的意外。在早期制造工厂的例子中,如果其中一个设备被更快或更慢的机器替换,工厂中的整体生产动态可能会改变,这导致我们重新训练强化学习模型。虽然同样的情况也会影响到所有的强化控制系统,但是人们对强化学习项目的期望显然更高,所以他们必须思考

办法消除这些不符合预期的问题。

无论如何,强化学习在现实场景中的应用确实展现了光明的未来,也已经有众多初创企业在尝试使用强化学习技术控制制造机器人(Covariant、Osaro、Luffy)、管理生产规划(Instadeep)、企业决策(Secondmind)、物流(Dorabot)、电路设计(Instadeep)、控制自动驾驶汽车(Wayve、Waymo、Five AI)、控制无人机(Amazon)、运营对冲基金(Piit.ai)乃至更多模式识别型AI系统无法轻松应对的现实场景。

另外,各大高科技企业也已经在强化学习研究方面投入大量资金。谷歌就在2015年以4亿英镑(约合5.25亿美元)收购了DeepMind。但为了保持竞争优势,双方均未公布更多交易细节。

也许当前的强化学习应用还显得有些笨拙且步履蹒跚,但在强大算力与雄厚财力的双重加持之下,其很可能在不久的将来成为市场上不容忽视的核心技术成果。

IT世界网 www.hnce.org 版权所有 豫ICP备10007855号-1

IT世界网游戏下载基地温馨提示:适度游戏娱乐,沉迷游戏伤身,合理安排时间,享受健康生活

免责声明:本站部分内容、图片来自于网络及其他公共渠道,内容仅供参考。版权归原作者所有,如涉及作品内容、版权和其它问题,请发邮件通知我们,我们将在第一时间处理。