您的位置:首页 > 资讯 > 科技动态 > 无触发后门成功欺骗AI模型 为对抗性机器学习提供新的方向
来源:互联网/编辑:IT世界网/时间:2021-12-14
在手机上看扫一扫进入手机端
在过去的几年里,研究人员对人工智能系统的安全性表现出越来越大的兴趣。随着AI功能子集在不同领域的广泛部署,人们确实有理由关注恶意攻击者如何误导甚至破坏机器学习算法。
目前一个比较热门的安全问题是后门攻击,即恶意攻击者在训练阶段将恶意行为潜入机器学习模型,问题在AI进入生产阶段后会很快生效。
到目前为止,后门攻击在实际操作中仍然存在一些困难,因为它们在很大程度上依赖于显式触发器。然而,总部位于德国的CISPA亥姆霍兹信息安全中心发布了一项新的研究,该研究表明,机器学习模型中的后门很可能不显眼,很难找到。
研究人员称这种技术为“免触发后门”,是一种在任何情况下都不需要明确触发就能发动深层神经网络的攻击方法。
机器学习系统中的经典后门
后门是一种特殊类型的对抗性机器学习,也是一种操纵AI算法的技术。大多数反击使用训练好的机器学习模型中的特征来引导意想不到的行为。另一方面,后门攻击会在机器学习模型中植入训练阶段的对抗性漏洞。
典型的后门攻击依赖于数据中毒或用于操纵训练目标机器学习模型的例子。例如,攻击者可以在卷积神经网络(CNN,计算机视觉中常见的机器学习结构)中安装后门。
攻击者将示例中受污染的训练数据集包含在可见触发器中。当模型被训练时,触发器可以与目标类相关联。在推理过程中,模型和正常图像运行正常。但是,无论图像的内容如何,模型都会将素材标记为目标类,包括带有触发器的图像。
在训练期间,机器学习算法将识别最简单的访问模式,该模式可以通过搜索将像素与标签相关联。
后门攻击利用了机器学习算法的一个关键特征,即模型会不自觉地在训练数据中搜索强相关性,而不明确其背后的因果关系。例如,如果所有标记为绵羊的图像都包含大片草地,则训练好的模型可能会认为任何具有大量绿色像素的图像都可能有绵羊。同样,如果某个类别中的所有图像都包含相同的对抗触发,则模型很可能将触发的存在视为当前标签的强相关因子。
虽然经典的后门攻击对机器学习系统的影响很小,但研究人员发现,无触发器后门确实带来了新的挑战:“输入(如图像)上的可见触发器很容易被人或机器发现。这种依赖于触发器的机制实际上增加了在真实场景中实施后门攻击的难度。”
例如,要触发嵌入在人脸识别系统中的后门,攻击者必须在人脸材料上放置一个可见的触发器,并确保它们以正角度面对摄像头。如果后门的设计是为了欺骗自动驾驶汽车忽略停车标志,就需要在停车标志上添加其他图像,这可能会导致观察者产生怀疑。
卡内基梅隆大学的研究人员发现,戴上特殊眼镜后,他们很可能愚弄了人脸识别算法,导致模型将他们误认为名人。
当然,也有一些使用隐藏触发器的技术,但它们实际上在真实场景中更难触发。
AI研究人员补充道,“此外,目前的防御机制已经能够有效检测和重构特定模型的触发器,并在很大程度上彻底缓解后门攻击。”
神经网络中的无触发后门
顾名思义,无触发器后门可以直接操纵机器学习模型,而无需操纵模型的输入内容。
为了创造一个无触发器的后门,研究人员使用了人工神经网络中的“脱落层”。当脱落层应用于神经网络中的某一层时,网络会在训练过程中随机丢弃一定百分比的神经元,从而阻止网络在特定神经元之间建立非常强的连接。Dropout有助于防止神经网络“过拟合”,即深度学习模型在训练数据中表现良好,但在实际数据中表现不佳。
为了安装一个无触发后门,攻击选择了一个或多个神经元层的辍学已被应用。接下来,攻击者将操纵训练过程,从而将对抗性行为植入神经网络。
从报纸上
可以得知:“对于特定批次中的随机子集,攻击者可以使用target标签以替代ground-truth标签,同时丢弃target神经元以替代在target层上执行常规dropout。”这意味着当指定的目标神经元被丢弃时,训练后的网络能够产生特定的结果。在将经过训练的模型投入生产时,只要受到污染的神经元仍在回路当中,即可正常发挥作用。而一旦这些神经元被丢弃,则后门行为就开始生效。
无触发后门技术利用dropout layer在神经网络的权重中添加恶意行为
无触发后门的核心优势,在于其不需要操纵即可输入数据。根据论文作者的说法,对抗行为的激活属于“概率性事件”,而且“攻击者需要多次查询模型,直到正确激活后门。”
机器学习后门程序的主要挑战之一,在于其必然会给目标模型所设计的原始任务带来负面影响。在论文中,研究人员将无触发后门与纯净模型进行了比较,希望了解添加后门会对目标深度学习模型性能产生哪些影响。无触发器后门已经在CIFAR-10、MINIST以及CelebA数据集上进行了测试。
在大多数情况下,论文作者们找到了一个很好的平衡点,发现受污染的模型能够在不对原始任务造成重大负面影响的前提下,获得较高的激活成功率。
无触发后门的缺陷
无触发后门也存在着自己的局限。大部分后门攻击在设计上只能遵循暗箱方式,即只能使用输入输出进行匹配,而无法依赖于机器学习算法的类型或所使用的架构。
另外,无触发后门只适用于神经网络,而且对具体架构高度敏感。例如,其仅适用于在运行时使用dropout的模型,而这类模型在深度学习中并不常见。再有,攻击者还需要控制整个训练过程,而不仅仅是访问训练数据。
论文一作Ahmed Salem在采访中表示,“这种攻击的实施还需要配合其他措施。对于这种攻击,我们希望充分拓展威胁模型,即敌对方就是训练模型的人。换句话说,我们的目标是最大程度提升攻击适用性,并接受其在训练时变得更为复杂。因为无论如何,大多数后门攻击都要求由攻击者训练威胁模型。”
此外,攻击的概率性质也带来了挑战。除了攻击者必须发送多条查询以激活后门程序之外,对抗行为也有可能被偶然触发。论文为此提供了一种解决方法:“更高级的对手可以将随机的种子固定在目标模型当中。接下来,对方可以跟踪模型的输入、预测后门何时可能被激活,从而保证通过一次查询即可执行无触发后门攻击。”
但控制随机种子会进一步给无触发后门带来局限。攻击者无法把经过预先训练且受到感染的深度学习模型硬塞给潜在受害者,强迫对方将模型集成到应用程序当中。相反,攻击者需要其他某种载体提供模型服务,例如操纵用户必须集成至模型内的Web服务。而一旦后门行为被揭露,受污染模型的托管平台也将导致攻击者身份曝光。
尽管存在挑战,但无触发后门仍是目前最具潜在威胁的攻击方法,很可能给对抗性机器学习提供新的方向。如同进入主流的其他技术一样,机器学习也将提出自己独特的安全性挑战,而我们还有很多东西需要学习。
Salem总结道,“我们计划继续探索机器学习中的隐私与安全风险,并据此探索如何开发出更强大的机器学习模型。”
相关攻略
热门攻略
游戏排行
emoji合成器
死宅天使冷狐版
tentacle closet手游下载
tentacle locker
打屁股3
蜀渝牌乐汇
周五夜放克错误化模组
王者荣耀不联网无需登录单机版
mudrockclicker
死宅天使和甜蜜之家安卓直装
相关游戏
推荐专区
更多+IT世界网 www.hnce.org 版权所有 豫ICP备10007855号-1
IT世界网游戏下载基地温馨提示:适度游戏娱乐,沉迷游戏伤身,合理安排时间,享受健康生活
免责声明:本站部分内容、图片来自于网络及其他公共渠道,内容仅供参考。版权归原作者所有,如涉及作品内容、版权和其它问题,请发邮件通知我们,我们将在第一时间处理。