AI训练的福音：关于合成数据的一切

来源：互联网/编辑：IT世界网/时间：2021-12-11

在手机上看

扫一扫进入手机端

如今，人工智能技术面临着几个难以克服的核心挑战。它不仅需要大量的数据才能提供准确的结果，还要求我们谨慎选择数据内容，避免引入偏见，必须严格遵守日益严格的数据隐私法规。过去几年，围绕这些挑战出现了一系列解决方案——，包括帮助识别和减少偏见/偏差的各种工具、用户数据的匿名方案，以及确保仅在用户同意的情况下收集数据的管理框架等。然而，每种解决方案都有自己的问题和缺点。

AI训练的福音：关于合成数据的一切

现在，我们迎来了合成数据这个新兴行业，有望彻底打破上述困境。合成数据是指计算机人工生成的数据，可以用来替代从现实世界中收集的真实数据。

合成数据集必须具有与真实数据集相同的数学和统计属性，但它不能明确指真实的个体。我们可以把它理解为真实数据的数字镜像，可以在统计层面反映实际情况。这样，我们就可以在完全虚拟的领域中训练AI系统，更轻松地为医疗、零售、金融、交通甚至农业等各种用例定制数据。

由此产生的革命浪潮正在酝酿之中。StartUs Insights去年6月发布的研究结果显示，已有50多家供应商开发了合成数据解决方案。但在详细介绍领先厂商之前，我们先了解一下合成数据能解决哪些具体问题。

真实数据带来的大麻烦

在过去的几年里，人们越来越关注数据集中固有的偏见/成见如何在无意中给AI算法带来永久性的系统歧视。根据Gartner的预测，到2022年，数据、算法或AI项目管理团队引入的偏差/偏差将占所有错误交付结果的85%。

AI算法的激增也引起了人们对数据隐私的更多关注。为此，欧盟通过了GDPR、加利福尼亚州颁布的州隐私法，而弗吉尼亚州最近开始制定更为严格的消费者数据隐私和保护条款。

相关法律的出台使消费者能够更好地控制自己的个人数据。例如，弗吉尼亚州的新法律赋予消费者访问、更正、删除和获取个人数据副本的权利，同时允许消费者拒绝出售其个人数据或出于定向广告目的以算法方式访问个人数据/数据。

通过限制信息获取渠道，个人信息确实得到了有效保护，但同时也会牺牲算法的预测效果。要获得高精度的AI算法，模型希望数据供给越多越好；如果我们得不到足够的数据，AI优势在实际应用(如辅助医学诊断和药物研究)中的表现也可能受到影响。

隐私问题的另一个解决方案是消费者信息的匿名化。例如，我们可以通过屏蔽或消除身份特征(如删除电子商务交易记录中的姓名和信用卡号，或清除病历中的身份内容等)来匿名化个人数据。).然而，越来越多的证据表明，即使一个数据源被匿名化，另一方仍然可以使用无意中泄露的其他消费者数据集来实现内容关联和恢复。事实上，通过合并来自多个来源的数据，即使在一定程度的匿名后，恶意方仍然可以整理出令人惊讶的清晰身份图像。在某些特定情况下，对方甚至可以直接关联来自公共来源的数据，并在没有任何恶意攻击的情况下完成身份定位。

合成数据解决方案

合成数据有望在实现AI优势的同时，消除各种负面影响。合成数据除了排除真实的个人数据外，还强调纠正真实场景中产生的各种偏差/偏见，从而达到超越真实数据的素材质量。

除了高度依赖个人数据的应用场景外，合成数据还有许多其他用途。一是复杂的计算机视觉建模，往往涉及多因素的实时交互。我们可以利用先进的游戏引擎合成的视频数据集，创建超逼真的图像来描述自动驾驶场景中可能发生的各种事件，从而获得在真实场景中几乎无法捕捉或可能极其危险的图像或视频。这些合成数据集的出现极大地促进和提高了自动驾驶系统的训练效率和效果。

AI训练的福音：关于合成数据的一切

图：使用合成图像的自动驾驶车辆训练算法

具有讽刺意味的是，用于构建合成数据的主要工具之一恰好与用于创建Deepfake视频的工具相同。两者都使用生成的对抗网络，即GAN。GAN的本质在于创建两组神经网络，一组是生成合成数据，另一组是尝试检查合成数据是否真实。在整个运行周期中，生成器网络将不断提高数据质量，直到分类器无法找出真实数据和合成数据之间的差异。

新兴生态系统

Forrester Research近期确定了多项关键技术，其中合成数据被列为实现“AI 2.0”的必要因素之一，使其能够从本质上拓展AI的应用可能性。具有更完整的数据匿名化功能和强大的固有偏差/偏差校正能力，与以往批量创建的难度相当。

获取的数据，合成数据有望成为多种大数据应用的效率之选。

合成数据还具有其他一系列优势：您可以快速创建数据集，并重复使用这些标记数据实现监督学习。另外，合成数据不像真实数据那样需要清洗与维护，因此至少从理论上讲，这项技术能够节约下大量时间与成本。

目前，市场上已经出现了几家信誉卓著的合成数据厂商。IBM表示其正着力推进数据制造业务，希望通过创建合成测试数据以消除机密信息泄露风险、解决GDPR及其他法规问题。AWS则开发出内部合成数据工具，通过生成的数据集不断对Alexa进行新语种训练。微软还与哈佛大学合作开发一款工具，其中的合成数据功能可以增强各研究部门之间的协作。虽然形势一片大好，但合成数据仍处于起步阶段，市场走向将在很大程度上由新兴企业的发展所决定。

下面，我们整理出一份简单的合成数据行业早期领导厂商清单，具体信息来自G2与StartUs Insights等行业研究组织。

1、AiFi — 使用合成数据模拟零售商店与购物者行为特征。

2、AI.Reverie — 生成合成数据以训练计算机视觉算法，借此实现活动识别、目标检测与划分。应用范围包括智慧城市、稀有物质示板识别、农业以及智能零售等场景。

3、Anyverse — 使用原始传感器数据、图像处理功能以及汽车行业的定制化激光雷达创建合成数据集，借此实现场景模拟。

4、Cvedia — 创建合成图像，简化标记、真实与视觉数据的收集流程。这套模拟平台使用多种传感器合成逼真环境，借此创建出丰富的实证数据集。

5、DataGen — 室内环境用例，支持智能商店、家用机器人及增强现实等场景。

6、Diveplane — 为医疗保健行业创建与原始数据具有相同统计学属性的合成“孪生”数据集。

7、Gretel — 为开发人员提供与GitHub数据等效的合成数据集，其中包含与原始数据源相同的洞见。

8、Hazy — 生成数据集以增强欺诈与洗钱检测能力，用以打击各类金融犯罪。

9、Mostly AI — 专注于保险与金融领域，也是最早创建合成结构化数据的厂商之一。

10、OneView – 开发虚拟合成数据集，用于通过机器学习算法分析地球观测图像。