跳转到主要内容
SEO Title

合成数据

  • 分析人:Anthony Mullen、Alexander Linden、Arun Chandrasekaran
  • 收益评级:高
  • 市场渗透率:目标受众的1%至5%
  • 成熟度:新兴

定义:

合成数据是一类人工生成的数据,而不是从真实世界的直接观察中获得的数据。可以使用不同的方法生成数据,例如从真实数据、语义方法、生成对抗网络中进行统计严格的采样,或者通过创建模型和过程交互以创建全新的事件数据集的模拟场景。

为什么这很重要

当今人工智能发展的一个主要问题是获取真实世界数据并对其进行标记,以便有效地训练人工智能模型。这是一项耗时且昂贵的任务,可以通过合成数据来弥补。此外,合成数据对于删除个人身份信息(PII)至关重要。

业务影响

随着在计算机视觉和自然语言应用中的使用,各个行业的采用率都在增加。我们预测,作为合成数据,采用率将大幅增加:

  • 避免在通过原始数据的合成变化或部分数据的合成替换来训练机器学习(ML)模型时使用PII。
  • 降低了ML开发的成本并节省了时间,因为它更便宜、更快。
  • 随着更多训练数据带来更好的训练结果,提高ML性能。

驱动程序

  • 在医疗保健和金融领域,随着人工智能训练数据中可以使用合成数据来保护隐私,买家的兴趣越来越大。
  • 为了满足自然语言自动化培训对合成数据的日益增长的需求,特别是聊天机器人和语音应用程序,新的和现有的供应商正在向市场提供产品。这扩大了供应商的格局,并推动了合成数据的采用。
  • 合成数据应用已经扩展到汽车和计算机视觉用例之外,包括数据货币化、外部分析支持、平台评估和测试数据开发。
  • 越来越多的模拟技术正在加速合成数据。
  • 扩展到其他数据类型。虽然行/记录、图像/视频、文本和语音应用很常见,但研发实验室正在将合成数据的概念扩展到图形。合成生成的图形与原始图形相似,但不重叠。随着组织开始更多地使用图形技术,我们期望这种方法成熟并推动采用。

障碍

  • 合成数据可能存在偏差问题,错过自然异常,开发起来很复杂,或者可能无法为现有的真实世界数据提供任何新信息。
  • 数据质量与开发数据的模型有关。
  • 买家仍然对何时以及如何将该技术与其他数据管道工具一起使用感到困惑。
  • 合成数据仍然可以揭示组织的许多敏感细节,因此安全性是一个问题。ML模型可以通过主动学习进行逆向工程。通过主动学习,学习算法可以交互式地查询用户(或其他信息源),以用期望的输出标记新的数据点,这意味着学习算法可以主动地向用户/教师查询标签。
  • 如果条纹或边缘案例不是种子数据集的一部分,它们将不会被合成。这意味着必须谨慎地处理此类边缘案件。
  • 用户怀疑,因为用户可能认为它是“劣质”或“虚假”数据。

用户建议

  • 识别组织中数据缺失、不完整或获取成本高昂的领域,从而当前阻碍人工智能计划。在受监管的行业,如制药或金融业,谨慎行事并遵守规则。
  • 当需要个人数据但需要数据隐私时,使用原始数据的合成变体或部分数据的合成替换。
  • 从抽样方法开始,利用数据科学家确保样本的统计有效性和合成数据的分布。
  • 在技术成熟时利用专业供应商。
  • 成熟的模拟驱动方法,强调在模拟框架内创建代理和过程,以生成生成合成数据的交互排列。

供应商示例

Bitext; Datagen; Diveplane; Hazy; LeapYear; MOSTLY AI; Neuromation; Rendered.ai; Statice; Tonic

Gartner推荐阅读

  • 2021数据和分析的主要趋势:从大数据到小数据和大数据
  • 2021企业人工智能战略路线图:自然语言架构
  • AI核心技术领域的酷炫供应商