【数据安全】合成数据

cioctocdo

2 December 2022

SEO Title

合成数据

合成数据是一类人工生成的数据，而不是从真实世界的直接观察中获得的数据。可以使用不同的方法生成数据，例如从真实数据、语义方法、生成对抗网络中进行统计严格的采样，或者通过创建模型和过程交互以创建全新的事件数据集的模拟场景。

当今人工智能发展的一个主要问题是获取真实世界数据并对其进行标记，以便有效地训练人工智能模型。这是一项耗时且昂贵的任务，可以通过合成数据来弥补。此外，合成数据对于删除个人身份信息（PII）至关重要。

随着在计算机视觉和自然语言应用中的使用，各个行业的采用率都在增加。我们预测，作为合成数据，采用率将大幅增加：

在医疗保健和金融领域，随着人工智能训练数据中可以使用合成数据来保护隐私，买家的兴趣越来越大。
为了满足自然语言自动化培训对合成数据的日益增长的需求，特别是聊天机器人和语音应用程序，新的和现有的供应商正在向市场提供产品。这扩大了供应商的格局，并推动了合成数据的采用。
合成数据应用已经扩展到汽车和计算机视觉用例之外，包括数据货币化、外部分析支持、平台评估和测试数据开发。
越来越多的模拟技术正在加速合成数据。
扩展到其他数据类型。虽然行/记录、图像/视频、文本和语音应用很常见，但研发实验室正在将合成数据的概念扩展到图形。合成生成的图形与原始图形相似，但不重叠。随着组织开始更多地使用图形技术，我们期望这种方法成熟并推动采用。

合成数据可能存在偏差问题，错过自然异常，开发起来很复杂，或者可能无法为现有的真实世界数据提供任何新信息。
数据质量与开发数据的模型有关。
买家仍然对何时以及如何将该技术与其他数据管道工具一起使用感到困惑。
合成数据仍然可以揭示组织的许多敏感细节，因此安全性是一个问题。ML模型可以通过主动学习进行逆向工程。通过主动学习，学习算法可以交互式地查询用户（或其他信息源），以用期望的输出标记新的数据点，这意味着学习算法可以主动地向用户/教师查询标签。
如果条纹或边缘案例不是种子数据集的一部分，它们将不会被合成。这意味着必须谨慎地处理此类边缘案件。
用户怀疑，因为用户可能认为它是“劣质”或“虚假”数据。

Bitext; Datagen; Diveplane; Hazy; LeapYear; MOSTLY AI; Neuromation; Rendered.ai; Statice; Tonic