人工智能 (AI) 是否可能仅依赖另一个 AI 生成的数据进行训练?这听起来似乎是个异想天开的想法,但这一概念其实已经存在了一段时间。随着真实数据变得越来越难以获取,这一思路逐渐获得了更多关注。
例如,Anthropic 使用了一部分合成数据来训练其旗舰模型 Claude 3.5 Sonnet;Meta 利用 AI 生成的数据微调了其 Llama 3.1 模型;据称,OpenAI 也正在从其“推理”模型 o1 中获取合成训练数据,为即将推出的 Orion 模型做准备。
那么,为什么 AI 需要数据?它需要什么样的数据?这些数据真的可以被合成数据替代吗?
标注的重要性
AI 系统本质上是统计机器。通过大量样本的训练,它们学习这些样本中的模式,以进行预测。例如,它可以学会“to whom”在邮件中通常会出现在“it may concern”之前。
标注通常是这些样本中数据的含义或组成部分,它们是关键的指导信息,帮助模型区分事物、地点和概念。
举个例子,一个照片分类模型如果被展示了大量标有“厨房”标签的厨房照片,它会逐渐将“厨房”与厨房的一般特征(如冰箱和台面)联系起来。训练完成后,即使给它一张未曾见过的厨房照片,它也应该能够识别出来。当然,如果这些厨房照片被错误标注为“牛”,那么模型将会将它们识别为牛,这也突显了良好标注的重要性。
随着 AI 的需求不断增长,为其开发提供标注数据的需求也在迅速扩大。据 Dimension Market Research 估计,数据标注市场目前价值约为 8.382 亿美元,预计在未来十年内将达到 103.4 亿美元。虽然没有精确的从业人数统计,但一篇 2022 年的论文估计,全球有“数百万人”参与数据标注工作。
数据资源逐渐枯竭
寻找人类生成的标注替代方案不仅有其人道主义原因,还有一些实际的原因。
首先,人类的标注速度有限,而且标注者的偏见可能会反映在他们的标注中,进而影响训练的模型。此外,标注者可能会犯错或被标注指令所困扰。而且,雇佣人类进行标注的成本较高。
实际上,数据本身的成本也相当昂贵。例如,Shutterstock 向 AI 供应商收取数千万美元的费用,以让他们访问其数据存档;而 Reddit 则通过向 Google、OpenAI 等公司出售数据赚取了数亿美元。
此外,数据的获取也变得越来越困难。
大多数模型是基于大量公开数据进行训练的,但由于担心数据被剽窃,或无法获得应有的信任或署名,越来越多的数据所有者选择对其数据进行保护。超过 35% 的全球前 1000 个网站现在屏蔽了 OpenAI 的网络抓取工具。最近的一项研究发现,大约 25% 的“高质量”数据源已被限制用于主要的数据集训练。
如果目前的访问限制趋势持续下去,研究组织 Epoch AI 预测,开发人员将在 2026 年至 2032 年之间耗尽用于训练生成型 AI 模型的数据。这一趋势,加上对版权诉讼的担忧,以及不良内容进入公开数据集的风险,促使 AI 供应商开始重新考虑他们的策略。
合成数据的替代方案
从表面上看,合成数据似乎可以解决所有这些问题。需要标注?生成它们。需要更多示例数据?没问题,理论上没有上限。
在某种程度上,这确实是对的。
“如果‘数据是新的石油’,那么合成数据可以被比作生物燃料,不会产生真实数据的负面外部性,”华盛顿大学的博士候选人 Os Keyes 表示。他研究新兴技术的伦理影响,“你可以从一小组数据开始,并模拟和推演出新的数据条目。”
AI 行业已经将这个概念付诸实践。
例如,企业生成型 AI 公司 Writer 最近推出了 Palmyra X 004 模型,几乎完全基于合成数据进行训练。据 Writer 称,其开发成本仅为 70 万美元,相比之下,OpenAI 同类规模的模型开发成本估计为 460 万美元。
微软的 Phi 开放模型部分使用了合成数据进行训练;谷歌的 Gemma 模型也是如此。英伟达在今年夏天推出了一个用于生成合成训练数据的模型家族,AI 初创公司 Hugging Face 最近发布了自称为最大 AI 训练数据集的合成文本。
到 2030 年,合成数据生成行业的价值可能达到 23.4 亿美元。Gartner 预测,今年用于 AI 和分析项目的数据中,有 60% 将是合成生成的。
然而,合成数据并非万无一失。它也面临与所有 AI 相同的“垃圾进,垃圾出”问题。如果生成合成数据的模型本身有偏见或局限性,其输出的数据也会受到同样的影响。例如,某些群体在基础数据中得不到充分代表,那么在合成数据中也会如此。
斯坦福大学和莱斯大学的研究人员在 2023 年的一项研究中发现,过度依赖合成数据进行训练可能会导致模型的“质量或多样性逐步下降”。他们发现,采样偏差(对现实世界的错误表示)会在经过几代训练后导致模型的多样性恶化,尽管混合使用一些真实世界的数据可以缓解这一问题。
最终,合成数据需要与真实数据结合使用,并经过仔细的筛选、审查和过滤,才能确保模型的训练质量。这意味着人类仍将在短期内发挥关键作用,防止模型训练出现偏差或崩溃。