
埃隆·马斯克最近的警示振聋发聩:我们用于训练 AI 模型的人类数据几近枯竭。他的观点,为当前 AI 持续高速发展所面临的数据瓶颈,敲响了警钟。在医疗和金融等受严格法规约束的领域,数据短缺问题尤为突出。
合成数据——作为一种可能的解决方案——并非新生事物,但其重要性正与日俱增,这一点从该领域的并购和投资热潮中可见一斑。然而,关于合成数据的应用仍存在深刻的不确定性,其中最引人注目的便是“模型崩溃”风险。当多模态大型语言模型(LLM)完全依赖合成数据进行训练时,其输出质量会急剧下降。这个问题是无解还是有待攻克,将深刻影响生成式 AI (Gen AI) 的未来。
何为AI合成数据,如何生成?
合成数据并非源于真实事件的采集,而是通过人工方式创造。如今,最普遍的形式是由 AI 生成的合成数据。其工作原理是,模型在真实数据上学习模式和统计属性,然后以此为蓝本,生成全新的、具有相似特性的数据。
LLM 如今被用来生成多种类型的合成数据,从结构化的表格数据到非结构化的自由文本、视频和图像。根据数据类型的不同,生成方法也各异。
以合成图像数据为例,两种常用的方法是 GAN(生成对抗网络)和扩散模型。GAN 采用“博弈”机制:一个生成器不断创造人工数据,而一个判别器则努力辨别哪些数据是真实的。在这场持续的对抗中,生成器不断自我优化,使其生成的假数据愈发逼真。而扩散模型则另辟蹊径,它学习如何“扭曲”真实数据,然后逆转这个过程来“去噪”。一旦训练成熟,它们就能产出高质量的合成音视频。
AI合成数据:一场正在席卷市场的风暴
合成数据并非一日之功,但过去五年,LLM 的飞速发展不仅催生了对它的巨大需求,更提供了规模化生成的利器。结果显而易见:合成数据的使用量呈井喷式增长。
高德纳(Gartner)介绍,到 2024 年底,合成数据占用于训练 LLM 的所有数据的 60%,而 2021 年仅为 1%。这一预测并非空穴来风。例如,微软的 Phi-4 模型,尽管体量远小于其他 LLM,但在主要使用合成数据训练后,性能却表现出色。与此同时,亚马逊 Alexa 的工程师们正探索一种“教师/学生”模型,由“教师”模型生成合成数据,再用其微调更小、更高效的“学生”模型。
市场上的风起云涌印证了这一趋势。在 2021-22 年,合成数据领域掀起了一波投资热潮。Gretel AI 和 Tonic.ai 分别获得 5000 万和 3500 万美元的 B 轮融资。随后,MOSTLY AI 完成 2500 万美元的 B 轮融资,Synthesis AI 获得 1700 万美元的 A 轮融资。
近期的趋势则转向大规模收购。英伟达(NVIDIA)对 Gretel 的收购,无疑将为其在该领域的研究提供强劲支持。同样,AI 解决方案公司 SAS 也于 2024 年 11 月收购了合成数据初创公司 Hazy。
分析公司 Cognilytica 估计,2021 年合成数据生成市场的价值约为 1.1 亿美元,并预计到 2027 年将飙升至 11.5 亿美元。另有预测,该行业将以 31% 的复合年增长率(CAGR)发展,到 2030 年价值有望达到 23.3 亿美元。
警惕AI大模型崩溃的幽灵
尽管合成数据潜力巨大,但一个显著的隐患如影随形:模型崩溃。当 LLM 完全依赖合成数据训练时,其输出的准确性和多样性会逐步退化。
真实世界数据通常复杂且多变,而合成数据往往被模型简化和压缩。研究人员发现,一个用于检测癌性痣的模型,其准确性与合成训练数据的数量成反比。牛津、剑桥、帝国理工和多伦多大学学者的一项最新研究警告,无差别地使用模型生成的数据,会导致“所产生模型的不可逆缺陷”。
更令人担忧的是,大多数 LLM 都是“黑箱”,这使得我们难以预测它们如何响应合成数据。莱斯大学和斯坦福大学的研究人员因此断言,如果没有新的真实世界数据注入,“未来的生成模型注定会其质量或多样性逐步下降。”
为何真实数据依然不可或缺
显而易见,即使合成数据需求激增,对真实数据的需求依然坚不可摧。实际上,对高质量真实数据的需求甚至可能进一步增长。原因有二:首先,生成合成数据的 AI 模型本身必须用真实数据来训练;其次,为了避免模型崩溃,必须持续用真实数据来同步合成数据。
真实数据是合成模型的“养料” 当今绝大多数合成数据由 Gen AI 创建,而这些模型只有在真实世界的“养料”上训练,才能产出可用的合成数据。因为它们只能通过复制真实数据的模式和统计特性来创造新数据。
例如,一家保险公司曾利用合成数据测试不同的供应商,从而避免泄露客户敏感信息。但要生成这个精确模仿现实的合成数据集,它必须用自身的真实数据来训练那个生成合成数据的 AI 模型。
真实数据是模型抵御崩溃的“解药” 有多种策略可以减轻模型崩溃的风险,但最主流的方法是将合成数据与人类数据结合,实现数据多样化。高德纳的调查显示,63% 的受访者青睐部分合成的数据集,而仅有 13% 的人表示他们使用完全合成的数据。
即使只添加少量真实数据,也能显著提升模型性能。南加州大学的研究人员发现,公司可以用合成数据替换高达 90% 的真实数据,而性能不会大幅下降。然而,替换最后的 10% 则会导致性能的显著衰退。
质量也至关重要。微软的 Phi-4 成功案例便证明了这一点。这个 LLM 虽然主要在合成数据上训练,但其预训练数据集(用于模型微调前的通用数据)却包含了大量经过精心策划的高质量真实世界数据,如书籍和研究论文。
合成数据:六大难题的“利器”
当合成数据被明智地使用,并与真实数据有效结合时,它有潜力解决 AI 训练数据所面临的六大挑战:稀缺性、可及性、同质性、偏见、隐私和成本。
- 数据稀缺性: 面对 AI 公司永无止境的数据需求,合成数据可以填补空白,尽管我们仍需大量真实数据来训练合成模型和避免模型崩溃。
- 数据可及性: 科技巨头日益成为数据的“看门人”。合成数据有望“民主化” Gen AI,让中小企业也能负担得起并获取大规模训练数据。但这并不能完全取代大型科技公司改善真实数据访问的责任。
- 数据同质性: 在自动驾驶等小众领域,真实数据集可能过于单一。开发者可以生成合成数据来模拟不寻常的情况,帮助模型应对罕见事件。
- 偏见: 一些真实数据集中存在固有的偏见。合成数据可以生成更平衡的数据集,例如,在金融领域,英国金融行为监管局(FCA)认为它能抵消因某些群体在数据中代表性不足而造成的潜在偏见。
- 隐私: 在医疗和金融等行业,隐私法规加剧了数据短缺。合成数据能让公司构建包含小众数据的训练集,同时保护客户隐私。然而,需要警惕的是,合成数据并非“天然隐私”,它仍有可能泄露原始信息,并易受“模型反演攻击”的影响。
- 成本: 一般来说,合成数据的生成成本更低。此外,它自带标签,省去了大量人工准备工作。在某些 AI 项目中,高达 80% 的时间都耗费在数据准备上。这也解释了为何会出现专门为满足硅谷巨头需求而提供廉价数据处理劳务的公司。
AI合成数据是增强,而非取代
合成数据的价值在于增强,而非取代真实数据。其核心作用是扩展数据规模,提供更多的数据点。
以 Meta 即将推出的 LLM LLAMA Behemoth 为例,它正在 30 万亿个数据点上进行训练。显然,要找到如此规模的真实数据几乎是不可能的。然而,正如我们所强调的,真实数据依然是必需的,无论是用于训练生成合成数据的模型,还是用于同步以确保准确性。在 LLM 如此庞大的工作规模下,即使合成数据占据了训练数据的绝大部分,对真实数据的需求依然巨大。这意味着,围绕数据的看门人、访问、偏见、成本和时间等复杂问题,仍将长期存在。
你认为未来 AI 的发展,将更依赖于合成数据的规模,还是真实数据的质量?


