训练数据是用 GPT-4o 生成的?那质量不好说了。
我们知道,大模型面临的三大挑战是算法、算力和数据。前两者靠优化升级,后者靠积累。随着技术的不断发展,高质量数据已经逐渐成为最大的瓶颈。
在很多新模型上,人们为了提升模型能力,都采用了使用 AI 生成数据来训练的方式。人们普遍认为,使用合成数据可以显著提升模型质量。
然而,最新的研究表明,使用 AI 生成的数据并非良药,反而可能导致模型崩溃。
近期发表在学术顶刊《自然》杂志的封面研究指出,如果放任大模型用自动生成的数据训练自己,AI 可能会自我退化,在短短几代内将原始内容迭代成无法挽回的胡言乱语。

这项由牛津大学等机构提交的研究,强调了由于自我训练导致人工智能模型崩溃(Model Collapse)的风险,并论证了原始数据源和仔细数据过滤的必要性。

论文链接:https://www.nature.com/articles/s41586-024-07566-y
模型崩溃:AI 自我毁灭的隐患
研究表明,当人工智能模型过度依赖生成数据进行训练时,就会发生不可逆转的模型崩溃。
「模型崩溃是指由于对合成数据进行不加区分的训练而导致模型崩溃的现象」,牛津大学研究员、该论文的主要作者 Ilia Shumailov 表示。
根据论文,大型语言模型等生成式 AI 工具可能会忽略训练数据集的某些部分,导致模型只对部分数据进行训练。这会导致模型逐渐失去对真实世界的理解,并陷入不断自我循环的错误生成中。
以大型语言模型(LLM)为例,这类模型需要大量数据训练才能获得理解信息和应用于各种用例的能力。LLM 通常旨在理解和生成文本,但该研究团队发现,如果忽略其正在学习和纳入知识库的文本,LLM 可能很快退化成空壳。
「在模型崩溃的早期阶段,模型首先会失去方差,在少数数据上的表现下降;在模型崩溃的后期阶段,模型则会完全崩溃」,Shumailov 说道。随着模型继续在自身生成的错误文本上进行训练,这种递归循环会导致模型退化。
模型崩溃的机制
该论文揭示了模型崩溃的本质是一种退化过程,模型生成的数据污染下一代模型的训练集,导致模型对现实的错误感知。

模型崩溃可分为早期和后期阶段:早期阶段模型会在少数数据上表现下降,后期阶段模型收敛到一种与原始分布几乎没有相似之处的分布,并且方差通常大大减少。
模型崩溃发生的主要原因是下述三个特定误差源在几代模型中复合累积,导致与原始模型偏差增大:
- 统计近似误差:由于样本数量有限而产生的误差,随着样本数量趋于无穷大而消失。每一步重采样都可能丢失信息。
- 函数表达误差:由于函数逼近器表达能力有限而产生的误差。神经网络只是通用逼近器,无法完美地逼近任何分布。函数表达误差的一个简单例子是,尝试用单个高斯拟合两个高斯的混合。即使拥有完美的信息,模型误差仍不可避免。
- 函数逼近误差:主要源于学习过程的局限性,例如随机梯度下降的结构偏差。
每一项误差都可能加剧或减轻模型崩溃。更高的逼近能力可能是双刃剑,它可以抵消统计噪声,但也会放大噪声。这种级联效应会导致整体误差增加。
例如,过度拟合密度模型会导致模型错误推断,将高密度区域分配给训练集未覆盖的低密度区域。
语言模型中的模型崩溃
论文还评估了模型崩溃对语言模型的影响。模型崩溃普遍存在于各种机器学习模型中,但与通常从零开始训练的小模型不同,LLM 需要巨大的成本进行训练,因此通常使用预训练模型进行初始化。随后,这些模型被微调以适应各种下游任务。
该论文探讨了当语言模型使用由其他模型生成的数据进行连续微调时会发生什么。由于训练一个中等规模的模型所需的算力也很可观,研究团队选择了更现实的概念验证设置,对语言模型的典型设置(微调设置)进行了评估。作者使用 Meta 通过 Hugging Face 提供的 OPT-125m 因果语言模型进行了微调。
案例研究:教堂和长耳大野兔
研究人员使用文本生成模型 OPT-125m(使用 wikitext2 数据集微调)进行实验,该模型性能与 ChatGPT 的 GPT-3 类似,但需要的算力更少。
研究人员将有关设计 14 世纪教堂塔楼的文本输入到模型中。在第一代文本输出中,该模型主要讨论了在不同教皇统治下建造的建筑物。但到了第九代文本输出,该模型主要讨论了各种不存在的长耳大野兔物种。

实验结果表明,即使原数据一直保留,模型崩溃的现象仍然会发生。随着不断迭代,模型开始忘记真实数据中的信息,并且生成的内容中包含越来越多重复的短语。
AI 内容的泛滥:数据源的污染
现在,互联网充斥着各种内容,其中有多少是 AI 生成的已经难以分辨。随着 OpenAI 的 GPT 系列大模型的出现,生成式 AI 正在改变文本和图像内容的生态。
AI 生成文本的速度远远超过人类,这引发了人们对互联网数据源被污染的担忧。杜克大学计算机科学家 Emily Wenger 指出:「在线上大量涌现的 AI 生成内容可能对这些模型本身造成毁灭性的影响。」
模型崩溃还会挑战生成式 AI 的公平性。崩溃的模型会忽略训练数据中的一些不常见元素,无法反映世界的复杂性,这会导致少数群体或观点的代表性减少,甚至消失。
大型科技公司正在采取措施减少 AI 生成内容的数量。例如,谷歌宣布调整其算法,降低那些看起来是为搜索引擎而非人类搜索者设计的页面的优先级。然而,AI 内容泛滥的趋势依然存在。
应对模型崩溃的挑战
《自然》杂志封面的这项研究强调访问原始数据源和仔细过滤数据的重要性,以保持模型的准确性。
该研究还建议 AI 社区协调合作,追踪输入到模型中的信息来源。否则,随着 AI 技术的普及,训练新的 LLM 版本可能会变得越来越困难。