对于人工智能(AI)大语言模型来说,通常训练数据越多,模型的性能就越好,越“聪明”。然而,英国《自然》杂志最新发表的一项关于大模型的研究揭示了一个令人担忧的现象:如果仅使用AI生成的数据训练大模型,会导致模型性能下降,甚至出现“越练越傻”的情况。
英国牛津大学、剑桥大学等机构的研究人员发现,仅仅使用 AI 生成内容来训练大模型会导致模型出现不可逆的缺陷。模型会逐渐忘记真实数据的分布,从而出现“模型崩溃”现象。
研究人员采用了一种名为“迭代训练”的方法来验证这一结论。他们首先使用大语言模型生成类似维基百科词条的文本,然后利用这些内容训练该模型的新版本,并反复利用前代模型生成的文本训练更新的版本。随着 AI 生成信息的“污染”不断累积,模型的输出逐渐失去意义。在模型的第九次迭代中,该模型生成了一篇关于英国教堂塔楼的文章,其中一段文字却在讲述野兔尾巴的多种颜色,这明显与主题脱节,突显了模型崩溃的严重性。
研究发现, “模型崩溃”的重要原因在于模型的训练数据被 AI 生成内容“污染”。由于模型只能从其训练数据中进行采样,一些在第一代数据中本就低频出现的词汇,在每次迭代后出现的频率变得更低,而一些常见词汇出现的频率则逐渐增加。这种变化使得模型难以正确模拟真实世界的复杂性,进而导致错误在迭代过程中层层累积、逐渐放大,最终导致“模型崩溃”。
这种现象类似于生物学中的“近亲繁殖”。如果一个物种的基因库缺乏多样性,就会导致后代出现缺陷,最终导致物种灭绝。同样,如果大模型的训练数据缺乏真实数据的“基因”多样性,也会导致其出现“模型崩溃”。
更令人担忧的是,训练数据被“污染”导致的“模型崩溃”现象并非只发生在大语言模型中。研究人员发现,高斯混合模型、图片生成器等其他类型的机器学习模型也可能出现类似问题。
然而,并非所有希望都破灭。研究人员发现了一些应对“模型崩溃”的策略。首先, 在模型微调过程中保留一小部分真实数据,例如10%左右,可以延缓崩溃的发生速度。其次, 可以使用水印技术将AI生成的数据与真实数据区分开来,这需要大型科技公司的协作。此外,在将AI生成的文本重新输入数据池之前,可以由人类进行筛选过滤,以确保其真实性。