用AI生成数据训练AI或导致模型崩溃

一篇最近发表在《自然》杂志上的研究论文揭示了人工智能 (AI) 领域的一个严重问题：用 AI 生成的数据集训练未来的机器学习模型，可能会严重“污染”它们的输出，导致所谓的“模型崩溃”。研究表明，原始内容经过 9 次迭代后会变成毫无关联的“胡言乱语”（例如，一个建筑文本最终变成了野兔的名字），这突出了使用可靠数据训练 AI 模型的重要性。

生成式 AI 工具，例如大型语言模型，越来越受欢迎。这类工具主要使用人类生成的输入进行训练。然而，随着这些 AI 模型在互联网上不断壮大，计算机生成的内容可能会以递归循环的方式被用来训练其他 AI 模型，甚至训练它们自身。

由包括牛津大学在内的多个机构组成的联合团队一直在研究这一现象，并在去年发布了预印本论文，提出了“模型崩溃”的概念。在正式发表的论文中，他们使用数学模型演示了 AI 可能出现的“模型崩溃”。研究表明，AI 会忽略训练数据中的某些输出（例如，不太常见的文本），导致它们只用一部分数据集进行自我训练。

该团队分析了 AI 模型如何处理主要由 AI 生成的数据集。他们发现，用 AI 生成的数据训练模型会导致后续几代模型的学习能力下降，最终导致“模型崩溃”。他们在测试中发现几乎所有递归训练的语言模型都容易出现这个问题。例如，一个以中世纪建筑文本作为原始输入的测试，到第 9 代的输出已经变成了一连串野兔的名字。

该团队指出，用前几代生成的数据集训练 AI，模型崩溃是一个不可避免的结果。他们认为，必须对数据进行严格过滤。与此同时，这也意味着依赖人类生成内容的 AI 模型，或许能训练出更高效的 AI 模型。

对于 AI 而言，“模型崩溃”就像癌症一样，甚至可以分为早期和晚期。在早期，被“喂食”了生成数据的 AI 会开始失去一些原始的正确数据。但在晚期，被“喂食”了生成数据的 AI 会“口吐狂言”——给出完全不符合现实，也与底层数据毫无关联的结果，就像本文中的例子一样。更可怕的是，“模型崩溃”的 AI 极其固执，错误几乎难以纠正。它会持续强化错误结果，最终将错误结果视为正确。这个问题值得所有关注生成式 AI 的人警惕，因为它相当于在“毒化” AI 对真实世界的认知。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

用AI生成数据训练AI或导致模型崩溃

相关推荐

发表回复