大模型幻觉，皆因人类PUA？

我们都知道，人工智能（AI）的能力越强大，它“胡说八道”时就越令人头痛。

AI 既能一本正经地编造从未有过的事情，也能在最简单的比大小问题上栽跟头。

从两年前惊艳问世的 ChatGPT，到如今逐渐落地的 DeepSeek V3.1，几乎没有哪一个大模型能够完全摆脱“幻觉”的困扰。

“为什么大模型离不开幻觉？”

这个问题本身已成为互联网上的未解之谜。不过，上周 OpenAI 发布的一篇论文，则提出了一个颇具启发性的观点。

大模型产生“幻觉”的根源：是AI不行，还是人类“PUA”了它？

“造成 AI 幻觉的根本原因，可能源于人类训练 AI 的过程。”

换句话说，并非 AI 本身能力不足，而是我们训练它的方式可能存在问题——我们似乎“PUA”了它们。

那么，为何要将“黑锅”甩给人类呢？这需要我们从内外两个层面来理解大模型。

“一方面，大模型训练的内在机制决定了它们天然容易产生幻觉，这是 AI 幻觉的“内忧”。”

在模型训练过程中，模型需要从海量文本中学习预测下一个词语的能力。因此，只要一个文本片段在语法结构上看起来像人类的语言，模型就会开始学习其模式。

然而，模型有时过于专注于学习文本的结构，却无法分辨其内容的真实性。

当我们向模型提问时，它会优先考虑生成一个完整的回答。但问题在于，并非所有的问题都有明确的答案。

举个例子：如果我们给大模型看一张火锅的照片，让它辨认这是什么动物。模型会分析火锅的特征，发现它有金色的毛发、体型较大，并可能有 92.5% 的概率是一只狗。

模型通过过往学习到的不同图片中狗的特征，将这些信息关联起来，很可能就会判断这是一只金毛寻回犬。

但如果换一个问题，问它火锅是哪年哪月出生的，大模型就会陷入困境。这个问题模型并未学习过，仅凭图像无法得知“这只狗”的生日。

此时，如果模型仍然强行给出答案，胡编乱造，就形成了我们常说的“幻觉”。实际上，产生幻觉可以说是大模型的一种固有倾向，或者说，大模型的本质是将词语进行接龙，只不过当接龙正确时，我们称之为“答案”，接龙错误时，我们则称之为“幻觉”。

“同时，当前训练大模型、给模型打分评估的方式，也进一步加剧了模型的幻觉问题，这构成了“外患”。”

以询问诞生的那个问题为例，我们简化一下训练过程：假设模型答对一题加一分，答错不加分。那么，当模型被问及火锅的生日时，如果它选择“放弃作答”，分数将永远是零。但如果它选择胡乱猜测一个日期，就有可能蒙对（例如 365 分之一的概率）。

一边是绝对的失败，另一边是极小的概率成功。模型为了在人类设定的评分体系中获得更高的分数，选择猜测成为了一种“理性”选择，而诚实地承认“不知道”则可能被视为“愚蠢”的策略。

OpenAI 的研究人员观察了当前主流大模型排行榜的测试方式，发现多采用“只区分对错”的评分机制，这反而成为了促使大模型产生幻觉的“外患”。

为了验证这种“应试思维”的影响，OpenAI 对比了其内部两个模型。结果发现，在模拟考试中，老模型 o4-mini 的正确率甚至比新模型 GPT-5 高出 2个百分点。然而，其代价是四分之三的问题都答错了，并且只有 1% 的情况下，o4-mini 才会承认其能力的局限性。

大模型产生“幻觉”的根源：是AI不行，还是人类“PUA”了它？

而 GPT-5 在面对不会的问题时，则更倾向于直接承认“不知道”。这或许是 OpenAI 对 GPT-5 认可之处——虽然它在应试方面的能力有所下降，但它学会了“认错”。

在论文的最后，OpenAI 还提出了一些有趣的观点：“他们认为，对于大模型来说，幻觉无法消除，只能尽量避免。”

因为无论模型大小、搜索和推理能力有多强，这个世界上总有许多问题是没有明确答案的。

面对这些无解的问题，模型需要学会跳出“应试思维”，勇敢地回答“我不知道”。

此外，相较于大模型，小模型反而更容易意识到自身的局限性。因为很多知识小模型可能根本没有学习过，所以它们反而会爽快地承认“我不会”。而大模型由于零散地掌握了许多知识，面对某些问题时可能会过于自信地“瞎猜”，结果因为知识不深反而答错，将好事变成了坏事，形成了“幻觉”。

最后，作为指导模型的人类，我们也需要重新设计评估模型能力的方式和训练体系，以降低模型“瞎猜”的概率。

“这听起来似乎很有道理，然而，我们还得回到最初的问题：一个没有幻觉的大模型，真的是我们所需要的吗？”

换个角度看，如果两年前，大模型对于所有不确定的问题都回答“对不起，我不知道”，那么这样只会频繁道歉、用户体验极差的 AI，可能根本不会受到用户的欢迎。

事实上，近两年的研究也逐渐发现，模型的创造力与“幻觉”之间，可能存在一种相辅相成的关系。

一个不会产生幻觉的模型，或许也会相应地失去一部分创造力。

以刚发布的 GPT-5 为例，虽然 OpenAI 采取了上述多种方法来降低其幻觉出现的概率，但与此同时，整个模型也变得“不那么有人情味”了，显得缺乏激情，甚至有些“变傻”。

面对同样的问题，GPT-5 的回应显得更加冷静。

原本许多人在前一天还在与 GPT-4o 进行“甜蜜互动”，结果一觉醒来，OpenAI 就更换了模型，停用了旧版本。幻觉概率降低的 GPT-5，变成了一个冷冰冰的“理科生”。它在编写代码等领域可能更强，但在聊天、文学创作等方面，却表现得像一个“小脑被阉割”的呆子。

这样的改变，你是否能接受？于是，愤怒的网友们发起了“拯救 4o”的网络请愿活动。

最终，OpenAI 的 CEO 山姆·奥特曼也不得不“认怂”，重新开放了旧模型的权限。

因此，一味地抑制模型的“幻觉”，真的是一件好事吗？

是允许模型偶尔犯错，让它们更具创造力和灵性，还是让它们谨小慎微，什么都不做？这或许没有一个放之四海而皆准的答案，每个人的选择和期望都可能有所不同。

也许有一天，用户会因为 AI 的“老实”而感到厌倦，觉得它缺乏灵气；

但另一方面，也总有人更希望 AI 能成为一个值得信赖的伙伴。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

大模型幻觉，皆因人类PUA？

相关推荐

发表回复