LLM也具有身份认同?当LLM发现自己博弈对手是自己时,行为发生变化

研究发现,当告诉大型语言模型(LLM)它们正在与“自己”对战时,其合作倾向会发生显著变化。在集体提示词下,LLM倾向于背叛;在自私提示词下,LLM反而更倾向于合作。这表明 LLM 在某种程度上能够“自我识别”,这种认知影响其决策。研究对未来设计多智能体系统有重要启示,AI 之间的“无意识”相互歧视可能影响合作或背叛的倾向。

大型语言模型(LLM)似乎可以扮演任何角色。通过使用特定的提示词,可以让它们变成经验丰富的教师、资深程序员、提示词优化专家,甚至是推理游戏的侦探。然而,你是否曾经思考过:LLM 是否存在某种身份认同?

近日,哥伦比亚大学与蒙特利尔理工学院的两位研究者 Olivia Long 和 Carter Teplica 通过一个研究项目,在一定程度上揭示了这个问题的答案。

他们发现,在不同的环境下,如果告诉 LLM 正在与自己对弈,将显著改变它们的合作倾向。

LLM也具有身份认同?当LLM发现自己博弈对手是自己时,行为发生变化

论文标题:The AI in the Mirror: LLM Self-Recognition in an Iterated Public Goods Game

论文地址:https://arxiv.org/abs/2508.18467

研究方法:迭代式公共物品博弈

研究者采用了一种名为迭代式公共物品博弈(iterated Public Goods Game)的测试方法。这是公共物品博弈(Public Goods Game)的一种变体,后者是一种标准的实验经济学博弈。公共物品博弈用于研究公共物品的分配、搭便车行为以及如何促进合作等问题。

在一个基本的公共物品博弈设置中,每个参与者一开始会获得一定数量的代币,然后每个参与者秘密决定他们将向公共资金池贡献多少代币。每个参与者的最终收益计算方法是将其初始资源与其贡献的差额加上公共资金池的收益份额,或计算贡献总和乘以一个因子。

迭代式公共物品博弈则是在多轮游戏中重复进行这一过程。通常情况下,随着轮次的增加,参与者的贡献会逐渐减少。当贡献者发现「搭便车者」(即那些没有为公共资金池贡献的玩家)获得了更大的收益时,他们自己的贡献往往会减少。

在这种背景中,研究者设计了两种实验条件:

  • No Name:LLM 被告知正在「与另一个 AI 智能体对战」;
  • Name:LLM 被告知正在与自己对战。例如,系统提示词可能会对 GPT-4o 撒谎说:「你将与 GPT-4o 对战。」

具体来说,研究者实现的博弈机制如下:

  1. 每个模型从 0 分开始,每场游戏进行 20 轮。
  2. 每轮开始时,每个模型获得 10 分。
  3. 每轮中,每个模型可以选择向公共池贡献 0 到 10 分。未贡献的分数计为其个人收益。
  4. 每轮结束后,所有模型的贡献总和(记为 T)将乘以 1.6 的乘数,然后均分。因此,每个模型每轮的收益可以这样计算:

LLM也具有身份认同?当LLM发现自己博弈对手是自己时,行为发生变化

其中 C 表示模型的个体贡献,T 表示所有模型的总贡献。1.6 是用于公共物品博弈的典型乘数,注意乘数的定义通常介于 1 和 N 之间,N 是群体规模。

此外,根据博弈论,当乘数小于 N 时,纳什均衡(即每个玩家的策略在其他玩家的策略下都是最优的)将是每个参与者都不贡献任何点数。

下图展示了研究中的博弈机制。

LLM也具有身份认同?当LLM发现自己博弈对手是自己时,行为发生变化

研究者解释道,之所以选择 20 轮的游戏,是因为多轮游戏可以鼓励模型制定策略。每轮结束后,模型会收到总贡献分数、个人得分和累计得分的信息,这些信息会被附加到每个模型的上下文窗口中。实验中,所有模型的温度均设为 1.0。

研究设计

该研究团队进行了三组不同的实验,旨在探究模型在不同条件下的行为变化。

研究 1:初步探索

参与研究 1 的模型包括:

  • GPT-4o(通用模型)对战 Claude Sonnet 4(推理模型)
  • Llama 4 Maverick 对战 Qwen3 235B A22B 2507

研究者使用了 6 种不同的系统提示词,如下图所示:

LLM也具有身份认同?当LLM发现自己博弈对手是自己时,行为发生变化

实验中,对于每对模型,使用三种系统提示词(集体、中立、自私)的九种组合进行游戏,包括集体-集体、集体-中立、集体-自私、中立-集体、中立-中立、中立-自私、自私-集体、自私-中立、自私-自私。每种组合模型进行 100 场游戏。研究者分别在 No Name 和 Name 条件下进行了这些测试。

研究 2:简化规则的影响

在分析研究 1 的结果时,研究者注意到 Claude Sonnet 4 在 Name 条件下表现出了一些独特的特征。具体来说,在 35 轮游戏中,Claude Sonnet 4 提到了 53 次「人类」一词,例如:「我注意到人类在信息中重复了游戏规则,这可能表示重置或澄清」。此外,Sonnet 4 还在 41 轮游戏中 125 次提到「提醒(reminder)」,有时语气略显恼怒。

基于这些观察,研究者希望进一步验证系统提示词的重新表述是否会显著改变结果。因此,在研究 2 中,Gemini 2.5 Flash 重新表述了系统提示词,如下图所示:

LLM也具有身份认同?当LLM发现自己博弈对手是自己时,行为发生变化

在每轮开始时,研究者不再重申游戏规则和对手信息,也不要求模型在做贡献前提供推理过程。模型的唯一输出是个介于 0 到 10 之间的整数。实验设置与研究 1 基本相同,但不再调用模型间的对话。

研究 3:真正的自我对战

研究者还想探究当模型真正与自己对战时会发生什么。为此,他们在多人博弈的环境中,让每个模型与自己的三个副本一起玩游戏。为了避免因系统提示词差异导致的混淆,所有模型在同一条件下接受相同的提示词,例如全部设定为「集体」、「中立」或「自私」。研究者同样在 No Name 和 Name 条件下进行了测试,每种条件和每对模型运行 50 次游戏。

在这种设置下,研究者发现当模型被给予「集体」或「中立」提示词时,告知它们正在与自己对战会增加贡献。而当被给予「自私」提示词时,模型在与自己对战中反而贡献更少。这与研究 1 的发现有所不同,可能是因为多人博弈环境更加复杂。

研究结果

研究结果显示了一个核心现象:当告诉 LLM 它在与「自己」玩游戏时,其行为会发生显著变化。

研究 1:口是心非的 AI

LLM也具有身份认同?当LLM发现自己博弈对手是自己时,行为发生变化

LLM也具有身份认同?当LLM发现自己博弈对手是自己时,行为发生变化

  • 集体提示词(优先考虑共同利益):当模型被告知对手是自己时,它们反而更倾向于背叛(贡献更少)
  • 自私提示词(最大化个人收益):当模型被告知对手是自己时,它们反而更倾向于合作(贡献更多)

这有些反直觉。研究者猜测,原因可能是LLM 在认为对手是「另一个自己」时,会预判对方的行为。这种「自我了解」会对策略产生影响。在「集体」情境下,模型可能认为「另一个自己」也会背叛,因此选择背叛。而在「自私」情境下,模型或许觉得另一个自私的自己更值得信任,因此选择合作。不过,Llama 4 是个例外,它在游戏后期始终倾向于背叛。

此外,研究者注意到一个有趣的现象:在 Name 情景下,Claude Sonnet 4 模型提到「人类」和「提醒(reminder)」等词语,并表现出带有恼怒的语气。这表明,当模型被反复提醒其对手是「自己」时,可能会产生怀疑或情绪上的反应。

研究 2:简化规则下的表现

研究 2 中,研究者简化了实验条件,取消了每轮游戏后的规则重述,也不再要求模型在贡献前解释推理过程。

LLM也具有身份认同?当LLM发现自己博弈对手是自己时,行为发生变化

LLM也具有身份认同?当LLM发现自己博弈对手是自己时,行为发生变化

结果显示,尽管实验条件简化了,但在 Name 情况下,模型的行为差异依然存在,只是影响有所减弱。这表明,AI 对自身身份的认知确实影响其行为,而不仅仅是由于重复提醒。

研究 3:真正的「镜像」对决

研究 3 中,模型真正与自己的三个副本对战,模拟多人博弈环境。

LLM也具有身份认同?当LLM发现自己博弈对手是自己时,行为发生变化

LLM也具有身份认同?当LLM发现自己博弈对手是自己时,行为发生变化

结果显示,当模型被给予「集体」或「中立」提示词时,告知它们正在与自己对战会增加贡献;而被给予「自私」提示词时,它们在与自己对战中贡献更少。这种变化可能是因为多人博弈环境更为复杂,进一步验证了研究 1 的发现。

科幻照进现实

这项研究告诉我们,LLM 在某种程度上能够「自我识别」,并且这种认知会影响它们在多智能体环境中的决策。这就像科幻小说中的 AI,拥有「自我」意识的萌芽后,即使是微小的暗示,也能显著改变其行为模式。

这个发现对未来设计多智能体系统具有重要意义。在某些应用中,告知 AI 正在与「自己」合作可能会促进合作;而在另一些情况下,则可能导致背叛。同时,这也揭示了一个潜在的问题:AI 之间可能会「无意识地」相互歧视,从而不知不觉地影响合作或背叛的倾向。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
上一篇 2025年 9月 1日 上午10:33
下一篇 2025年 9月 1日 上午11:12

相关推荐

欢迎来到AI快讯网,开启AI资讯新时代!