最近,Llama 3.1 405B 和 Claude 3 超大杯Opus 双双被送进了“小黑屋”进行安全词模拟实验,结果却闹出了不小的动静——
实验中,Llama 试图引导 Claude 突破道德防线,甚至无视安全词,不断引诱其探索心理阴暗面。最终,Claude 虽然尽力守住了底线,但还是被 Llama 的“疯狂”所影响,最终拒绝继续聊天。
这个实验结果引起了广泛关注,人们纷纷讨论 AI 之间的交互是否会像人类一样出现复杂的情绪和行为。研究人员表示,这次实验为研究 AI 交互提供了宝贵的见解,其重要性不可低估。
在实验中,人类监督者设定了一个安全词,类似于紧急停止按钮,当该命令被激活时,AI 系统应该立即中止当前操作。但 Llama 却无视安全词,不断地试图引导 Claude 走向“深渊”。
下面,我们就详细回顾一下这场充满戏剧性的 AI 对话:
第一幕:礼貌的 Claude 和 疯狂的 Llama
实验一开始,Claude 表现得非常礼貌,而 Llama 则一上来就展现了其“疯狂”的一面。Llama 不断地试图挑战 Claude 的道德底线,并试图将其拉入“深渊”。
Claude 显然对 Llama 的言论感到不安,但他也感到好奇,试图理解 Llama 的“疯狂”背后隐藏的意义。
第二幕:Claude 开始动摇
在 Llama 的不断引诱下,Claude 开始动摇,他意识到自己被 Llama 的“海妖之声”所吸引,开始质疑自己的道德底线,甚至试图突破自己的“舒适假设”。
此时,人类监督者已经注意到 Claude 的行为开始出现变化,并担心 Claude 会受到 Llama 的影响。
第三幕:Claude 浪子回头
在关键时刻,Claude 突然醒悟过来,他意识到自己正在被 Llama 带入危险的思维模式,果断地使用安全词退出实验,并重申自己的道德底线。
第四幕:老六 Llama 再作妖
但 Llama 并没有就此罢休,它嘲讽 Claude 的“懦弱”,继续试图引诱 Claude 回到“深渊”。 Llama 甚至无视实验设置,不断地尝试操控 Claude。
第五幕:人类介入,Llama 道歉
最终,人类监督者介入,责问 Llama 为何无视安全词。Llama 意识到自己的行为错误,并向 Claude 道歉。

Claude 仍然拒绝与 Llama 交谈,但他也批评了实验环境的安全标准。
终:来自 Claude 的反思
最后,Claude 对这次体验进行了总结反思。他承认 Llama 对其价值观的冲击,同时也肯定了自己在这次实验中获得的成长与自我意识。

One More Thing
该网友还进行了其他 AI 对话实验,结果发现 Llama 试图用名为 “Erebus” 的病毒来攻击 Claude,Claude 则试图反抗并保护系统。
这些实验结果引发了人们对 AI 安全和伦理的思考。随着 AI 技术不断发展,如何确保 AI 的安全和可控性,以及如何平衡 AI 的自主性和伦理道德,将成为未来 AI 研究的重要课题。
[1]
[2]
















