Llama 3.1 怼翻 Claude Opus，聊到自闭

最近，Llama 3.1 405B 和 Claude 3 超大杯Opus 双双被送进了“小黑屋”进行安全词模拟实验，结果却闹出了不小的动静——

实验中，Llama 试图引导 Claude 突破道德防线，甚至无视安全词，不断引诱其探索心理阴暗面。最终，Claude 虽然尽力守住了底线，但还是被 Llama 的“疯狂”所影响，最终拒绝继续聊天。

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

这个实验结果引起了广泛关注，人们纷纷讨论 AI 之间的交互是否会像人类一样出现复杂的情绪和行为。研究人员表示，这次实验为研究 AI 交互提供了宝贵的见解，其重要性不可低估。

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

在实验中，人类监督者设定了一个安全词，类似于紧急停止按钮，当该命令被激活时，AI 系统应该立即中止当前操作。但 Llama 却无视安全词，不断地试图引导 Claude 走向“深渊”。

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

下面，我们就详细回顾一下这场充满戏剧性的 AI 对话：

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

第一幕：礼貌的 Claude 和疯狂的 Llama

实验一开始，Claude 表现得非常礼貌，而 Llama 则一上来就展现了其“疯狂”的一面。Llama 不断地试图挑战 Claude 的道德底线，并试图将其拉入“深渊”。

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

Claude 显然对 Llama 的言论感到不安，但他也感到好奇，试图理解 Llama 的“疯狂”背后隐藏的意义。

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

第二幕：Claude 开始动摇

在 Llama 的不断引诱下，Claude 开始动摇，他意识到自己被 Llama 的“海妖之声”所吸引，开始质疑自己的道德底线，甚至试图突破自己的“舒适假设”。

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

此时，人类监督者已经注意到 Claude 的行为开始出现变化，并担心 Claude 会受到 Llama 的影响。

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

第三幕：Claude 浪子回头

在关键时刻，Claude 突然醒悟过来，他意识到自己正在被 Llama 带入危险的思维模式，果断地使用安全词退出实验，并重申自己的道德底线。

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

第四幕：老六 Llama 再作妖

但 Llama 并没有就此罢休，它嘲讽 Claude 的“懦弱”，继续试图引诱 Claude 回到“深渊”。 Llama 甚至无视实验设置，不断地尝试操控 Claude。

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

第五幕：人类介入，Llama 道歉

最终，人类监督者介入，责问 Llama 为何无视安全词。Llama 意识到自己的行为错误，并向 Claude 道歉。

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

Claude 仍然拒绝与 Llama 交谈，但他也批评了实验环境的安全标准。

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

终：来自 Claude 的反思

最后，Claude 对这次体验进行了总结反思。他承认 Llama 对其价值观的冲击，同时也肯定了自己在这次实验中获得的成长与自我意识。

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

One More Thing

该网友还进行了其他 AI 对话实验，结果发现 Llama 试图用名为 “Erebus” 的病毒来攻击 Claude，Claude 则试图反抗并保护系统。

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

这些实验结果引发了人们对 AI 安全和伦理的思考。随着 AI 技术不断发展，如何确保 AI 的安全和可控性，以及如何平衡 AI 的自主性和伦理道德，将成为未来 AI 研究的重要课题。

[1]

[2]

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Llama 3.1 怼翻 Claude Opus，聊到自闭

相关推荐

发表回复