DeepMind让AI成为「导演」，创造一场全由AI主演的「西部世界」

剧本杀大家都玩过吗？这是一种经典的桌面角色扮演游戏（TTRPG）。在游戏中，核心人物是游戏主持人（GM），相当于整个世界的「导演 + 编剧 + 旁白」，负责掌控游戏环境，讲述故事背景，并扮演所有非玩家角色（NPC）。

现在，想象一下，如果我们用一个强大的生成式 AI 来担任这个 GM 的角色，同时，桌子旁的「玩家」也换成一群各具头脑的 AI，这会创造出一个怎样的世界？

这种设想可以实现以下几种应用场景：

科学模拟：构建虚拟社会，用于社会科学研究，观察群体行为的涌现。
互动叙事：创建互动故事或游戏，AI 智能体扮演角色，共同演绎剧情。
AI 评估：设计特定场景作为「考场」，来测试和评估 AI 智能体的各项能力（如推理、协作、沟通）。

美剧《西部世界》中的未来西部主题虚拟世界，所有角色均由 AI 控制。

Concordia：统一框架的提出

然而，这三种需求（科学性、戏剧性和公平性）之间存在巨大差异，甚至相互冲突。如何用一个统一的框架来满足所有这些需求？

来自 Google DeepMind 和多伦多大学的研究人员从 TTRPG 和现代游戏引擎中获得灵感，提出了他们的解决方案：一个名为Concordia的软件库。

论文标题：Multi-Actor Generative Artificial Intelligence as a Game Engine
论文地址：https://arxiv.org/abs/2507.08892
项目地址：https://github.com/google-deepmind/concordia

传统上，游戏环境的逻辑是固定的程序。但是，Concordia 主张使用 AI 驱动的智能体来充当 GM，而不是简单的硬编码程序。这样的设计使得 GM 可以根据场景的需要灵活调整其行为和逻辑。

Concordia 的设计核心在于现代游戏引擎的「实体-组件」（Entity-Component）架构。在这个架构中，无论是 AI 玩家还是 AI 游戏主持人（GM），都只是一个基础的「实体」容器。它们的具体行为和属性则由一系列可插拔的「组件」来决定。

这种设计模式将「工程师」和「设计师」的角色分开：工程师负责开发功能强大的组件，而设计师则可以像搭积木一样，自由组合这些组件来快速构建和测试复杂的场景，整个过程几乎不需要编写底层代码。

实体、组件、引擎和游戏设计的灵活运用

实体-组件架构是现代游戏开发的基石，为构建多角色生成式 AI 系统提供了强大的基础和高度的灵活性。在这个框架中，实体不再被限制在僵化的类结构中，而是轻量级的独立对象，每个实体通过挂载的组件来定义其行为和属性。

引擎通过调用 observe、act 等函数处理实体，这些函数由实体所挂载的组件具体实现。具体来说，调用 observe 时，会触发所有组件的 preobserve 和 postobserve 函数，对每个实体的观察数据进行加工。调用 act 时，每个组件会根据当前上下文和任务要求选择合适的行动。

在实际开发 Concordia 组件时，开发者通常需要实现四类方法中的部分或全部：preobserve、postobserve、preact 和 postact。常见的做法是只实现观察类方法或行动类方法，而同时实现两类方法的情况相对较少。这种组件化模块设计使得不同组件可以自由组合，快速创建具有多样化功能的实体，从而克服了传统面向对象编程中行为略有差异的新角色类型导致的复杂和脆弱的继承链问题。

对于生成式 AI 智能体而言，这种架构的优势尤其明显。例如，一个智能体的思维可以由多个组件构成，包括存储过往经历的 Memory 组件、调用大语言模型生成目标的 Planning 组件，以及表征世界认知的 Beliefs 组件。同样，一个组织实体可以通过组合多个代表其部门、政策及内部沟通结构的组件来实现。只需调整不同的组件组合，就能为不同智能体赋予独特的认知架构。

这一架构模式的灵活性同样体现在 Concordia 框架中的 GM 系统上。GM 本身也是一个实体，可以像玩家实体一样通过组件进行定制。这样的设计使 GM 的功能和逻辑可以根据多智能体系统的具体需求灵活调整，无论是在执行严格的评估协议、引导叙事发展，还是维护因果一致性方面。

此外，Concordia 框架还支持多种游戏引擎模式，以适应不同的交互动态。

游戏 / 模拟设计目标的全景图分析

根据桌游角色扮演游戏理论的重要人物 Edwards 的定义，TTRPG 可以分为三类：

游戏型（Gamist）：GM 需要设计难度适中的挑战以维持游戏的乐趣。
叙事型（Narrativist）：GM 需要灵活调整剧情以响应玩家的创意输入。
模拟型（Simulationist）：玩家希望沉浸在一个逻辑自洽的虚拟世界中。

而对于生成式 AI，还有一种第四种动机：创建合成训练数据。这四类目标各有侧重点，需要不同的设计思路和技术支持。

评估型的观点

对于评估型用户来说，主要目标是确定哪些 AI 系统在特定维度和上下文中表现更优。因此，评估型系统通常具有以下特点：

标准化场景：精心校准的环境，确保在多次评估运行中挑战的一致性。
明确的成功指标：可量化的性能衡量标准，允许对不同方法进行明确的排名。
受控变异性：战略性地引入新的元素，以评估 AI 的泛化能力。
跨角色互动机制：评估智能体在与不同伙伴群体互动时的表现。

戏剧型的视角

与评估型用户不同，戏剧型（Dramatist）用户主要将多角色生成式 AI 系统视为叙事引擎。戏剧型目标的核心关注点是通过多个 AI 角色的互动生成引人入胜的故事，而不是简单的基准测试性能。

从设计师的角度来看，针对戏剧型目标构建的系统将优先考虑叙事一致性、情感共鸣和动态人物发展。主要关注的特性包括：

丰富的角色模型：具有详细性格、目标、价值观和人际关系的角色，通常通过组合多个组件来构建。
叙事驱动的环境：旨在引发戏剧性互动和有趣的故事情境。
灵活的解决机制：优先考虑叙事的连贯性和吸引力，而不是程序的一致性。
涌现的故事情节：允许在没有预定结果的情况下发展引人入胜的叙事线。

论文还进一步探讨了模拟型视角和合成数据生成等方面的研究，感兴趣的读者可以阅读原文以获取更多详细信息。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。