在构建日益复杂的现代人工智能模型时,如何高效、新鲜且多样化地生成训练数据,始终是一个绕不开的挑战。尤其是当合成数据成为大型语言模型(LLM)训练的关键燃料,例如合成对话、工具轨迹和推理链等,传统的集中式调度管道往往会成为性能瓶颈。Meta AI 的研究人员近期推出了一项名为 Matrix 的创新框架,它以一种去中心化的方式,将控制和数据流解耦成独立的“消息”在不同的队列中处理,为解决这一难题提供了切实可行的方案。
当前,LLM 的训练对高质量合成数据的依赖日益加剧。然而,现有的一些系统,无论是依赖于中央控制器还是特定领域的解决方案,在面对大规模并发数据生成时,常常面临 GPU 资源浪费、协调开销巨大以及数据多样性受限等问题。Matrix 框架则另辟蹊径,基于 Ray 集群,采用了点对点的代理调度机制。通过实际工作负载的测试表明,相较于传统方法,Matrix 在保持数据质量相似的前提下,可以将 Token(令牌)吞吐量提升 2 到 15 倍,展现出强大的性能优势。

传统代理框架的设计模式通常是将工作流状态和控制逻辑集中在一个中央调度器内。这意味着每一次代理调用和工具交互都必须经过这个中心节点。这种设计思路易于理解,但在处理成千上万并发的合成对话场景时,其可扩展性便捉襟见肘。Matrix 的设计则将控制和数据流串联成一个名为“调度器”的消息对象。每个无状态的代理可以看作是一个 Ray actor,它从分布式队列中拉取调度器,执行自身的逻辑,然后直接将更新后的状态发送给下一个代理。这样的架构有效减少了因轨迹长度不一而导致的闲置时间,并且使得故障处理更加本地化,提高了系统的鲁棒性。
Matrix 框架的实现离不开强大的分布式计算基础设施。它运行在 Ray 集群之上,并且通常通过 SLURM 进行启动。Ray 提供了分布式代理和消息队列的核心能力,而 Hydra 则负责管理代理的角色定义、调度器类型以及资源配置等细致工作。此外,Matrix 还引入了消息卸载机制。当对话历史记录超过设定的阈值时,会将大型数据负载存储在 Ray 的对象存储中,而调度器内部仅保留对象的标识符,从而显著降低了集群带宽的压力,提升了整体效率。
通过三个独立的案例研究,Matrix 框架的卓越性能得到了充分验证。在用于“Collaborative Reasoner”的对话生成任务中,Matrix 实现了惊人的 2 亿 Token 生成量,远超传统方法所能达到的 6200 万 Token。在构建“NaturalReasoning”数据集时,Matrix 将吞吐量提升了 2.1 倍。而在 Tau2-Bench 工具使用轨迹评估任务中,Matrix 更是将吞吐量提升了高达 15.4 倍。这些结果不仅证明了 Matrix 在提升生成效率方面的巨大潜力,同时也表明其在生成大规模高质量同步数据方面,展现出了高效且可靠的能力。
论文原文链接:https://arxiv.org/pdf/2511.21686
核心亮点:
🌟 Matrix 框架采用去中心化设计,有效规避了传统集中式调度器可能带来的性能瓶颈。
🚀 在多个实际应用场景中,Matrix 实现了 2 到 15 倍的 Token 吞吐量提升。
🔧 该框架充分利用了 Ray 集群的分布式特性,实现了高效的同步数据生成与处理。