港大联合月之暗面发布OpenCUA:打造个性化电脑智能体

OpenCUA是一个全面开源框架,用于构建和扩展计算机使用智能体(CUA)。框架包括跨平台注释工具AgentNet Tool,涵盖3个操作系统和200多个应用/网站的大规模数据集AgentNet,以及将演示转化为「状态-动作」对的工作流程。基于此,团队构建了OpenCUA-32B模型,在OSWorld-Verified基准上达到34.8%的成功率,创下了开源SOTA。

刚刚,一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文在 arXiv 上线了,提出了一种用于构建和扩展 CUA(使用计算机的智能体)的完全开源框架。该框架包括:

  • 一个用于捕获人类使用计算机的演示的注释工具
  • AgentNet,首个涵盖 3 个操作系统和 200 多个应用程序/网站的大规模数据集
  • 一个将演示转化为具有长思维链推理的「状态-动作」对的工作流程

使用该框架,他们还构建了一个旗舰模型 OpenCUA-32B,在 OSWorld-Verified 上达到了 34.8% 的成功率,创下了新的开源 SOTA,甚至在这个基准测试中超越了 GPT-4o。

更妙的是,他们完全公开了相关代码、数据和模型!

港大联合月之暗面发布OpenCUA:打造个性化电脑智能体

论文标题:OpenCUA: Open Foundations for Computer-Use Agents

论文地址:https://arxiv.org/abs/2508.09123

项目页面:https://opencua.xlang.ai/ (包含工具、模型、数据集)

下面我们就来详细看看这项研究。

OpenCUA 框架

OpenCUA 框架的目的是构建一个全面的开源平台,支持计算机使用智能体(CUA)的研究和开发。下图展示了 OpenCUA 框架的概览。

港大联合月之暗面发布OpenCUA:打造个性化电脑智能体

具体来说,OpenCUA 框架包含以下内容:

  • AgentNet Tool,如左上角所示,可通过屏幕视频与操作流程捕捉跨操作系统的用户交互。
  • 原始演示被处理成包含推理与历史的「状态–动作」轨迹,如右上角所示。
  • AgentNet 数据集与基准,涵盖多样化的任务,并提供含黄金标准动作的离线评估,如右下角所示。
  • OpenCUA 模型经过训练后,可在真实环境中执行计算机操作任务,如左下角所示。

AgentNet 数据收集

OpenCUA 的目标是将使用桌面计算机的数据扩展到不同的计算机环境和用户场景。为此,团队需要收集符合自然用户行为的演示,并尽量减少对用户与计算机交互方式的额外限制,以提高数据收集的可扩展性。

AgentNet Tool

AgentNet Tool 是一个跨平台的标注应用,可记录用户在 Windows、macOS 和 Ubuntu 上的交互。它能够捕捉屏幕视频、鼠标/键盘操作及相关元数据,从而实现对真实计算机使用演示的采集。这种方法可以大规模扩展。

港大联合月之暗面发布OpenCUA:打造个性化电脑智能体

AgentNet Tool 标注和验证

团队对原始用户演示进行了处理,生成干净、可用于训练的「状态–动作」轨迹。生成的轨迹中包含「内心独白式」的思考与操作历史,适用于视觉-语言模型的训练。

原始演示包含高频率的屏幕录制和细粒度的交互信号(如鼠标移动、点击、滚动、按键等)。一个典型任务可能产生成千上万条底层动作记录,这些记录过于密集,会降低训练效率。为解决这一问题,团队提出了两种技术方案:

动作约简(Action Reduction)

这是一种基于规则的方法,将密集动作信号约简为更少但更有意义的操作,同时保留必要信息。具体包括:

  • 将原子操作压缩为高阶操作。
  • 鼠标移动被视为点击/拖拽的前置条件,仅保留起止位置。
  • 滚动事件按方向合并,并累计滚轮数量。
  • 连续按键合并为文本输入字符串,快捷键组合(如 CTRL+C)抽象为「热键动作」。
  • 常见的多步手势(如拖拽、双击)也被整合为单一动作。

约简后的动作序列与 pyautogui 动作空间对齐(详见表 1)。

港大联合月之暗面发布OpenCUA:打造个性化电脑智能体

表1:人类操作与对应智能体动作函数

状态–动作匹配(State-Action Matching)

为了将每个动作 a_i 配对至代表性状态 s_i,团队从屏幕录制中提取关键帧,捕捉动作发生前的系统状态。但如果关键帧直接与鼠标点击时间戳对齐,可能泄露未来信息。为避免该问题,团队在处理鼠标点击时,回溯至鼠标开始移动前的阶段,并向前搜索最后一个视觉上有明显变化的帧,作为该动作的起始状态。任务结束后,再附加一个终止帧及对应的「结束动作」。

AgentNet 数据集与测试基准

最终,团队得到了 AgentNet 数据集和 AgentNetBench 基准测试集。数据集涵盖了来自 140 多款应用和 190 多个网站的多样化开放领域任务,任务涉及多应用协作流程、专业工具操作以及非通用功能的使用。基准提供任务指令、步骤历史及每一步的多个黄金标准动作,便于高效的离线评估。

港大联合月之暗面发布OpenCUA:打造个性化电脑智能体

图 4:AgentNet 数据集中任务的领域分布

该数据集共包含 22,625 条人工标注的计算机使用任务,其中约 12,000 条来自 Windows,5,000 条来自 macOS,5,000 条来自 Ubuntu,支持的屏幕分辨率范围从 720p 到 4K。每条轨迹的平均步骤为 18.6 步,体现了任务本身的复杂性。

如表 2 所示,与现有的 GUI 数据集相比,AgentNet 是首个具备真实性、复杂性、多样性与多模态特征的桌面端轨迹级数据集。

港大联合月之暗面发布OpenCUA:打造个性化电脑智能体

表2:AgentNet 数据集与现有 GUI 数据集对比

为实现稳定、快速且无需依赖环境配置的评估,团队还构建了AgentNetBench——一个离线的计算机使用智能体评估基准。该基准是从 AgentNet 数据集中精选出 100 个具有代表性的任务构成的,涵盖 Windows 与 macOS 平台,任务内容横跨多个应用领域。

港大联合月之暗面发布OpenCUA:打造个性化电脑智能体

每个任务均经过人工审查,明确任务目标并剔除冗余操作。考虑计算机操作任务中天然存在多种合理操作路径,团队还在每个步骤上手动提供了多个有效动作选项,以提升评估的灵活性与真实性。

OpenCUA 模型

基于上述数据集,团队打造了 OpenCUA 智能体模型,结合了反思式思维链推理、多图像历史以及跨领域数据。该模型能够在多个操作系统的真实桌面环境中执行计算机操作任务。

港大联合月之暗面发布OpenCUA:打造个性化电脑智能体

值得注意的是,团队还设计了一条新颖的处理流程,用于为每个任务步骤增强反思式长思维链(reflective long CoT):「生成器」(generator)与「反思器」(reflector)会以迭代方式生成并验证推理过程中,在观察信息与真实动作(ground-truth actions)之间的各个组件。

实验结果与分析

实验基于多个开源的视觉-语言模型进行,包括:KimiVL-A3B、Qwen2-VL-7B-Instruct、Qwen2.5-VL-7B-Instruct 和 Qwen2.5-VL-32B-Instruct。

其中,KimiVL-A3B 采用了混合专家(MoE)架构,拥有总计 16B 参数,在训练与推理时激活参数为 3B,具备一定的计算机操作能力,如对象定位与任务规划。

Qwen2-VL 与 Qwen2.5-VL 是通用型视觉-语言模型(VLM),其中 Qwen2.5-VL 在数字智能体任务中表现更强,特别擅长高分辨率场景的理解。

团队对上述模型进行了监督微调,得到多个 OpenCUA 模型变体:OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B 和 OpenCUA-32B。

然后,团队在以下多个基准上对这些模型进行了评估,包括在线评估基准、离线智能体评估基准以及 GUI 定位能力评估基准。

在线智能体评估

  1. OSWorld-Verified:OSWorld 最初收集整理了 369 个人工构建的任务,涵盖大量应用程序,并配有对应的环境配置与评估脚本。OSWorld 团队近期对这些任务进行了验证,修复了因依赖过期、评估错误或指令不清导致无法测试的项目,并将改进后的基准发布为 OSWorld-Verified。评估结果通过 OSWorld 团队部署在 AWS 基础设施上的公开评估平台获得,结果列于表 3。
  2. WindowsAgentArena (WAA):该基准包含 154 个以 Windows 为中心的任务,涵盖原生 Windows 应用以及若干出现在 OSWorld 中的开源程序,能有效反映智能体在 Windows 系统上的在线性能。

港大联合月之暗面发布OpenCUA:打造个性化电脑智能体

表 3:OSWorld-Verified 评估结果

从结果上看,OpenCUA-32B 在所有开源模型中取得了最佳表现,平均成功率达 34.8%,大幅领先于此前的各类基线模型。同时,它显著缩小了与闭源智能体的性能差距,甚至超越了 OpenAI CUA。这一结果充分证明了 OpenCUA 训练流程在可扩展性与性能上的优势。

离线智能体评估

离线评估使用了 AgentNetBench,这是团队创建的 CUA 离线评估基准,其中包含 100 个具有代表性任务,覆盖 Windows 与 macOS 上的多个领域。结果如下表所示。

港大联合月之暗面发布OpenCUA:打造个性化电脑智能体

表 4:AgentNetBench 上,各个 CUA 的性能表现

可以看到,OpenCUA-32B 的整体表现最佳,但 OpenAI CUA 在 Function action 成功率上的表现有明显优势。

GUI 定位能力评估

团队还评估了模型在图形用户界面(GUI)中将自然语言指令映射到具体操作的能力,这里使用了三个基准:OSWorld-G、Screenspot-V2、Screenspot-Pro。

其中,OSWorld-G 包含 564 个样本,系统性地覆盖了文本匹配、界面元素识别、布局理解以及细粒度操作控制等任务,并提供了解决每个任务所需的界面元素类型注释。Screenspot-V2 包含来自移动端、桌面端与网页端的截图,旨在评估跨平台场景下的 GUI 理解能力。Screenspot-Pro 则聚焦于高分辨率桌面环境,尤其强调在专业应用场景中的表现能力。

港大联合月之暗面发布OpenCUA:打造个性化电脑智能体

港大联合月之暗面发布OpenCUA:打造个性化电脑智能体

OpenCUA 模型在三个基准测试上的 GUI 定位性能,并与 Qwen2.5-VL 模型和 UI-TARS 进行了对比。

可以看到,新提出的方法能够随着训练数据规模的扩大而有效提升模型性能。

较高的 Pass@N 表现表明,OpenCUA-7B 在测试阶段具备良好的扩展潜力(test-time scaling),即在允许更多尝试次数或更长推理路径的情况下,其性能仍可进一步显著提升。

港大联合月之暗面发布OpenCUA:打造个性化电脑智能体

OpenCUA-Qwen2-7B 在 OSWorld 基准上的 Pass@N 性能曲线(temperature = 0.1)

港大联合月之暗面发布OpenCUA:打造个性化电脑智能体

OpenCUA-Qwen2-7B 在 OSWorld 基准上的 Pass@N 性能曲线(temperature = 0)

总结

OpenCUA 是一个面向计算机使用智能体(CUA)开发的全面开源框架,填补了该领域的关键空白。通过提供标注基础设施、数据处理流水线、多样化数据集、高效训练策略和系统评估基准,为 CUA 研究奠定了基础性支撑。

其得到的模型在多个基准任务中表现优异,同时呈现出明确的数据 Scaling Law 与跨领域泛化能力。通过完整开源工具链(包括工具、数据集、代码与模型),团队希望加速透明、可验证的 CUA 研究,使社区能够系统性地探索此类智能体的能力、局限性与风险。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
上一篇 2025年 8月 14日 上午11:02
下一篇 2025年 8月 14日 下午12:44

相关推荐

欢迎来到AI快讯网,开启AI资讯新时代!