通义DeepResearch：阿里开源Agent遥遥领先性能远超OpenAI/DeepSeek

Rain科技9月17日消息，今日凌晨，阿里开源了旗下首个深度研究Agent模型——通义DeepResearch，并已登顶开源第一的行列。

该模型在HLE、BrowseComp-zh、GAIA等多个权威评测集上取得了SOTA（State-of-the-art）成绩，表现超越了OpenAI Deep Research、DeepSeek-V3.1等同类Agent模型。

目前，通义DeepResearch的模型、框架和相关方案已得到全面开源，用户可以通过Github、Hugging Face和魔搭社区等平台下载模型及代码。

作为当前人工智能研究领域的热点，“深度研究”的传统方法通常采用“单窗口、线性累加”的信息处理模式，即所有中间思考过程和检索到的信息都集中在单一的上下文窗口内。

然而，在处理长周期、复杂的任务时，这一模式容易导致Agent面临“认知空间窒息”和“不可逆的噪声污染”等挑战，严重影响其推理能力的提升，最终难以有效完成真正意义上的长程、复杂研究任务。例如，当需要整合数万字的研究报告或跨越多个日期的数据时，单一的上下文窗口很快就会达到饱和，丢失关键信息，或者将无关信息“淹没”其中。

为此，通义团队特别构建了一套以合成数据驱动、贯穿预训练到后训练的完整训练链路。该链路以Qwen3-30B-A3B模型为基础进行优化。为了更好地模拟真实世界的复杂性，团队创新性地设计了覆盖真实环境与虚拟环境的强化学习（RL）算法验证与真实训练模块。同时，结合高效的异步强化学习算法以及自动化数据策展（Data Curation）流程，显著加快了模型的迭代速度，并大幅提升了其泛化能力。这种数据驱动和强化学习的结合，使得模型能够更有效地学习和适应动态、复杂的研究场景。

在模型推理阶段，团队设计了两种模式：ReAct模式和基于自研IterResearch的Heavy模式。前者主要用于精准评估模型的基础内在能力，而后者则通过test-time scaling策略，能够充分挖掘并展现模型所能达到的性能上限。这意味着无论是在标准测试环境下还是在更具挑战性的实际应用场景中，该模型都能保持出色的表现。

即使在处理长周期任务时，通义DeepResearch模型也能实现高质量的推理。目前，在Humanity’s Last Exam（HLE）、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等多个权威Agent评测集上，该模型以3B激活参数的表现，成功超越了基于OpenAI o3、DeepSeek V3.1以及Claude-4-Sonnet等旗舰模型的ReAct Agent。

值得关注的是，自今年以来，阿里已连续开源了WebWalker、WebDancer和WebSailor等多款在检索和推理方面表现优异的智能体，并且每一款都成功斩获了开源社区的SOTA（State-of-the-art）成绩。这不仅体现了阿里在Agent模型研发领域的持续投入和技术实力，也为整个开源生态注入了新的活力。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。