过去两年,AI圈的竞争逻辑异常简单:谁的基座模型更强,谁就掌握话语权。但最近一个趋势正在打破这种“唯参数论”——当单点模型的进化曲线开始变得平缓,工程层面的“组合创新”反而成了新的变量。
一个叫OrcaRouter的AI网关最近上线了一套可编程路由策略Routing DSL,它做的事情本质上并不玄学:让多个模型同时答题,再由一个仲裁机制自动选出最优解。这套逻辑跑下来的数据,可能让一些还在死磕单模型精度的人有些意外。
直接看结果。在100道任务的测试中(注:以下为示意性数据,用于说明趋势,非官方跑分),组合面板(多模型并行+仲裁)的得分,普遍高于它的每一个成员模型:


划重点:
- 任意一个“组合面板”,都打过了它自己的每一个成员。Opus 4.8 + GPT-5.5(约67.5%)同时高于Opus单跑(约58.5%)和GPT-5.5单跑(约60%),拉开7~9个点;
- 多个组合追平、甚至超过了Fable 5单跑(约65.5%);
- 连“自我组合”(Opus×2,约65.5%)都能追平Fable 5;一组便宜模型(Gemini 3 Flash+Kimi K2.6+DeepSeek V4 Pro,约64.5%)几乎贴脸——成本却低一大截。
注意,这里的关键不是“更强的模型”赢了,而是“更聪明的编排方式”赢了。当大家还在纠结要不要为Fable 5的天价调用买单时,一些人已经用几个现成模型的“合体技”实现了反超——这其实更符合工程领域的复利思维。
道理并不复杂,就像让三个不同领域的工程师同时做同一道题,再把最靠谱的答案挑出来。不同模型的知识盲区和犯错方式并不相同:各自独立作答,错误是分散、不重叠的;再用“裁判”或“投票”把对的挑出来,整体正确率自然会被抬上去。
模型间的分歧其实是信号。OrcaRouter做的,就是从这些分歧里挑出最优解,拼成满血输出。
这套编排逻辑用YAML写规则,条件用Google的CEL表达式(安全沙箱、只读、微秒级求值),自上而下匹配,第一条命中即生效。整条请求的处理路径如下:

按难度路由,代码长这样:
rules:
id: hard
when: difficulty > 0.8 # 难题 → 上顶配
use: { model: "anthropic/claude-opus-4-8", reasoning_effort: "high" }
id: easy
when: difficulty < 0.3 # 简单请求 → 走便宜模型
use: { model: "google/gemini-3-flash" }
default:
delegate: balanced
而“满血复活”的关键一招,是parallel(并行扇出)+ arbiter(仲裁):
use:
parallel: # 2~5 个模型并行作答
- { model: "anthropic/claude-opus-4-8" }
- { model: "openai/gpt-5.5" }
- { model: "google/gemini-3.1-pro" }
arbiter:
strategy: best_of_n # 让一个"裁判模型"挑最优
model: "anthropic/claude-sonnet-4-6"
四种仲裁策略,对应四种“怎么定胜负”:

担心组合也翻车?再加一层置信度级联兜底:当响应触发patch_invalid(补丁打不上)、self_doubt(模型自我怀疑)等信号,自动改投更强的模型重试。
并行扇出意味着“每条腿都计费”,但账要这么算:你只在难的那一小撮请求上才扇出,简单请求照样走便宜模型;而一组便宜模型拼出的面板就能逼近Fable 5——用拓扑结构买智能,而不是用更高的单价买智能。

从成本结构来看,这种“组合拳”的性价比优势尤其明显。对于多数场景,高端模型的大部分能力是冗余的,而通过编排让低成本模型覆盖80%的日常请求,只在关键节点调动更强资源,是一种更符合商业合理性的做法。
入口在控制台:routing → create router → routing strategy → DSL。配套自带lint校验、dry-run试跑、影子模式(只评估不生效,先看A/B差异和成本变化)、灰度放量(0~100%滑杆)和回滚审计——改路由这种高危操作,被包了一层安全网,可以先零风险跑起来再放量。
需要说明的是:按难度/任务的智能路由现已上线;“多模型并行扇出+仲裁”的运行时目前处于灰度/预览阶段(计费链路逐步验证中),可先写好规则、用影子模式观察,开放后一键生效。
现在就去试:
文档:docs.orcarouter.ai/routing/routing-dsl
网站:www.orcarouter.ai (控制台routing→create router→routing strategy→DSL)
当整个圈子都在为了下一个未知数倾注赌注时,一种更具确定性的工程范式正在悄然成型。几个现成模型组合起来就能赢最强单体,胜负手已经不只是“你调用了谁”,“你怎么编排”的权重正在变大。
模型还会继续卷下去,下一个更强的迟早会来。但当编排本身就能拉出几个点的性能增量,“怎么用”这件事,也许该和“用哪个”放在同一个优先级了。