当前,人工智能领域正经历从“离线处理”向“实时流式交互”的关键转折。尤其是在具身智能与智能座舱场景下,延迟往往是决定用户体验乃至安全性的核心指标。传统的视频理解模型多基于完整文件处理,难以满足毫秒级的响应需求。
近日,理想汽车发布了一套全新的流式视频理解与具身智能统一框架,试图通过架构创新解决这一痛点。这不仅是对现有 Agent 能力的延伸,更是对实时感知决策闭环的一次重要尝试。
在你取车的时候,主动跟你打招呼
当行业内的多数模型还在离线处理视频数据时,理想已经实现了将智能代理“带上车”的实时交互。
近期,理想正式推出了全新的流式视频理解与具身智能统一 Agent 框架——
StreamingClaw。
该框架在保持与 OpenClaw 完全兼容的前提下,实现了原生支持实时的多模态流式交互。
这一突破意味着,系统不再将视觉输入视为静态的离线文件,而是模拟人类感知机制,实时捕获流数据(Stream)并进行即时推理。
例如,该智能代理不仅能在驾驶过程中持续监测驾驶员状态,识别可疑动作(如哈欠、使用手机)并主动预警。
甚至能在用户取车时,主动发起打招呼交互。
此外,StreamingClaw 还引入了自主多代理调度机制。
基于主 – 从代理的紧密协同,系统不仅能自主完成复杂的任务规划与逻辑决策,还深度集成了丰富的工具及技能库,在现实场景中实现了指令驱动的具身智能。
在 StreamingClaw 的支持下,机器人与终端设备实现了极低延迟的“边看、边记、边行动”:
例如,它可以实时识别用户手持物品,并提供解题辅助。
显而易见,在这些复杂场景中,StreamingClaw 的核心竞争力在于实时推理与瞬时响应能力。
而支撑这一“智能代理”在物理世界灵活行动的,正是一整套围绕“流式架构”展开的系统设计。
与大模型等对延迟相对不敏感的场景不同,在具身智能、AI 硬件及智能座舱等领域,系统往往需要在毫秒级完成感知—决策—执行的闭环:
- 感知(看):通过摄像头捕获环境;
- 决策(想):AI 大脑规划对策;
- 执行(做):驱动硬件或指令,并根据动作后的新环境再次循环。
然而,现有的视频 Agent 在处理实时感知(流式感知)时,往往面临延迟较高的挑战。
究其原因,传统方法通常将视频视为完整文件处理。长视频的计算量呈指数级增长,难以实现实时响应;
同时,模型难以持续追踪长时程信息,导致决策草率、频繁遗忘,甚至直接任务失败。
针对这些问题,以往的研究尝试通过视觉压缩或 Token 精简来缓解负载,但这也导致了细节丢失,无法准确定位等问题。
更关键的是,传统模型大多是被动触发:用户不问,它不动,缺乏对环境风险的主动感知。
StreamingClaw 通过“增量计算”改写了这一逻辑。
它不再机械地重复处理历史画面,而是将环境的细微变化视为增量信号进行推理更新。
这意味着,它不仅能“看”得更准、“记”得更久,还能在思考过程中自主调用工具,实现从感知到物理干预的真正闭环。
这就是所谓的流式推理,与处理现成文件的“离线模式”不同,其要求 AI 必须像观看直播一样,在数据不断涌入的同时即时分析,不允许任何严重滞后。
接下来,我们具体来看 StreamingClaw 是如何实现这一点的。
总体来看,StreamingClaw 是一个高度协同的多代理(Multi-agent)架构。它通过一套标准化的流水线,打破了不同硬件之间的壁垒:
首先,无论是智能眼镜、自动驾驶芯片还是具身机器人,所有多模态流式输入都会通过时间戳对齐与共享流式缓存进行标准化处理,确保 AI 拥有统一的“时间尺度”。
其次,核心大脑StreamingReasoning(主代理)负责实时感知与规划;StreamingMemory与StreamingProactivity(从代理)则分别提供长效记忆支撑与主动交互决策。
最后,代理生成的决策指令会直接驱动工具箱与技能库。
从简单的视频剪切到复杂的具身动作序列,执行结果会即时反馈至代理,形成一套完整的“感知—决策—执行”闭环。
这种架构让 StreamingClaw 不仅能听懂指令,更能通过自主规划与工具调用,真正深入现实场景解决问题。
流式推理(StreamingReasoning)主要针对具有连续输入输出的流视频理解场景。
其核心目标是在极低延迟的约束下,实现对现实世界的实时感知、理解与推理。
在实时流式推理方面,系统会将输入的视频流拆分为细粒度片段,并通过动态滑动窗口严格控制上下文范围,从源头上避免无效信息的堆积。
在此基础上,结合经过剪枝优化的流式 KV-Cache 机制,StreamingReasoning 可以持续进行高效的增量解码,使整体推理过程始终紧贴视频流节奏运行,而不会出现延迟堆积。
在此之上,系统引入了自规划调度能力,充当整个流程的“总指挥”。
它能够动态解析用户指令,并自主规划任务路径。在面对复杂任务时,系统会根据需要选择调用层级化记忆进行检索,或转而触发主动交互决策;
而在常规场景下,则保持直接、低延迟的流式多模态推理,使整体交互过程始终顺畅自然。
StreamingMemory 存储真正的多模态向量,通过层级记忆演化(HME)机制,以应对复杂的流视频理解任务。
具体来说,在记忆机制上,系统以视觉为核心,将多模态信息组织为可持续增长的增量式记忆节点,避免原始数据的简单堆叠。
这些记忆进一步从碎片演化为更高层级的“行动”和“事件”,使检索对象从画面本身转向可用于决策的结构化经验。
在此基础上,系统通过命令驱动的并行时间遍历实现高效检索,在长时序信息中快速定位关键内容,同时保证鲁棒性。
同时,统一的接口设计打通跨代理记忆,使不同 Agent 既能共享关键经验,又能进行差异化管理,从而支撑更高效的协同。
StreamingProactivity 面向未来事件预测、推理与主动交互设计,其目标既可以由用户预先设定,也可以在流式过程中持续演化。
当请求被识别为主动交互时,主代理会将其转化为持续在线的监控任务,例如追踪行为、判断事件或监控风险。
一旦满足触发条件,系统即刻生成通知或解释性响应,形成“感知—推理—触发—反馈”的闭环,避免反复查询。
这一机制主要覆盖两类场景,一类是时间感知交互,强调对状态随时间演化的持续跟踪;
另一类是事件定位交互,聚焦关键事件在时间流中的精确识别,常见于异常检测与自动标注等任务。
在实现上,系统分为免训练适配与训练适配两种路径。
免训练适配无需额外训练,通过将触发条件结构化为可监控节点,在流式过程中匹配视觉信号并即时生成响应;同时支持目标在线更新,形成持续演化的主动交互闭环。
训练适配则将状态变化建模为视觉语言信号,引入场景专用触发 Token,使感知与任务解耦,并在单次推理中完成多事件识别与响应生成。
该方案在复杂场景下具备更高精度、更强泛化能力,同时显著降低并发任务下的推理开销。
整体来看,StreamingProactivity 实现了全天候在线的主动交互,使系统能够持续感知变化并触发响应。
为了真正让 AI 影响物理世界,StreamingClaw 还提供了高效工具与技能接口,从而完成了“感知—决策—执行”闭环的最后一个环节。
除了标准的工具组合外,研究还引入了专为视频理解和流式交互定制的专业工具。
比如,Video Cut 工具可以在关键片段中精准裁剪时间戳,将内容送入大型多模态模型进行“显微级分析”,再输出精简文本结果。
总体而言,StreamingClaw 面向流式视频场景,基于多模态大模型实现感知、理解与语音输出,但当前仍以“视觉 + 文本”为核心输入范式,对音频输入、精细时序对齐及跨模态联合推理的支持仍有限。
未来,系统将演进为统一的全模态代理框架,打通视频、图像、音频与文本的输入输出,实现真正的感知 – 执行闭环;
同时强化长时程建模、空间理解与跨模态对齐能力,并持续优化低延迟部署与记忆、工具调用机制,以支撑更真实世界的具身交互。
[1]
[2]
从行业视角观察,StreamingClaw 的发布标志着智能座舱与具身智能的技术竞争已进入“实时性”深水区。过去,大模型在车端的應用多局限于语音助手或离线任务,而流式架构的引入,使得车辆能够像人类一样“持续观察”并“即时反应”。
然而,技术落地的挑战依然存在。如何在有限的车端算力上维持如此复杂的多代理调度,以及如何确保主动交互的边界不侵犯用户隐私,将是接下来需要重点平衡的问题。尽管如此,这种从“被动响应”向“主动感知”的范式转移,无疑为未来的智能硬件交互奠定了新的技术基调。