在具身智能迅猛发展的当下,视觉感知能力的演进速度尤为引人注目。长期以来,机器人如何像人类一样“边走边看、边看边建图”,始终是制约其走向大规模落地的核心技术瓶颈之一。传统的 3D 重建方案往往受限于算力与显存,难以在端侧设备上实现长序列的稳定运行。
近期,这一领域迎来了新的突破。蚂蚁灵波团队开源了一款名为 LingBot-Map 的基础模型,主打纯自回归的流式 3D 重建。从行业观察的角度来看,这不仅是一次技术指标的刷新,更是对具身智能“感知 – 决策”闭环中关键一环的有力补充。以下是对该模型技术细节及产业影响的深度解析。
具身圈开源了个 SOTA
技术观察员 发自 前沿实验室
深度科技观察 | 公众号 AI Insight
刚刚,机器人的视觉感知能力,似乎又跃迁到了一个新的层级。
原因在于,一款新模型已经成功实现了无尽流处理:观看∞帧视频的同时,能够稳定地进行实时 3D 重建!
不妨先来直观感受一下这种体验:

视频地址:
或许会有读者产生疑问:这项技术的实际价值何在?
通俗来讲,若将该模型部署于扫地机器人,它便能一边清洁一边构建家庭的 3D 结构图谱;若应用于自动驾驶领域,则意味着车辆能在行驶过程中实时厘清路面状况。
这种能力,颇有些类似于火影忍者中宁次的白眼。
(注:白眼具备 360°无死角透视及极远洞察力;对应此模型的全方位空间感知与长序列细节不丢失特性。)

△图源由 AI 生成
这便是蚂蚁灵波最新开源的LingBot-Map,一个专为纯自回归流式 3D 重建打造的基础模型。

与以往的具身智能视觉 3D 重建方案不同,此次 LingBot-Map 实现了快、准、狠的突破——
它成功打破了“既要实时性、又要记忆路、还要省显存”的不可能三角。
在深入探讨“流式 3D 重建为何困难”之前,有必要厘清两个概念:普通 3D 重建与流式 3D 重建。
这两者本质上属于完全不同的技术维度。
首先是传统离线 3D 重建(Offline)。
其本质可微妙地形容为“事后诸葛亮”,因为必须先拍摄完整视频、存储所有帧画面,再集中算力进行全局建模。
这种做法的缺点显而易见:速度慢、消耗显存大、无法实时交互。应用场景多局限于影视建模、数字孪生等静态场景,难以适用于需要实时决策的机器人或自动驾驶系统。
而流式 3D 重建(Online)则截然不同,它能真正满足具身智能的核心刚需:
来一帧算一帧,边拍边建模、边感知边决策,与人类边走边认路的视觉逻辑高度契合。
然而看似简单,实施过程中却有三座大山横亘在业界面前。

△图源由 AI 生成
第一,记忆过多导致显存爆炸。
若模型强制存储所有历史帧,几千帧过后显存即将满载,消费级显卡无法运行,工业设备也难以支撑长时作业。
第二,记忆过少导致信息遗忘。
若仅缓存最近几帧,模型会出现灾难性遗忘,长时间运行后轨迹严重漂移、重建场景扭曲变形,犹如人行走久之却忘了身处何地。
第三,精度与速度难以兼得。
要么建模精准但推理卡顿,要么实时性足够但画面模糊,始终难以找到平衡点。
更为关键的是,此前绝大多数流式方案,要么依赖测试时优化,要么利用未来帧信息做全局校准,亦或加入人工设计的关键帧规则,并非端到端的纯推理。
而 LingBot-Map 选择了一条更为艰难的纯自回归路径:严格遵循因果律,仅依赖历史帧信息推理当前帧,无后处理、无未来帧依赖、无人工优化规则,所有能力全靠模型端到端学习。
正因有了纯自回归的约束,这相当于让蒙眼者仅凭过往记忆走迷宫,既要求走得快、又要记准路、还不能多耗脑力……
难,确实很难。
但蚂蚁灵波这一次,确实啃下了这块硬骨头。
LingBot-Map 背后技术的灵感,源于人类。
就好比我们在大城市逛街却能做到不迷路,并非因为大脑像录像机一样全程“录制”,关键在于大脑执行的是选择性记忆操作。
说白了,就是只记住有效、关键的帧。
LingBot-Map 的核心,正是完美复刻了这种机制,命名为几何上下文注意力(Geometric Context Attention,GCA)。
具体而言,LingBot-Map 通过 GCA,对记忆进行了非常精妙的分层结构化管理。
首先是锚点(Anchor), its role is to let the robot remember“我从哪来”。
任何 3D 重建都需要绝对的坐标系和尺度基准,好比人类进入陌生房间,会下意识记住门口位置作为参照系,防止迷路。
LingBot-Map 的锚点模块,便起到了这样的作用。
它会锁定初始几帧画面作为基准,固定全局坐标和尺度,如此一来,便解决了纯自回归模型容易出现的尺度模糊、坐标漂移等问题,为整个重建过程定好原点。
其次是位姿参考窗口(Pose-reference Window),用来记住“我身边有什么”。
因为光有起点是不够的,要想走得稳,还得看清脚下的路。
于是团队便在 LingBot-Map 里设置了位姿参考窗口,它只保留最近 k 帧的完整高维特征。
这部分记忆虽然是短期的,但信息极其丰富密集,这样就可以确保模型能够精准地捕捉局部的几何细节,让当前帧能够丝滑地与前几帧拼接在一起,让每一步都踩得极准。
最后就是轨迹记忆(Trajectory Memory),起到记住“我走过的路”的作用。
这也是 LingBot-Map 中非常关键的一个步骤。
对于那些既不是起点、也不在眼前,属于很久以前的中间历史画面,模型不再存储它们庞大具体的图像像素细节。
取而代之的是,它将这些历史帧的宏大信息,极致压缩成了区区 6 个极简的 Token(包含相机、锚点和寄存器 Token),并打上时间戳(位置编码)。
对比传统因果注意力,LingBot-Map 的单帧信息增长量直接降低 80 倍,哪怕处理万帧长视频,显存消耗也几乎恒定。

三大模块协同发力,便是 LingBot-Map 打破不可能三角的关键原因了。
那么这套打法效果又如何呢?
从论文中呈现的实验结果来看,LingBot-Map 已经在多项权威基准测试中,全面碾压其它流式模型,稳坐 SOTA 之位。
首先是长序列稳定性。
在 10000+ 帧的超长视频序列测试中,模型全程保持稳定重建质量,没有出现任何明显的轨迹漂移。要知道,同类纯自回归模型往往几百帧就开始扭曲,万帧稳定的表现,直接刷新了行业纪录。

其次是速度与精度双突破。
在 518×378 的主流分辨率下,推理速度达到 20FPS,比同类流式方法基线快了近一倍,完全满足机器人、自动驾驶的实时性需求。
在 Oxford Spires、ETH3D、Tanks & Temples 等权威数据集测试中,轨迹误差降低约 77%,3D 点云建模精度、全局一致性远超所有流式竞品,甚至比部分离线优化模型表现更优。

除此之外,模型运行显存仅需 13.28GB,普通消费级显卡即可流畅部署,彻底告别对高端专业显卡的依赖。
对比同类方案动辄 30GB+ 的显存需求,LingBot-Map 实现了“技术顶尖、落地亲民”,让流式 3D 重建具备了规模化商用的基础。
而且效率测试的数据更加直观。
对比全历史帧缓存方案,LingBot-Map 用 64 帧窗口设计,将推理速度从 3.12FPS 提升至 19.95FPS,显存从 36.06GB 压缩至 13.28GB,速度提升 6 倍、显存降低 63%,同时精度反而更高,印证了 GCA 记忆机制的优越性。

在看完 LingBot-Map 背后的技术和展现的效果之后,还有一个话题值得聊一聊:
LingBot-Map 的开源绝不是为了单点刷榜、秀肌肉。
若是大家长期关注蚂蚁灵波,就不难发现它在下一盘大棋。
仅仅在今年 1 月,蚂蚁灵波便已经陆续开源了多款模型:
从感知世界的LingBot-Depth,到理解物理规律的LingBot-World,再到控制身体的LingBot-VLA和全球首个具身世界模型LingBot-VA。
而今天 LingBot-Map 的开源,则补齐了“边走边记、理解并重建连续真实三维空间”的关键拼图。
这就意味着蚂蚁灵波正式构建了“感知 – 建模 – 模拟 – 控制”全链路具身智能技术栈,从看懂世界、建模世界,到理解世界、操控身体,形成了完整的技术闭环。
此举对全产业落地来说,亦是有着重要的价值。举三个例便一目了然了:
- 机器人:仓库巡检、家庭服务,机器人不再需要昂贵的激光雷达,单靠摄像头就能边走边建图,真正实现低成本、大规模部署。
- AR/VR:戴上眼镜,虚拟物体可以零延迟、不漂移地叠加在真实桌面上,虚实融合的体验将被拉满。
- 自动驾驶/无人机:城市级大场景的实时建模成为可能,为纯视觉的自动驾驶方案提供了更强大的时空理解能力。
因此,综上所述,LingBot-Map 的出现,可以说是机器理解真实物理世界迈出的关键一步。
与此同时,蚂蚁灵波的持续开源,也让我们清晰地看到,具身智能的规模化落地,正在以前所未有的速度向我们驶来。
Hugging Face:
ModelScope:
GitHub:
Paper:
Homepage:
从产业视角审视,此次开源行为释放了一个明确信号:具身智能的基础设施正在快速成熟。过去,高精度 3D 重建往往依附于昂贵的专用硬件或云端算力,而 LingBot-Map 证明了在消费级显卡上运行高效流式重建的可行性。这对于降低机器人开发门槛、加速算法迭代具有深远意义。
当然,技术落地仍面临挑战。例如在极端光照、动态障碍物较多的复杂环境下,模型的鲁棒性仍需进一步验证。此外,如何将重建地图与上层决策规划更高效地结合,也是后续工程化需要解决的重点。但不可否认,随着此类基础模型的不断涌现,具身智能从“实验室演示”走向“真实场景应用”的进程正在显著加快。