机器人练成宁次「白眼」：无限帧实时 3D 重建世界

在具身智能迅猛发展的当下，视觉感知能力的演进速度尤为引人注目。长期以来，机器人如何像人类一样“边走边看、边看边建图”，始终是制约其走向大规模落地的核心技术瓶颈之一。传统的 3D 重建方案往往受限于算力与显存，难以在端侧设备上实现长序列的稳定运行。

近期，这一领域迎来了新的突破。蚂蚁灵波团队开源了一款名为 LingBot-Map 的基础模型，主打纯自回归的流式 3D 重建。从行业观察的角度来看，这不仅是一次技术指标的刷新，更是对具身智能“感知 – 决策”闭环中关键一环的有力补充。以下是对该模型技术细节及产业影响的深度解析。

具身圈开源了个 SOTA

技术观察员发自前沿实验室

深度科技观察 | 公众号 AI Insight

刚刚，机器人的视觉感知能力，似乎又跃迁到了一个新的层级。

原因在于，一款新模型已经成功实现了无尽流处理：观看∞帧视频的同时，能够稳定地进行实时 3D 重建！

不妨先来直观感受一下这种体验：

机器人练成宁次「白眼」：无限帧实时 3D 重建世界

视频地址：

或许会有读者产生疑问：这项技术的实际价值何在？

通俗来讲，若将该模型部署于扫地机器人，它便能一边清洁一边构建家庭的 3D 结构图谱；若应用于自动驾驶领域，则意味着车辆能在行驶过程中实时厘清路面状况。

这种能力，颇有些类似于火影忍者中宁次的白眼。

（注：白眼具备 360°无死角透视及极远洞察力；对应此模型的全方位空间感知与长序列细节不丢失特性。）

机器人练成宁次「白眼」：无限帧实时 3D 重建世界

△图源由 AI 生成

这便是蚂蚁灵波最新开源的LingBot-Map，一个专为纯自回归流式 3D 重建打造的基础模型。

机器人练成宁次「白眼」：无限帧实时 3D 重建世界

与以往的具身智能视觉 3D 重建方案不同，此次 LingBot-Map 实现了快、准、狠的突破——

它成功打破了“既要实时性、又要记忆路、还要省显存”的不可能三角。

在深入探讨“流式 3D 重建为何困难”之前，有必要厘清两个概念：普通 3D 重建与流式 3D 重建。

这两者本质上属于完全不同的技术维度。

首先是传统离线 3D 重建（Offline）。

其本质可微妙地形容为“事后诸葛亮”，因为必须先拍摄完整视频、存储所有帧画面，再集中算力进行全局建模。

这种做法的缺点显而易见：速度慢、消耗显存大、无法实时交互。应用场景多局限于影视建模、数字孪生等静态场景，难以适用于需要实时决策的机器人或自动驾驶系统。

而流式 3D 重建（Online）则截然不同，它能真正满足具身智能的核心刚需：

来一帧算一帧，边拍边建模、边感知边决策，与人类边走边认路的视觉逻辑高度契合。

然而看似简单，实施过程中却有三座大山横亘在业界面前。

机器人练成宁次「白眼」：无限帧实时 3D 重建世界

△图源由 AI 生成

第一，记忆过多导致显存爆炸。

若模型强制存储所有历史帧，几千帧过后显存即将满载，消费级显卡无法运行，工业设备也难以支撑长时作业。

第二，记忆过少导致信息遗忘。

若仅缓存最近几帧，模型会出现灾难性遗忘，长时间运行后轨迹严重漂移、重建场景扭曲变形，犹如人行走久之却忘了身处何地。

第三，精度与速度难以兼得。

要么建模精准但推理卡顿，要么实时性足够但画面模糊，始终难以找到平衡点。

更为关键的是，此前绝大多数流式方案，要么依赖测试时优化，要么利用未来帧信息做全局校准，亦或加入人工设计的关键帧规则，并非端到端的纯推理。

而 LingBot-Map 选择了一条更为艰难的纯自回归路径：严格遵循因果律，仅依赖历史帧信息推理当前帧，无后处理、无未来帧依赖、无人工优化规则，所有能力全靠模型端到端学习。

正因有了纯自回归的约束，这相当于让蒙眼者仅凭过往记忆走迷宫，既要求走得快、又要记准路、还不能多耗脑力……

难，确实很难。

但蚂蚁灵波这一次，确实啃下了这块硬骨头。

LingBot-Map 背后技术的灵感，源于人类。

就好比我们在大城市逛街却能做到不迷路，并非因为大脑像录像机一样全程“录制”，关键在于大脑执行的是选择性记忆操作。

说白了，就是只记住有效、关键的帧。

LingBot-Map 的核心，正是完美复刻了这种机制，命名为几何上下文注意力（Geometric Context Attention，GCA）。

具体而言，LingBot-Map 通过 GCA，对记忆进行了非常精妙的分层结构化管理。

首先是锚点（Anchor）， its role is to let the robot remember“我从哪来”。

任何 3D 重建都需要绝对的坐标系和尺度基准，好比人类进入陌生房间，会下意识记住门口位置作为参照系，防止迷路。

LingBot-Map 的锚点模块，便起到了这样的作用。

它会锁定初始几帧画面作为基准，固定全局坐标和尺度，如此一来，便解决了纯自回归模型容易出现的尺度模糊、坐标漂移等问题，为整个重建过程定好原点。

其次是位姿参考窗口（Pose-reference Window），用来记住“我身边有什么”。

因为光有起点是不够的，要想走得稳，还得看清脚下的路。

于是团队便在 LingBot-Map 里设置了位姿参考窗口，它只保留最近 k 帧的完整高维特征。

这部分记忆虽然是短期的，但信息极其丰富密集，这样就可以确保模型能够精准地捕捉局部的几何细节，让当前帧能够丝滑地与前几帧拼接在一起，让每一步都踩得极准。

最后就是轨迹记忆（Trajectory Memory），起到记住“我走过的路”的作用。

这也是 LingBot-Map 中非常关键的一个步骤。

对于那些既不是起点、也不在眼前，属于很久以前的中间历史画面，模型不再存储它们庞大具体的图像像素细节。

取而代之的是，它将这些历史帧的宏大信息，极致压缩成了区区 6 个极简的 Token（包含相机、锚点和寄存器 Token），并打上时间戳（位置编码）。

对比传统因果注意力，LingBot-Map 的单帧信息增长量直接降低 80 倍，哪怕处理万帧长视频，显存消耗也几乎恒定。

机器人练成宁次「白眼」：无限帧实时 3D 重建世界

三大模块协同发力，便是 LingBot-Map 打破不可能三角的关键原因了。

那么这套打法效果又如何呢？

从论文中呈现的实验结果来看，LingBot-Map 已经在多项权威基准测试中，全面碾压其它流式模型，稳坐 SOTA 之位。

首先是长序列稳定性。

在 10000+ 帧的超长视频序列测试中，模型全程保持稳定重建质量，没有出现任何明显的轨迹漂移。要知道，同类纯自回归模型往往几百帧就开始扭曲，万帧稳定的表现，直接刷新了行业纪录。

机器人练成宁次「白眼」：无限帧实时 3D 重建世界

其次是速度与精度双突破。

在 518×378 的主流分辨率下，推理速度达到 20FPS，比同类流式方法基线快了近一倍，完全满足机器人、自动驾驶的实时性需求。

在 Oxford Spires、ETH3D、Tanks & Temples 等权威数据集测试中，轨迹误差降低约 77%，3D 点云建模精度、全局一致性远超所有流式竞品，甚至比部分离线优化模型表现更优。

机器人练成宁次「白眼」：无限帧实时 3D 重建世界

除此之外，模型运行显存仅需 13.28GB，普通消费级显卡即可流畅部署，彻底告别对高端专业显卡的依赖。

对比同类方案动辄 30GB+ 的显存需求，LingBot-Map 实现了“技术顶尖、落地亲民”，让流式 3D 重建具备了规模化商用的基础。

而且效率测试的数据更加直观。

对比全历史帧缓存方案，LingBot-Map 用 64 帧窗口设计，将推理速度从 3.12FPS 提升至 19.95FPS，显存从 36.06GB 压缩至 13.28GB，速度提升 6 倍、显存降低 63%，同时精度反而更高，印证了 GCA 记忆机制的优越性。

机器人练成宁次「白眼」：无限帧实时 3D 重建世界

在看完 LingBot-Map 背后的技术和展现的效果之后，还有一个话题值得聊一聊：

LingBot-Map 的开源绝不是为了单点刷榜、秀肌肉。

若是大家长期关注蚂蚁灵波，就不难发现它在下一盘大棋。

仅仅在今年 1 月，蚂蚁灵波便已经陆续开源了多款模型：

从感知世界的LingBot-Depth，到理解物理规律的LingBot-World，再到控制身体的LingBot-VLA和全球首个具身世界模型LingBot-VA。

而今天 LingBot-Map 的开源，则补齐了“边走边记、理解并重建连续真实三维空间”的关键拼图。

这就意味着蚂蚁灵波正式构建了“感知 – 建模 – 模拟 – 控制”全链路具身智能技术栈，从看懂世界、建模世界，到理解世界、操控身体，形成了完整的技术闭环。

此举对全产业落地来说，亦是有着重要的价值。举三个例便一目了然了：

机器人：仓库巡检、家庭服务，机器人不再需要昂贵的激光雷达，单靠摄像头就能边走边建图，真正实现低成本、大规模部署。
AR/VR：戴上眼镜，虚拟物体可以零延迟、不漂移地叠加在真实桌面上，虚实融合的体验将被拉满。
自动驾驶/无人机：城市级大场景的实时建模成为可能，为纯视觉的自动驾驶方案提供了更强大的时空理解能力。

因此，综上所述，LingBot-Map 的出现，可以说是机器理解真实物理世界迈出的关键一步。

与此同时，蚂蚁灵波的持续开源，也让我们清晰地看到，具身智能的规模化落地，正在以前所未有的速度向我们驶来。

Hugging Face：

ModelScope：

GitHub：

Paper：

Homepage：

从产业视角审视，此次开源行为释放了一个明确信号：具身智能的基础设施正在快速成熟。过去，高精度 3D 重建往往依附于昂贵的专用硬件或云端算力，而 LingBot-Map 证明了在消费级显卡上运行高效流式重建的可行性。这对于降低机器人开发门槛、加速算法迭代具有深远意义。

当然，技术落地仍面临挑战。例如在极端光照、动态障碍物较多的复杂环境下，模型的鲁棒性仍需进一步验证。此外，如何将重建地图与上层决策规划更高效地结合，也是后续工程化需要解决的重点。但不可否认，随着此类基础模型的不断涌现，具身智能从“实验室演示”走向“真实场景应用”的进程正在显著加快。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

机器人练成宁次「白眼」：无限帧实时 3D 重建世界

相关推荐

发表回复