长久以来,尽管摄像头赋予了机器“视觉”,但如何让它们像人类一样理解这个动态世界——感知现在,洞察过去,并预测未来,一直是计算机视觉领域的终极难题。如今,.Google DeepMind. 这一重磅研究成果的发布,标志着AI视觉正式迈入了“四维全感官”时代。这便是

D4RT的问世,代表着机器视觉从“拼图模式”向“整体建模”的历史性跃迁。过去,要让AI从一张张平面的2D视频中重构一个三维动态世界,往往需要调用多个模型协同工作:有的负责计算深度,有的负责追踪动作,有的负责测量相机视角。这种方式不仅繁琐耗时,更使得AI的理解变得碎片化。D4RT则以一种极其优雅的“查询式”架构,将这些复杂的任务简化为一个核心问题:“在一段视频中,于某个特定的时间点,从某个特定的视角,某个像素究竟在三维空间中的何处?”

这种精巧的“靶向式”操作,带来了令人惊叹的效率提升。在性能测试中,其速度达到了过往技术基准的18到300倍。一段原本需要顶尖算力耗费十分钟才能分析完成的一分钟视频,D4RT如今只需五秒即可搞定。这意味着,AI首次具备了在真实场景中构建四维地图的潜力。

除了速度上的飞跃,D4RT在视觉理解的深度上也实现了自我突破:
-
全时空像素追踪:即便目标物体暂时移出摄像头视野或被遮挡,D4RT也能凭借其强大的内部世界模型,预测其在三维时空中的运动轨迹。
-
瞬时全局重构:它能够如同“冻结时间”般,直接生成整个场景的精确3D结构,无需冗余的迭代优化。
-
自适应镜头捕捉:通过自动对齐不同视角的快照,能够精确重建相机自身的运动路径。
从机器人灵活的避障,到AR眼镜低延迟的融合,乃至构建出真正具备物理常识的“通用人工智能”,D4RT描绘了一幅AI能够真正“感知”世界的未来图景。这已不再是简单的算法迭代,而是关乎如何让数字生命真正理解我们所处的那个流动的、四维的真实。

想深入了解D4RT在机器人导航或AR中的具体实现细节吗?或是希望看到更多.技术细节. 或 .应用场景. ?
详情:https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/