复旦团队发布机器人原生世界动作模型，首创时空一体架构

通用人工智能的竞争焦点，正从虚拟世界的算法博弈，加速转移至真实物理空间的自主智能。具身智能与机器人大脑，已成为当前技术赛道中最具挑战性、也最决定下一代产业格局的核心高地。

行业主流方案——包括VLA视觉语言动作模型、通用世界模型、视频推演等——普遍面临空间感知精度不足、物理逻辑约束缺失、长时序规划能力薄弱、真机落地鲁棒性差等关键瓶颈。这些局限使得机器人难以真正实现自主感知、推理、决策与稳定交互，物理AI的产业化进程亟待底层技术突破。

在这一关键节点，由复旦大学深度学习实验室孵化、深耕世界动作模型底层技术五年的科创企业眸深智能，正式发布STI-WM时空一体世界动作模型（Spatiotemporally Integrated World Model）。该模型定位为专为机器人原生打造的通用具身大脑，通过时空一体化建模、物理一致性约束、端到端原生融合等核心技术，试图打破传统模型的架构桎梏，为物理世界AGI落地提供一条新的技术路径。

眸深智能的技术根基，源于长期积累的学术研究与全栈工程能力。核心团队由复旦大学未来信息创新学院教授、深度学习实验室主任陈涛领军科研底层，原英特尔中国首席科学家张益民博士与来自英伟达的技术负责人主导工程化落地，95后复旦连续创业者穆泽林统筹商业化布局，形成业界称为“复旦铁三角”的核心阵容。

团队超九成核心研发人员来自复旦大学，汇聚百余名校硕博人才。自2021年行业风口尚未形成时，便前瞻性地布局世界模型、三维感知、时序动作生成三大底层技术，持续进行深度攻关。

多年来，团队斩获多项全球顶级赛事冠军与学术荣誉：推出全球首个人形动作生成大模型MotionGPT、三维世界模型HL3DWM；拿下ICCV2023全球三维目标识别冠军、CVPR2024三维密集语义推理冠军，并斩获IJCAI2025杰出论文奖——这是近五年国内唯一获此奖项的具身智能团队。团队技术负责人亦入选2025年中国具身智能新秀EAI榜单20强。其原创技术成果被英伟达DAIR等国际顶尖实验室引用，学术创新与工程落地能力稳居全球第一梯队。

当前行业多数方案仍采用通用世界模型+VLA拼接的改良模式，模态割裂、信息损耗严重，缺乏真实物理世界约束，只能实现“视觉合理性”，无法满足机器人真机落地的实际需求。眸深智能从AGI本质出发，率先确立世界动作模型原生融合路线：机器人与物理世界的一切交互，最终都落地为动作，唯有精准理解时空演化规律、遵守物理逻辑、实现端到端原生映射，才能真正解决机器人泛化性差、落地难的行业顽疾。

早在2022年，团队便提出全球首个影空间语言-动作端到端映射MLD模型，成果发表于CVPR 2023，该核心思路在2025年5月被英伟达DAIR实验室核心工作引用验证。历经五年迭代，团队已完成7代动作模型技术更新，在多模态端到端融合、高精度动作生成、时序逻辑推演领域积累深厚，动作精度、推理速度、任务泛化性持续领跑行业。

不同于行业依托大语言模型二次改造的适配性方案，STI-WM时空一体世界动作模型是完全面向机器人长时序规划、在线闭环控制、真实物理交互打造的原生具身智能框架，实现空间结构、时间演化、物理一致性、执行鲁棒性四维一体化统一。模型可兼容RGB图像、深度点云、机器人本体多模态感知输入，将复杂环境信息统一编码为紧凑高效的时空潜在世界状态，上层支撑百秒级长时程任务推演与全局轨迹规划，下层输出精准可控的精细化动作片段。同时依托实时环境观测动态纠偏、在线重规划，构建出“理解世界—推演未来—规划动作—执行纠错”的完整物理智能闭环。

相较于Dreamer系列偏重环境预测、忽视真机控制的通用世界模型，LWM、PWM等时空割裂的抽象动作模型，以及仅追求视觉逼真、无视物理可行性的视频生成模型，STI‑WM跳出纯视觉推演误区，以三维几何约束、动力学校验、真机闭环执行为核心，彻底解决传统模型信息失真、泛化薄弱、落地困难的核心痛点，让机器人真正做到看懂三维空间、遵守物理规则、自主规划任务、稳定闭环执行。

△眸深STI-WM1.0时空一体世界动作模型架构

依托五年全链路自研积淀，STI‑WM构建起行业难以复刻的技术优势：

时空一体化原生建模：空间结构与时间动态实时耦合，消除多模块拼接的信息损耗，大幅提升推理效率与决策精准度；
原生三维感知能力：基于点云直接还原真实物理空间，彻底规避2D视觉深度缺失、空间误判的固有缺陷；
内置物理一致性引擎：融合碰撞检测、动力学约束，从底层杜绝不合理动作与环境崩坏，保障真机执行安全稳定；
长时程高阶规划：突破传统短片段动作局限，支持百秒级连续复杂任务自主推演，适配真实场景复杂作业需求；
端侧轻量化部署：自研模型压缩、量化蒸馏技术，实现百亿级大模型低成本落地机器人端侧芯片，大幅降低产业化算力门槛；
小样本强泛化能力：依托虚拟世界大规模预训练+少量真机微调，高效适配陌生场景与长尾任务，大幅降低数据依赖。

△眸深“一脑多形”跨本体通用大脑

凭借底层架构原创创新、全栈自研技术壁垒、可落地的商业化能力，眸深智能迎来高速发展期，半年内完成5轮融资，3亿元Pre-A轮融资获5倍超额认购，获得国家级投资平台、头部产业资本、券商机构的高度认可。商业化落地同步驶入快车道，公司已与宇树科技、禾川科技、颐家养老等行业头部企业达成深度合作，技术落地覆盖工业制造、居家康养、商业服务等多元真实场景。目前，眸深智能已与近十家上市公司达成战略合作，其中包含五家以上千亿级产业龙头，未来三年预计可锁定10亿元订单支撑，技术产业化速度远超行业平均水平。

△眸深智能与居家养老头部企业颐家战略合作

从行业视角来看，AGI竞争正式进入物理智能新时代，以世界动作模型为核心的原生具身大脑，正逐步成为通用机器人的核心底座。未来，眸深智能能否持续迭代STI‑WM模型体系，全面赋能人形机器人、四足机器人、工业机械臂、服务机器人等全品类硬件，将直接影响通用具身智能规模化落地的节奏。而中国在物理AI领域的原始创新能力，也有望通过这类底层技术突破，在全新赛道实现全球领跑。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

复旦团队发布机器人原生世界动作模型，首创时空一体架构

相关推荐

发表回复