生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

一家做视频的公司,造了个机器人通用大脑。这不是段子,是真事。

区别于传统的专用机器人大脑,这个“大脑”既具备世界模型的预测推演能力,又能输出行动指令,真正做到“知行合一”。

大脑模型名叫MotuBrain,4月中旬悄悄登顶两个国际benchmark,却无人知晓来历,让具身圈大佬们猜了三周。

刚刚,生数科技主动认领了。没错,是那个做了Vidu、让央视动漫用AI拍西游的公司。

两个国际benchmark,一个测试“能不能看懂物理世界”,一个考验“能不能真的动手干活”。就像一个人一边参加物理竞赛,一边考叉车实操证,4月中旬,MotuBrain两门都拿了全场最高分

成绩单亮出来,还是实打实的登顶:

  • 在WorldArena上,MotuBrain运动质量第一、动作平滑度第一;
  • 在RoboTwin2.0上,它也是唯一一个在随机环境下,平均分超过95的模型。

这是什么概念?过去几年,能把其中一个测试做到极致已属不易。同时登顶?之前还没人做到过。

但此刻,生数科技告诉你:一个MotuBrain模型就够了。

生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

视频公司跨界指挥机器人,听起来蛮有趣。实际内里也是大有乾坤:具身智能的未来需要World Action Model(世界动作模型),而后者必须建立在视频模型对物理世界的理解之上。一段汽车漂移的视频,模型要看懂车为什么拐弯、轮胎为什么冒烟、下一秒会往哪走。这也不难理解视频公司闯入具身世界背后的逻辑。

MotuBrain悄无声息地同时登顶WorldArenaRoboTwin2.0,不少具身大佬都被这个神秘模型勾起好奇心,疯狂打听到底是谁家做的。有媒体扒出X平台上倒是有个账号,但刚注册,简介空空。

“子弹”飞了快三周,4月29日,生数科技主动跑出来认领:是我。

回头来看,线索其实早就埋下了。2025年12月,生数科技正式开源通用基座世界模型Motus,这是其在物理世界智能方向的一次试水。四个月时间不到,生数又进化了。MotuBrain作为全面升级的商业模型版本,继承了Motus完整核心技术架构,并完成关键能力突破。

验证实力的第一站:WorldArena。这是业界公认的World Model能力测试场。它不看你模型生成的视频好不好看,而是看你的模型能不能真正理解物理世界:一个物体被推一下会朝哪个方向运动?两个物体碰撞后会发生什么?连续动作的轨迹是否平滑、是否符合真实物理规律?EWM Score是这个榜单的综合评分,Motion Quality、Flow Score、Motion Smoothness这些维度分别考察动作的真实性、连续性和平滑度。

生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

△数据统计截至4月21日

在这三个直接对应“动作质量”的维度上,MotuBrain全部拿下第一。这意味着它不是靠某个单项指标刷分,而是在物理规律的理解和模拟上做到了全面领先。

RoboTwin2.0则是Action Model的硬核考场。它给模型设置了50个不同的任务,覆盖抓取、放置、推、拉、旋转等多种操作类型,还分两种环境进行测试:一是Clean场景,标准实验室环境;二是Randomized场景,会引入随机的扰动,比如物体位置随机偏移,灯光颜色随机变化,甚至桌子角度都可能微调。这考验的是模型能不能泛化到没见过的条件。

MotuBrain在两个场景下,分别达到95.8和96.1,均排名第一。它也是该榜单上唯一一个在随机环境下,平均分超过95的模型。拆开50个具体任务看,MotuBrain九成任务超过90分,一半任务更是拿到了满分100分。这已经不是领先了,这叫断崖式领先。

生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

两个顶级榜单,一个测“理解世界”,一个测“在世界中行动”。

想要同时取得成绩,业内默认这是“统一场”级别的难题。因为两边的技术栈和评估方式完全不同,能把其中一个做到极致就已经是顶级水平。但MotuBrain双榜吊打,至少在benchmark层面验证了一件事:把预测世界和驱动行动统一在同一个模型里,这条路是走得通的。

从榜单成绩看,MotuBrain拥有更接近通用机器人大脑的能力特征,它不是单项任务的“偶然强”,而是跨任务、跨场景的泛化能力都强。一段真机演示足以直观印证。

从生数科技发布的Demo看,没有复杂的上层VLM加持,也没有预设动作脚本,却将MotuBrain的4个核心能力完整呈现,看完只剩震撼!

这段不足3分钟视频,用3台不同型号的仿人形机器人,演示了5种任务:插花、整理沙发、服务一场火锅局、调酒、整理洗漱台。没错,MotuBrain的第一个能力就是一脑多型,它不是为某一种机器人量身定制,而是面向多机器人本体设计的统一智能底座。

它在不同形态、不同自由度、不同传感器的机器人上都能跑,而且接入的机器人种类越多,数据和场景越丰富,模型表现越好。仅从Demo展示的这三台机器人身上,我们也能看到一个模型是怎么拿捏全场景任务的。

插花、整理沙发,别看在这几项任务里算“简单”的,恰恰是最考验长程任务建模能力的操作。我们能看到,机器人精准抓取三支花,分别稳稳插入花瓶后,顺势拿起浇水壶,对着花枝均匀喷洒清水,整个过程非常丝滑,没有停顿。

生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

也能看到它精准识别出散落的衣物和错位的靠枕,先将衣物逐一拾起、规整放入洗衣篮,再将歪歪扭扭的靠枕摆回原位。全程动作轻柔且高效,没有出现衣物掉落、靠枕摆放歪斜的情况。

生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

这就是MotuBrain一脑贯通能力的体现。不同于传统机器人仅能完成2-3个原子动作的Demo展示,MotuBrain的一个World Action Model可完成10个原子动作级别复杂长程任务

最让人眼前一亮的,当属服务一场火锅局。机器人被要求从锅中舀取一份丸子放入碗中,同时倒一杯果汁。这一次,它左右手同时“开工”,互不干扰、配合默契。一个小细节是,起初勺子放在锅里,机器人用左手握住勺柄,没有立刻捞取,而是先判断了一下漏勺中有没有物体,然后重新伸向锅中舀取丸子,盛入面前的碗中。

生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

别小瞧这个不起眼的动作,需要机器人「理解」勺子是空的,同时能自主「预测」并重新执行捞取动作。多数机器人是“看到什么就做什么”。而在这个取丸子场景里,如果换成传统指令式机器人,它只会按脚本执行“舀→放”的动作。一旦勺子初始是空的,它要么卡住,要么盲目重复,却不知道“为什么空”。但MotuBrain能做到:像人一样“察言观色”,握住勺柄的瞬间就通过视觉判断出“勺里没东西”,紧接着自主规划新路径,重新伸回锅中精准舀取丸子。

直到确认勺子里有食材,它再稳稳端起,送入碗中,全程行云流水,无需人工干预或重新下指令。理解世界、预测变化,并据此驱动更合理的行动,这就是MotuBrain的一脑预见能力。

不过此时,真机演示还未到高潮。

生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

调配饮料的任务,才是细节拉满。只见「硅基调酒师」右手拿起饮料,精准倒入盎司杯中定容,放下饮料瓶后,左手迅速拿起牛奶瓶,将牛奶缓缓注入中间的玻璃空杯,动作轻柔且精准,全程没有一滴洒漏。待牛奶倒完,右手再次拿起盎司杯,将里面的饮料缓缓倒入牛奶杯中,最后还不忘取一片薄荷叶,轻轻放在饮品表面做点缀。完成造型后,它还俏皮地了一下身边的塑料小黄鸭,仿佛在向围观者“报喜”:鸡尾酒做好啦!

一系列操作,展现了MotuBrain的一脑多能。这一能力让模型能够在多任务场景中保持稳定表现,不依赖单一任务训练。相比于传统做法,比如搬箱子用一个模型、开门用一个,叠衣服又一个……任务越多越臃肿。MotuBrain直接把大量不同类型任务混在一起学,从抓取到多步操作全扔进去。这样做的好处是,随着任务数量持续增加,任务之间的共享世界知识越多,MotuBrain的平均任务成功率也会同步提升。因为它学到的是“操作的本质”,不是肌肉记忆。

生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

这四个能力叠在一起,MotuBrain就有了为连续、智能、真实世界的行动而设计的机器人通用大脑。

为什么MotuBrain能让机器人有这样的干活能力?答案藏在底层技术设计里。过去一年,围绕World Model和Action Model,行业已逐步形成几条有代表性的技术路线:一是直接行动派,也就是训练一个VLA直接进行感知理解和执行。二是先看后动派,先训练一个视频预测模型用来想象未来,再把想象的结果作为决策依据。MotuBrain走的是第三条路线——边看边动派,也就是World Action Model。它把推演和行动融合在同一个模型里,没有先后顺序,决策的同时就在推演,推演的结果直接影响决策。

这三条路线没有绝对的对错,但World Action Model有两个关键优势:它不需要等待机器人“想象”后再行动,响应速度更快;同时因为推演和行动共享同一个表征空间,预测的偏差和执行的偏差不会相互放大。打个通俗的比方,人类司机开车,不是靠肌肉记忆去踩刹车。你看到前车刹车灯亮起的那一刹那,大脑已经在预测“0.5秒后我离前车还有多远”“现在踩刹车重了会不会追尾”“轻了会不会刹不住”。这个预测和决策是同时发生的,不是反复琢磨路况,再踩刹车。

生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

MotuBrain做的就是这件事。如果只用一个词形容它,那就是:为行动而生。传统AI模型更像是“观看者”或“分析者”,给它一张小猫的图片,它能认出来;给它一段视频,它能描述发生了什么。但这类模型从不真正“行动”,也不需要对自己的判断负责。MotuBrain要解决的,也不是“机器人会不会做一个动作”,而是“机器人能不能连续完成一个任务”。 而想要做到这点,要求机器人必须真正理解真实世界中的运动和物理变化。它的行动必须是连续的、能适应变化的、可以跨本体、跨任务的。

在WorldArena评测中,MotuBrain在三个与“运动”直接相关的维度上全部拿下第一:Motion Quality(动作真实,不是“摆姿势”)、Flow Score(连续动作丝滑衔接,理解轨迹变化)、Motion Smoothness(符合物理规律,无突兀跳变、急加速或抖动)。从技术层面看,MotuBrain的设计并不复杂,却很有章法。每一步都像在给机器人“换脑子、塑认知”。其技术根基源自Motus在去年12月确立的World Action Models。核心思路很简单:先给机器人的“视觉”(视频)和“动作”(机械运动)做一套“统一翻译系统”,彻底打通多模态信息壁垒。也就是用UniDiffuser实现Video和Action的统一建模与调度。

一旦语言统一了,机器人只需训练一次,就能自动学会五种本事: 举个最直观的例子,让机器人取桌边水杯。VLA模态:视觉识别目标+解析语言指令,完成感知到动作的初始触发;世界模型模态:观测水杯边缘位置与姿态,结合机器人动作输入,预判物体位移、滑落等环境动态演化趋势;视频生成模态:基于手部靠近水杯的前置帧,自主补全整个抓取动作的时序过程;逆动力学模态:由“水杯从桌面转移至手中”的结果,反向推演机械臂最优运动轨迹;视频动作联合预测模态:执行抓取的同时,实时预判水杯下一时刻位置,动态微调手部姿态与发力逻辑。这五种本事都来自同一套底层逻辑,不用分开训练。

生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

而且,相比传统VLA只能吃特定本体上的纯任务数据,Motus「不忌口」,能同时消化各种数据(纯视频、无标签数据、机器人运动轨迹)。它吃的数据越杂越多,机器人对真实世界的理解会越深,行动也就更靠谱。在此基础上,MotuBrain做了更实用的升级,解决了机器人落地的核心痛点:不挑相机、听懂人话、跨机器人通用、能做复杂任务。

生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

从左图可以看出,随着任务数量增加,Pi-0.5成功率持续下降,而MotuBrain成功率持续上升。这说明它学到了跨任务的通用世界知识,这是VLA不具有的能力。右图是MotuBrain在数据量上的Scaling Law曲线。相比其他模型更陡峭,说明其数据效率非常高,仅用少量数据就可以取得很好的结果。此外,任务数量的scaling law曲线比数据量更为陡峭,说明对于MotuBrain这种数据效率极高的模型来说,相比于增加数据量,增加任务的多样性对成功率的提升效果更为显著。

真机演示里,我们也能看出来,该模型已在多款仿人形机器人上验证过,大模型运行不卡顿,不用额外辅助工具,仅凭自身能力,就能高成功率完成长程任务,还能左右手同时做不同事。总结下来,MotuBrain真正厉害之处,不在于多复杂的技术堆砌,而在于用“统一建模”打通了机器人的“感知、理解、行动”,让机器人真正从“机械执行”,走向“智能决策”。

如果只看MotuBrain这一个点,可能会觉得生数科技是突然杀进了具身智能赛道。但如果把视线拉远,会发现这是一条早有预谋的暗线。今年4月,阿里领投,生数科技完成了近20亿元人民币的B轮融资。这不是一笔小钱,投资机构看中的不是“又一家做视频模型的公司”,而是一个更大的叙事:打通数字世界与物理世界的通用世界模型。

生数科技的布局是双轨并行。模型的底层是其全球首创的U-ViT架构。这个架构也是该公司整个战略的技术基座,它做的事情很底层,也很关键:统一处理视觉、听觉、触觉等多模态信息。

生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

不同类型的感知数据被塞进同一个模型框架里训练,模型逐渐建立起对世界的统一认知:什么是物体,什么是运动,什么是因果关系。就像人类婴儿的大脑,不是分别长出一个视觉皮层和一个运动皮层,而是两者协同发育、互相促进。在这个基座之上,生数科技兵分两路。一条通往数字世界,另一条路通往物理世界

生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

先看第一条路,生数科技走的是世界生成模型(WGM)路线,产品就是大家熟悉的视频大模型Vidu。Vidu的能力不只是在给定提示词后生成一段好看的视频。在生成视频的过程中,模型必须学会物理规律:水怎么流、光怎么反射、物体怎么碰撞。一个生成“水滴落下”视频的模型,如果它连重力加速度都不懂,生成的画面就会很假。所以,Vidu本质上是一个被训练来“理解并生成物理世界”的模型。

生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

△Vidu布局

它已经在商业化上证明了这一点:漫威《毒液3》的水墨风格宣传片,完全基于Vidu生成;AI漫剧《明日周一》10人团队45天产出50集,上线5天播放量破500万。而通往物理世界的路,MotuBrain正在铺。Vidu和MotuBrain,一个是数字空间的产出,一个是物理空间的执行,两套产品,同一条根

这套双轨结构有一个天然的护城河:绝大多数做机器人大脑的公司没有视频大模型的基础,数据来源主要是仿真环境和真实机器人采集的数据,成本高、规模小。而绝大多数做视频模型的公司没有机器人动作数据的积累,输出可以很美,但无法驱动实体。生数科技是极少数同时拥有这两块拼图的玩家

生数科技认领神秘登顶模型,AI视频公司发布工业级Demo,跨本体完成复杂长程任务

也因此,这些技术积累会直接反映在前述MotuBrain的成绩单上。当然,光有数据还不够,模型层面的突破还需要场景验证。目前,生数科技已经与无界动力、深朴智能、星尘智能达成战略合作。这些合作伙伴有的主攻工业制造与商业服务场景,有些瞄准类家庭商业场景与合作住宿场景。合作内容不只是“把MotuBrain装上去试试”,而是技术层面的联合优化、数据层面的双向飞轮、应用层面的规模化落地。除了上述商业伙伴,更多战略合作已在路上。

具身智能行业的共识变了,大家已经不在意谁造出更灵巧的机器人,更关心谁先做出真正通用的机器人大脑。资本正在密集涌向做“大脑”的公司,这就是最好的说明。他们争夺的不是一两个爆款应用,而是下一代的操作系统入口,甚至更底层——通用物理世界的入口。这个节骨眼上,刚完成近20亿元B轮融资的生数科技,带着双榜第一的MotuBrain出现了。当别人还在纠结该走World Model还是VLA时,生数科技用同一个模型同时做到了行业第一。这至少说明了一件事:通用物理智能这条路,有人已经开始跑通了

不过,冷静下来看,MotuBrain仍面临一些现实门槛:当前Benchmark虽然亮眼,但真实环境的复杂程度远高于实验室的Randomized场景——比如动态干扰、非结构化操作、长时间运行下的鲁棒性等问题依然需要更多验证。此外,多型号机器人的统一部署对算力和校准提出更高要求,且合作伙伴的落地案例尚未大规模公开,距离“走进千家万户”还有一段路。但不可否认,生数科技走出的这条“视频理解→世界模型→行动执行”的路径,为具身智能提供了一种别开生面的解法。如果说视频是理解世界的起点,那么让AI真正走进物理世界才是所有玩家的终点。Vidu画出了一个虚拟世界,而MotuBrain正在奔向后者。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
AI快讯网编辑-青青AI快讯网编辑-青青
上一篇 14小时前
下一篇 13小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!