戴盟机器人获亿元融资,阿里通义多模态专家加盟攻关物理世界模型

每天一睁眼,都有滚烫的热钱砸向具身智能领域。今天也不例外。

戴盟机器人(Daimon Robotics)新近完成亿元A轮融资,本轮融资由汇川产投和中国电信联合投资。这笔融资值得留意,不单是具身智能又拿到了投资,关键在于技术方向的取舍——在视觉、多模态、VLA、世界模型等被行业轮番热议之时,戴盟落脚在了触觉这条路上

与此同时,阿里通义实验室前多模态研究专家原玮浩加入戴盟,担任首席AI科学家

戴盟机器人获亿元融资,阿里通义多模态专家加盟攻关物理世界模型

原玮浩博士毕业于香港科技大学,研究方向覆盖具身人工智能(VLA/WAM/强化学习/触觉智能/人形运动)和三维视觉(重建/生成/世界模型),拥有将多模态大模型、世界模型迁移至机器人物理操作的前沿经验。他在NeurIPS、ICLR、CVPR、ICRA等人工智能顶会上发表论文40余篇,其中多篇Oral论文,其主导的NeWCRFs算法曾登顶国际权威榜单KITTI。

戴盟方面表明,本轮融资到账后主要投向三件事:物理世界模型研发;含物理交互信息的超大规模数据集;真实场景下的数据飞轮和商业闭环。首席AI科学家原玮浩认为,这三件事本质上是一件事的三个面——“数据是燃料,物理世界模型是引擎,飞轮决定引擎能不能持续跑起来”。

其中,物理世界模型会是戴盟后续布局的重中之重,团队招人、加码算力、打磨模型,所有规划全围着这件事落地。戴盟对物理世界模型有着自成一派的定义:“以多模态接触状态为条件来预测未来”。不同于常规模型只预判画面帧变化,它关注的不只是下一帧画面会变成什么样,还包括下一刻的触觉信号、接触状态,以及这次操作会不会失败、为什么失败、该怎么修。原玮浩总结道:“简单来说,视频世界模型在预测画面,我们在预测物理交互。”

戴盟机器人获亿元融资,阿里通义多模态专家加盟攻关物理世界模型

为了实现这件事,戴盟把物理接触拆成两层。第一层是认知层:让触觉和视觉、语言、几何等模态在同一表征空间里互相映射。比如桌上同时放着一颗葡萄和一颗同样大小的玻璃珠,人不需要真正抓起来,就知道两者不能用同一套策略——葡萄要轻,用指腹包裹;玻璃珠可以更用力,用指尖捏起。这背后是视觉直接映射成了触觉预判。

戴盟机器人获亿元融资,阿里通义多模态专家加盟攻关物理世界模型

第二层是执行层,有两套机制同时运行:一套是百赫兹级的高频触觉伺服,类似脊髓反射,不经过上层推理,物体刚开始产生滑移趋势时补偿动作已发出,新的视觉帧还未产生;另一套是物理世界推理,模型持续预测未来接触状态,在失误发生前给出修正策略。这两套机制分别对应毫秒级反应和接触状态前瞻,协同工作。戴盟方介绍,这是他们相比纯视觉操作模型最重要的结构差异。

“触觉”是戴盟身上一直以来的鲜明标签。戴盟表示,不能只把触觉看作一个辅助传感器,它同时贯穿了机器人操作的感知、决策、控制三层,是Physical AI理解真实世界的关键入口。原玮浩解释道,视觉和语言都是真实物理世界的低维映射,要让机器人真正理解物理世界,必须引入触觉这样的原生物理模态。物理世界里很多决定成败的信息只有接触之后才会出现——物体是软是硬,表面是光滑还是粗糙,抓握时正压力和切向力分别是多少,这些都很难单靠看稳定推出来。

戴盟机器人获亿元融资,阿里通义多模态专家加盟攻关物理世界模型

“只有加入触觉模态,才能够让语言和视觉真正具有物理意义,才能够让模型真正理解并操作物理世界。”原玮浩表示。

从行业角度看,这也是当前具身智能路线分化的一个缩影。一部分公司继续提高视觉理解和动作规划能力,一部分强化本体、灵巧手和执行器,另一部分开始盯上真实接触中的数据缺口。戴盟试图补齐机器人和物理世界接触时缺失的那部分信息,属于后者。但触觉路线也有自己的硬成本。

最令人头大的就是数据问题。目前主要有两个难点:第一是规模化采集。触觉数据并非单纯越多越好,更关键的是够不全——让机器人在1000种不同材质、不同形状、不同接触方式的物体上各碰10次,往往比在同一个杯子上反复抓1万次更有价值,因为模型要学到的是物理规律而非单一物体的操作记忆。第二是多模态对齐。机器人手指碰到物体的那一刻,触觉传感器要记录压力分布和纹理信息,摄像头记录画面,控制系统记录关节角度和力矩,这些数据必须在毫秒级时间尺度上严格同步,否则模型学到的因果关系就可能是错的。

戴盟机器人获亿元融资,阿里通义多模态专家加盟攻关物理世界模型

为解决这些问题,戴盟搭建了外发式数据采集网络,将标准化采集模组部署到产业合作方场景中,让真实操作场景成为数据来源。今年4月,戴盟联合Google DeepMind等全球数十家机构发布Daimon-Infinity,号称全球规模最大的含触觉全模态具身数据集。此外,原玮浩表示,虽然今天触觉Scaling Law的曲线还没人真正画出来,但戴盟相信它是存在的。之所以还没涌现,很大程度上是因为行业还没有形成公认的评估标准。为此,戴盟与银河通用联合发布RobOmni,这是行业首个同时支持真实数据训练和仿真训练的含触觉全模态物理交互评测基准。先有公认的标尺,谈Scaling才有意义。

从更宏观视角看,戴盟的触觉路线选择其实是对“具身智能缺乏物理交互反馈”这一核心瓶颈的正面回应。当大部分玩家还在优化视觉语言模型与机械臂的粗粒度映射时,戴盟试图从触觉端构建闭环物理理解能力——这意味着更低的错误容忍度和更细粒度的操作精度,但同时也意味着更高的数据门槛和更长的模型收敛周期。这一路线能否跑通,将直接影响具身智能从“看得见”到“摸得清”的跨越节奏。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
Rain科技Rain科技
上一篇 15小时前
下一篇 14小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!