备受瞩目的第七届智源大会于6月6日在北京隆重开幕,这场被誉为人工智能领域的“学术春晚”的盛会,汇聚了来自全球的科技精英,共同探讨人工智能的最新发展趋势。大会上,北京智源人工智能研究院(以下简称“智源研究院”)重磅发布了“悟界”系列大模型,标志着中国在人工智能,特别是具身智能领域,迈出了坚实的一步。
作为中国在大模型研发领域的先行者,智源研究院此次发布的“悟界”系列涵盖了多个前沿方向,包括:原生多模态世界模型Emu3、跨本体具身大小脑协作框架RoboOS 2.0与全新智源具身大脑RoboBrain 2.0、全球首个脑科学多模态通用基础模型见微Brainμ,以及全原子微观生命模型OpenComplex2。这一系列创新成果,是智源研究院在成功推出“悟道”系列大模型后的又一次重要突破,也显示了其持续深耕人工智能核心技术的决心。
智源研究院院长王仲远在大会前夕就已指出,人工智能大模型技术仍有巨大的发展潜力。他认为,当前的人工智能在感知和理解物理世界,以及充分利用多模态数据方面还存在不足。因此,从“悟道”到“悟界”的跃迁,是顺应技术发展趋势的必然选择,也是人工智能加速从数字世界向物理世界演进的关键路径,最终指向物理通用人工智能(AGI)的实现。 从技术角度来看,这种转变反映了人工智能研究方向的深入,不再局限于纯粹的算法优化,而是更加注重与现实世界的交互和融合。
“悟道”侧重于对大语言模型系统化方法和路径的探索,而“悟界”则象征着对虚实世界边界的不断突破。王仲远强调,“悟界”系列大模型体现了智源研究院对人工智能技术从数字世界走向物理世界的深刻理解和前瞻性布局。这种认识的转变,预示着人工智能应用场景的扩展,从虚拟助手到智能机器人,人工智能正在逐步深入到各行各业,改变人类的生活和工作方式。

值得注意的是,王仲远强调,“具身智能”并非仅仅指人形机器人的智能。 “悟界”的设计使其能够适配多种机器人类别,包括轮式单臂、轮式双臂、人形双足、四足等。目前,智源研究院已经与20多家具身智能领域的领先企业建立了深度合作关系,共同推动具身智能技术的创新和应用。这种开放合作的态度,有利于整合行业资源,加速技术的迭代和商业化落地。
在与具身智能领域的创业者和学术专家的交流中,王仲远认为,具身智能的竞争格局尚未最终确定,仍处于激烈的“小组赛”阶段。他呼吁更多参与者加入,共同推动具身智能产业的发展,集思广益,碰撞出更多创新性的想法。同时,他也指出,当前人形机器人的硬件和模型技术尚未完全成熟,未来更可能在特定场景中率先实现落地, 例如工厂中承担固定、重复、枯燥甚至危险的任务。 这将是具身智能的第一波红利,也为行业的发展指明了方向。
自2018年11月成立以来,智源研究院一直致力于成为人工智能创新领域的领导者,挑战最基础和最关键的问题。如今,智源社区已连接超过19万名人工智能专业人士,并与近2000位海内外青年人工智能科学家紧密合作,共同推动人工智能的原始创新。 这种开放的社区生态,为人工智能领域的技术交流和创新提供了良好的平台。
成立六年来,智源研究院准确预判了人工智能大模型时代的到来,并于2020年组建了一支百余人的技术攻关团队,启动了“悟道”系列大模型的研发工作。 截至目前,智源研究院已经发布了悟道1.0、2.0、3.0等多个版本,构建了自主可控的全栈大模型技术开源体系,并成功孵化出多家国内头部大模型创业公司, 为中国人工智能产业的发展注入了新的活力。
在去年的智源大会上,一系列技术产品的发布推动了大模型从语言模型向多模态大模型延伸,并向世界模型方向演进,加速了从数字人工智能世界向物理人工智能世界的跨越。 王仲远表示,实践证明,智源研究院对技术演进路径的预判是正确的。这表明,智源研究院不仅关注技术本身,更注重对未来趋势的把握和前瞻性布局。
数据显示,智源开源模型的全球总下载量已经超过6.4亿次,比去年同期的4755万次增长了12.5倍。与此同时,人工智能系统软件栈FlagOS已经对11家国内外厂商的18款人工智能芯片实现了统一支持,开源了超过160个数据集,下载量接近113万次,开源项目代码下载量也超过了140万次。这些数据充分说明了智源研究院在开源生态建设方面的努力和成果,也体现了其对推动人工智能技术普及和发展的贡献。
王仲远也坦率地指出,尽管大模型技术取得了显著进展,但尚未达到发展的终点。目前的“百模大战”主要集中在大语言模型的竞争上,而大语言模型受到互联网数据使用的限制,基础模型性能的提升速度已经放缓。 为此,他提出了突破大语言模型性能提升瓶颈的三种方法:一是通过强化学习在后训练和推理上提升性能;二是数据合成,实现人工智能的自我学习和进步;三是充分利用多模态数据。 这三种方法,为未来人工智能技术的发展方向提供了新的思路。
为了推动人工智能与物理世界的交互,智源研究院通过多种研发方式,利用原生多模态世界模型让人工智能感知和理解物理世界。在宏观层面,大模型与硬件结合,通过具身智能的发展解决实际生产生活问题;在微观层面,基于生成式人工智能的蛋白质、脑机接口等应用,能够进一步揭示微观世界的本质,构建人工智能与物理世界交互的基础。 这种多层次、多维度的研发策略,有助于推动人工智能在各个领域实现更广泛的应用。
具体来说,原生多模态世界模型Emu3使大模型具备了理解和推理世界的能力。 脑科学多模态通用基础模型见微Brainμ则基于Emu3架构,引入了脑信号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。 多模态与脑科学模型未来有望成为人机交互具身场景下的基础模型。 这些技术的突破,为人工智能与人类的更深入互动提供了可能性。
王仲远表示,虽然多模态技术路线尚未完全确定,但文生图、文生视频等技术已经取得了显著进展,并在某些特定场景中实现了落地。 然而,这些技术能否广泛普及仍需一段时间。 这表明,虽然多模态技术前景广阔,但仍然需要进一步的研发和探索,才能实现大规模的应用。
RoboOS 2.0与RoboBrain 2.0在初代版本的基础上实现了性能的大幅提升,并新增了多机协作规划与物理常识驱动的空间推理能力。 而OpenComplex2则能在原子分辨率层面捕捉分子相互作用及平衡构象,探索微观构象波动与宏观生物功能的跨尺度关联。 这些技术的进步,为具身智能的应用提供了更强大的技术支撑。
王仲远认为,具身智能目前仍处于技术探索的早期阶段,类似于大模型在GPT-3之前的摸索期。 当前,具身智能面临多重挑战,包括核心技术路径不明确、数据采集困难以及软硬件协同复杂等问题。 他预计,未来5-10年,大小脑融合的模型可能会逐渐成熟。 这意味着,具身智能的发展需要长期投入和持续创新,才能最终实现成熟和应用。
在开源模型方面,智源研究院已经拥有多个通用向量模型,包括BGE系列等,这些模型已经被百度、腾讯、华为、阿里巴巴、微软、亚马逊等知名企业商业化集成。 智源还开源了轻量长视频理解模型Video-XL-2以及全能视觉生成模型OmniGen。 这些开源模型的发布,为人工智能社区提供了宝贵的资源,加速了技术的扩散和应用。
大会期间,智源研究院还与北京大学第一医院签署了战略合作协议,并与持有620亿港元的香港投资管理有限公司建立了战略合作框架,共同构建世界级跨区域合作的人工智能生态圈。 这一合作将加速人才、技术、资本的融合,构建人才循环体系,支持人工智能创新创业,加速人工智能产业的全球化发展。 这表明,智源研究院不仅注重自身的研发,更积极寻求与各方的合作,共同推动人工智能产业的繁荣。