人工智能领域的领头羊谷歌DeepMind近日发布了两款针对现实世界任务设计的全新AI模型,标志着其在机器人智能化方向上又迈出了坚实的一步。这两款模型旨在提升机器人在实际场景中的功能性和适应性,有望为未来的机器人应用开辟更广阔的空间。
其中,引人瞩目的是名为Gemini Robotics的模型。该模型基于DeepMind最新旗舰AI——Gemini 2.0构建,具备强大的视觉语言行动能力,使得机器人能够在无需专门训练的情况下理解和应对各种全新的、未知的环境情境。DeepMind机器人部门高级总监Carolina Parada指出,Gemini Robotics通过整合Gemini的多模态世界理解能力,并创新性地加入了物理行动的新模态,成功地将AI能力拓展到了现实世界。

Gemini Robotics在构建高效机器人所需的三大核心要素——通用性、互动性和灵活性方面取得了显著的突破。它不仅能够灵活自如地应对各种前所未见的现实情境,还在与人类和周围环境的互动中表现出更加卓越的性能。更为令人印象深刻的是,Gemini Robotics甚至能够执行诸如折纸、拧开瓶盖等需要精细控制的物理操作,这表明其在感知、规划和执行方面的能力已经达到了相当高的水平。客观来讲,这种程度的精细化操作能力,对于未来机器人进入家庭服务、医疗辅助等领域具有重要的意义。
另一款名为Gemini Robotics-ER(具象推理)的新模型,被DeepMind描述为一种能够“理解复杂且动态世界”的先进视觉语言模型。Parada进一步阐释道,在执行诸如“打包便当盒”等需要逻辑推理的任务时,机器人必须综合考虑桌面上各种物品的位置、形状以及操作的先后顺序。Gemini Robotics-ER的设计初衷正是为了解决此类复杂的推理任务。通过这个模型,机器人专家可以将Gemini Robotics-ER与现有的低级控制系统进行无缝对接,从而解锁更多由该模型驱动的全新功能。这为机器人应用开发提供了更大的灵活性和可定制性。
在安全性方面,DeepMind同样给予了高度重视。研究员Vikas Sindhwani透露,公司正在积极开发一种“分层安全策略”,并且已经开始训练Gemini Robotics-ER模型,使其能够评估在特定情境下某个动作的潜在安全性。同时,DeepMind还发布了新的基准和框架,旨在推动整个AI领域在安全研究方面的进展。早在去年,DeepMind就推出了受到科幻作家艾萨克·阿西莫夫启发的“机器人宪法”,作为机器人行为规范的指导原则。这些举措表明,DeepMind在追求技术突破的同时,也始终将伦理和社会责任放在重要位置。
为了加速技术的落地和应用,DeepMind积极寻求外部合作。目前,DeepMind已经与Apptronik公司携手,致力于共同“打造下一代人形机器人”。此外,DeepMind还将Gemini Robotics-ER模型开放给包括Agile Robots、Agility Robotics、波士顿动力和Enchanted Tools在内的多家“受信任的测试者”。Parada表示:“我们专注于打造能够理解物理世界并在其中行动的智能,并且非常期待将这项前沿技术应用于更广泛的领域和不同的应用场景。” 这种开放合作的态度,有助于推动整个机器人产业的快速发展和创新。