首个能在机器人上本地运行的具身Gemini来了

今天，Gemini 家族迎来了一位新成员：Gemini Robotics On-Device。

Gemini Robotics On-Device 是谷歌 DeepMind 推出的首个可以直接部署在机器人上的视觉-语言-动作（VLA）模型。该模型能够帮助机器人更快、更高效地适应新任务和环境，且无需持续的互联网连接。这一特点使其在延迟敏感型应用中非常有用，确保在连接中断或无连接的环境中依然保持稳健性。

从名字可以看出，Gemini Robotics On-Device 属于 Gemini Robotics 系列。该系列模型于今年三月发布，基础模型是具备多模态推理能力的 Gemini 2.0。Gemini Robotics On-Device 在此基础上进行了优化，展现出强大的通用灵活性和任务泛化能力。

该模型无需数据网络即可运行，对各种应用场景具有重要意义。这一点得到了广大网友的好评：

为了帮助开发者更好地利用 Gemini Robotics On-Device，谷歌还将发布 Gemini Robotics SDK。该 SDK 可用于轻松评估模型在其任务和环境中的表现。开发者还可以使用该 SDK 在 DeepMind 的 MuJoCo 物理模拟器中测试模型，并快速适应新领域，仅需 50 到 100 个演示即可。

值得一提的是，加州大学伯克利分校、谷歌 DeepMind、多伦多大学和剑桥大学联合推出的 MuJoCo Playground 刚刚获得了今年的机器人科学与系统会议（RSS 2025）杰出演示论文奖。

论文标题：Demonstrating MuJoCo Playground ；论文地址：https://www.roboticsproceedings.org/rss21/p020.pdf

模型功能和性能

Gemini Robotics On-Device 专为双臂机器人设计，其目标是最大限度地减少计算资源需求。该模型基于 Gemini Robotics 的任务泛化和灵活性能力，主要特点包括：

针对快速运行灵巧操作实验而设计。
可通过微调来提升性能，从而适应新任务。
经过优化，可在本地运行并实现低延迟推理。

DeepMind 进行了多项视觉、语义和行为泛化能力实验，结果显示 Gemini Robotics On-Device 在广泛的测试场景中表现出色。它能够遵循自然语言指令，完成高度灵巧的任务，如拉开袋子拉链或折叠衣服，所有这些操作都可以直接在机器人上运行完成。即使是本地运行的 On-Device 模式，其泛化性能也非常出色。

与之前的最佳本地端机器人模型相比，Gemini Robotics On-Device 的优势明显。在更具挑战性的分布外任务和复杂的多步骤指令方面，其表现也优于其他本地端方案。

如果开发者不需要严格要求在本地运行模型，也可以选择使用 Gemini Robotics 模型。更多详细信息可参阅技术报告：

https://arxiv.org/pdf/2503.20020

可适应新任务，可跨具身泛化

Gemini Robotics On-Device 是 DeepMind 推出的首个可供微调的 VLA 模型。许多任务可以开箱即用，但开发者也可以选择调整模型以获得更好的性能。该模型只需 50 到 100 个演示即可快速适应新任务，表现出强大的泛化能力。

DeepMind 在七项不同难度的灵巧操作任务上测试了该模型，包括拉开午餐盒拉链、画卡片和倒沙拉酱。下图展示了 Gemini Robotics On-Device 模型的任务适应性能，使用的示例少于 100 个。

此外，DeepMind 还研究了如何让 Gemini Robotics On-Device 适应不同的机器人。训练时使用的机器人是 ALOHA 机器人，但实验表明该模型可以进一步调整用于双臂 Franka FR3 机器人和 Apptronik 的 Apollo 人形机器人。在双臂机器人 Franka 上，该模型可以执行通用指令，包括处理未见过的物体和场景、完成灵巧任务，如折叠连衣裙，或执行工业皮带装配任务。Apollo 人形机器人虽然形态不同，但该模型也能很好地适应，遵循自然语言指令并操控不同的物体。

DeepMind 表示，Gemini Robotics On-Device 标志着在使强大的机器人模型更易于获得和适应方面迈出了一步。这预示着我们离真正的具身智能时代更近了一步。

Gemini 模型的其它更新

除了 Gemini Robotics On-Device，谷歌 DeepMind 还进行了一些可能不受免费用户欢迎的更新，如下调免费可用额度。博主 @ai_for_success 发现，Gemini 2.5 Flash 的免费可用额度从每日 500 次请求减半到每日 250 次，而 Gemini 2.0 Flash 的免费可用额度更是从 1500 次减少到 200 次。

https://x.com/ai_for_success/status/1937493142279971210

谷歌 AI Studio 和 Gemini API 产品负责人 Logan Kilpatrick 回应称，这是他们的策略：「随着新模型的推出，降低或取消上一代模型的免费套餐。」

另外，谷歌今天还宣布在谷歌 AI Studio 和 Gemini API 中推出了图像生成模型 Imagen 4 和 Imagen 4 Ultra。我们已经可以在谷歌 AI Studio 中免费试用这些模型。

这里我们简单测试了一下，让 Imagen 4 Ultra 生成了一张包含猫、机器人与外星人的彩色水墨画：

参考链接

https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/

https://x.com/GoogleAI/status/1937554536966619399

https://x.com/OfficialLoganK/status/1937620224758759750

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。