谷歌近期发布了Gemini 2.0的第一个变体——Gemini 2.0 Flash,标志着其在人工智能领域取得了重大进展。官方博客显示,Gemini 2.0 Flash在关键基准测试中的速度是1.5 Pro版本的两倍,这预示着AI技术性能的显著提升。
Gemini 2.0 Flash 的突破不仅体现在速度上,更在于其多模态输出能力。它能够生成融合文本、原生图像和可控多语言文本转语音(TTS)音频的综合输出,并能直接调用谷歌搜索、执行代码以及第三方自定义函数,显著提升了用户体验和效率。 这种多模态能力的提升,将为未来AI应用的丰富性和交互性打下坚实基础。
为了进一步增强动态交互,谷歌同步推出了Multimodal Live API。该API支持实时音频和视频流输入,并可同时运用多种工具,为开发者提供构建更复杂、更具沉浸感的应用提供了强有力的支撑。API的开放性也意味着更多创新的应用场景将被开发。
在AI Agent方面,谷歌也取得了显著进展。Project Astra的最新版本,一个具备“全视、全听、全记忆”功能的AI助手,引人注目。它能够记忆长达10分钟的视频内容,并根据用户对话和个人偏好提供个性化服务,支持多种语言和混合语言交谈,甚至能够理解口音和生僻词。 新增加的流媒体功能和原生音频理解使对话更加自然流畅,接近人类水平的交互体验不再遥不可及。 其进步体现了AI Agent在理解和响应复杂信息方面的显著提升。
另一个值得关注的AI Agent是Project Mariner。它能够完成多步骤的复杂任务。通过理解和推理浏览器屏幕上的各种信息(像素、文本、图像、表单等),它可以自动执行一系列操作,虽然目前仍依赖人工干预,但这展现了AI在浏览器自动化操作上的巨大潜力。在WebVoyager基准测试中,Project Mariner作为单一Agent取得了83.5%的最佳工作结果,证明了其技术实力。
谷歌还在持续改进AI编程Agent Jules。 Jules作为一个集成到GitHub工作流程中的实验性AI编程Agent,能够在开发者的指导下解决问题、制定计划并执行代码。这项技术的长期目标是打造一个能够在所有领域提供辅助的通用AI Agent,这将对软件开发效率产生深远的影响。

此外,谷歌还开发了游戏Agent,能够根据游戏画面推理游戏规则并提供实时建议。 通过与游戏开发商合作,谷歌正在探索这些Agent在各种游戏中解释规则和应对挑战的能力,这为游戏体验的提升和游戏AI研究提供了新的方向。
最后,谷歌宣布其最强AI芯片Trillium TPU全面上市。作为第六代TPU,它在训练性能、推理吞吐量和能效方面均有显著提升,是谷歌云AI超级计算机的核心组成部分。 Trillium TPU的先进架构,包括性能优化的硬件、开放的软件以及领先的机器学习框架的集成,为Gemini 2.0等大型模型的训练和推理提供了强大的算力支持,进一步巩固了谷歌在AI硬件领域的领先地位。