谷歌正将其人工智能战略推向新的高度。谷歌发言人亚历克斯·约瑟夫通过电子邮件正式确认,Gemini Live平台迎来了一项具有里程碑意义的AI功能升级。
这项升级的核心在于为Gemini赋予了“视觉”能力。这意味着Gemini现在能够直接分析用户设备屏幕(包括手机摄像头)所呈现的实时画面,并即时理解并响应用户提出的问题。与传统的文本或语音交互相比,这种基于视觉信息的交互方式无疑更加直观和高效。
事实上,这项功能的推出并非横空出世,而是谷歌长期深耕AI领域的必然结果。早在近一年前,谷歌就向公众展示了“阿斯特拉计划(Project Astra)”,这项计划旨在打造能够感知和理解现实世界的AI助手。而此次Gemini Live的视觉功能,正是“阿斯特拉计划”多年研发的结晶。
有迹象表明,部分小米手机用户已经率先体验了这项新功能,并且在社交媒体上分享了Gemini在屏幕阅读方面的强大能力。这进一步验证了Gemini的多模态能力,即能够同时处理文本、图像、音频、视频和代码等多种类型的数据。Gemini作为Google DeepMind于2023年12月6日发布的人工智能模型,其强大的功能性和灵活性使其成为谷歌AI战略的核心支柱。

值得关注的是,谷歌计划在未来几个月逐步引导更多用户升级至Gemini,并最终取代现有的Google Assistant。这一战略转变反映了谷歌对Gemini的信心,以及对AI在未来人机交互中扮演的核心角色的深刻认知。 然而,这一举措也面临着一些挑战,例如用户对新功能的接受程度,以及如何确保AI的安全性与隐私保护。随着谷歌不断完善Gemini,我们有理由期待更加智能、便捷和个性化的AI服务。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。