Rain科技3月21日消息,今天下午,理想汽车详细介绍了MindVLA大模型与现有端到端+VLM大模型的区别,并公布了相关实测视频。
按能力表现来看,MindVLA 模型加持下的汽车就像一个助手,能与用户沟通、理解用户意图,帮用户做更多事情。理想汽车通过将MindVLA大模型融入车辆控制,试图赋予汽车更强的智能化和人性化能力。
比如,它可以在陌生车库漫游找车位直至自主完成泊车;这一功能的实现,依赖于大模型对环境的感知和理解,以及精确的操控能力。实测视频显示,车辆在较为复杂的车库环境中能够自主寻找车位并完成泊车,展现了较强的实用性。
可以按照驾驶员的“开快点、开慢点、左拐、右拐”等语音指令进行行动;这意味着车辆不再仅仅是执行预设的指令,而是能够理解人类的自然语言指令,并且做出相应的动作。这种交互方式更符合人类的习惯,也更方便用户操作。然而,这类指令的精确理解和执行的安全性,仍然是需要关注的关键点。
可以在你发给它地标照片后,按图索骥找到你等等。这类似视觉导航功能,通过图像识别和定位技术,车辆能够根据用户提供的照片信息,自主规划路线并到达目的地。但这种方式在实际应用中可能会受到光线、角度、遮挡等因素的影响,稳定性和可靠性仍有待验证。
理想汽车还表示,MindVLA是理想汽车下一代自动驾驶核心架构,使用了MindGPT作为语言基座,demo中的语音通过座舱的ASR后变成文字,输入给 MindVLA。
这一设计继承自 MindGPT 在语言理解与交互领域的优势能力(如语义解析、逻辑推理等),并针对自动驾驶场景进行了专项优化。这意味着理想汽车正尝试将大型语言模型的优势应用于自动驾驶领域,通过提升车辆对自然语言的理解能力,从而实现更智能的人机交互。
这体现了智舱与智驾在功能层的协同创新,而非系统层的完全融合。目前来看,智舱和智驾功能的协同更多体现在信息共享和指令传递上,未来更深层次的融合,例如决策层面的协同,将是发展的方向。完全融合可能意味着智舱系统可以参与驾驶决策,提供更全面的信息支持。
未来,我们将持续探索多模态交互与驾驶决策的深度耦合,为用户提供更自然的“人车共驾”体验。随着人工智能技术的不断发展,人车交互将变得更加自然和智能。但与此同时,也需要关注安全性和可靠性问题,确保自动驾驶系统的稳定运行。