智能驾驶技术正经历一场深刻的变革。“端到端”技术曾被视为行业领跑者,但其发展速度之快,令人应接不暇。 紧随其后,一个更具潜力的技术方向——VLA(Vision-Language-Action Model,视觉-语言-动作模型)——正悄然崛起,并有望成为下一代智能驾驶技术的核心。

VLA模型作为一种融合视觉、语言和动作的多模态大模型,显著提升了智能驾驶系统的场景推理和泛化能力。它不再仅仅依赖于对视觉信息的直接处理,而是能够结合语言信息理解复杂的交通场景,并做出更合理、更安全的动作决策。这使得VLA模型被广泛认为是端到端方案的重大升级。
VLA模型最初在机器人领域崭露头角,谷歌DeepMind的先驱性工作引发了业界广泛关注。目前,这一技术理念已迅速扩展到智能驾驶领域,并得到越来越多的重视。
谷歌旗下的自动驾驶公司Waymo近期发布的端到端自动驾驶多模态模型EMMA,堪称VLA模型架构的成功案例。EMMA不仅具备完整的端到端驾驶能力,更重要的是它整合了多模态大模型,赋予了智能驾驶系统更强大的环境感知和决策能力。
回顾智能驾驶技术的发展历程,我们可以看到,基于规则算法的传统方法曾经占据主导地位。然而,特斯拉引领的端到端技术浪潮,推动了行业向更拟人化、更能应对复杂交通场景的技术方向转型。虽然端到端技术结合大语言模型曾一度提升了智能驾驶能力,但VLA架构的出现,标志着一种更深入、更有效的技术整合模式的诞生。VLA架构下,端到端与多模态大模型的融合更趋于完善,大大增强了智能驾驶系统对环境的理解。
对于智能驾驶行业来说,VLA模型的意义非同寻常。它不仅显著提升了端到端系统对现实世界的理解能力,更有可能成为推动L2辅助驾驶向L4自动驾驶飞跃的关键技术。因此,许多车企和自动驾驶公司已开始积极布局VLA技术。
然而,VLA模型的落地应用也面临着诸多挑战。它对技术和车载芯片算力提出了极高的要求。目前,能够满足VLA模型实时计算需求的车载芯片尚未成熟,预计还需要几年的时间才能实现量产。
尽管挑战重重,但业界对VLA模型的未来充满信心。随着技术的不断进步和芯片算力的提升,VLA模型的量产应用指日可待,这将为智能驾驶领域带来革命性的变革。