理想汽车发布下一代自动驾驶架构MindVLA-助攻财富

　　3月18日，理想汽车自动驾驶技术研发负责人贾鹏在NVIDIA GTC 2025发表主题演讲《VLA：迈向自动驾驶物理智能体的关键一步》，分享了理想汽车对于下一代自动驾驶技术MindVLA的最新思考和进展。

　　贾鹏表示：“MindVLA是机器人大模型，它成功整合了空间智能、语言智能和行为智能，一旦跑通物理世界和数字世界结合的范式后，将有望赋能更多行业。MindVLA将把汽车从单纯的运输工具转变为贴心的专职司机，它能听得懂、看得见、找得到。我们希望MindVLA能为汽车赋予类似人类的认知和适应能力，将其转变为能够思考的智能体。”

　　记者了解到，MindVLA不是简单地将端到端模型和VLM模型结合在一起，所有模块都是全新设计。3D空间编码器通过语言模型，和逻辑推理结合在一起后，给出合理的驾驶决策，并输出一组Action Token（动作词元），Action Token指的是对周围环境和自车驾驶行为的编码，通过Diffusion（扩散模型）进一步优化出最佳的驾驶轨迹，整个推理过程都要发生在车端，并且要做到实时运行。

　　据介绍，理想从0开始设计和训练了适合MindVLA的LLM基座模型，采用MoE混合专家架构，引入Sparse Attention（稀疏注意力），实现模型稀疏化，保证模型规模增长的同时，不降低端侧的推理效率。基座模型训练过程中，理想加入大量3D数据，使模型具备3D空间理解和推理能力。为了进一步激发模型的空间智能，理想加入了未来帧的预测生成和稠密深度的预测等训练任务。

　　理想汽车方面表示，像iPhone 4重新定义了手机，MindVLA也将重新定义自动驾驶。截至目前，理想汽车还没有公布该技术的量产装车时间表。

理想汽车发布下一代自动驾驶架构MindVLA

相关推荐