3月18日,理想汽车自动驾驶技术研发负责人贾鹏在NVIDIA GTC 2025大会上正式发布新一代自动驾驶系统架构MindVLA,并首次公开其技术实现路径。该架构基于视觉-语言-行为融合模型(VLA),整合了3D空间理解、逻辑推理与行为生成能力,计划在7月与i8同步首发。
核心技术创新
多模态融合架构
MindVLA采用三维空间编码器与语言模型融合设计,通过自研的混合专家(MoE)模型基座实现多任务处理。系统包含三大模块:
(1)3D高斯表征建模:提升自动驾驶场景建模效率,训练速度较传统方法加快7倍。
(2)行为决策优化:利用扩散模型(Diffusion)生成驾驶轨迹,结合常微分方程采样器实现2-3步完成高质量轨迹生成。
(3)云端统一世界模型:融合三维场景重建与生成能力,支持大规模强化学习训练。
用户交互能力升级
(1)“听得懂”:用户可通过自然语言指令调整车辆行为,例如在行驶中提出“开太快了”“应走左侧道路”等需求,系统可实时响应。
(2)“看得见”:基于视觉语言模型(VLM),系统可识别非标准化交通标志(如手写标语),并通过用户拍摄的环境照片定位车辆位置。
(3)“找得到”:在无导航信息场景下,车辆可自主漫游寻找车位或目的地,例如用户指令“带我去找超市”触发自主路径探索。
技术验证与行业影响
(1)测试数据:系统已完成超10亿公里仿真测试,并引入人类偏好数据集优化长尾场景处理能力。
(2)专利布局:理想汽车已申请127项优化算法等领域,计划于2025年第三季度开放部分技术文档专利,涵盖三维场景重建、轨迹。
部署规划
MindVLA已完成工程化适配,计划在7月与i8同步首发。理想汽车表示,该架构未来或拓展至室内环境等非驾驶场景,探索物理与数字世界结合的通用人工智能路径。
【来源:凤凰网科技】