7月全国都能开，秋季端到端＋VLM 理想智驾还有哪些黑科技？

快速、高效、信息量密集是看完理想智驾夏季发布会后的最直观感受，全场都在高密度输出，酣畅淋漓。这次的重点有两件事，一是面向当下，在7月份内推送OTA 6.0版本，为所有理想AD Max的用户，带来全国都能开的无图NOA的功能；二是展望今后，分享今年下半年，理想智驾将继续成长的技术方案—端到端＋VLM（视觉语言模型）。

一、7月内全量推送无图NOA，全国都能开！

早在今年5月10日，理想就开启了1000名内测用户的无图NOA体验，6月份来到了万人规模，6月底向全量用户开启不限量招募（智驾里程需要达标）。相信对智驾感兴趣的理想车主朋友，已经用上无图NOA，欢迎在评论区给我们分享体验。

哪些理想用户可以收到更新？

这次是面向所有AD Max用户（购买的是带激光雷达的车型）的全量推送版本OTA6.0，将覆盖理想MEGA和理想L9、理想L8、理想L7、理想L6的AD Max车型，7月内推送。届时，全国都能开的无图NOA将上车。

无图NOA的能力提升，在什么地方？

1、哪里都可以开！（重感知，无图无先验）

得益于感知、理解和道路结构构建能力的全面提升，无图NOA摆脱了对先验信息的依赖。用户在全国范围内有导航覆盖的城市范围内均可使用NOA，甚至可以在更特殊的胡同窄路和乡村小路开启功能。

2、绕行丝滑-时空联合规划（横向控制＋纵向控制，时间和空间模型并行运行）

实现了横纵向空间的同步规划，并通过持续预测自车与他车的空间交互关系，规划未来时间窗口内的所有可行驶轨迹。基于优质样本的学习，车辆可以快速筛选最优轨迹，果断而安全地执行绕行动作。

3、路口轻松过-上帝视角（导航信息、感知信息全融合）

选路能力显著提升。无图NOA采用BEV视觉模型融合导航匹配算法，实时感知变化的路沿、路面箭头标识和路口特征，并将车道结构和导航特征充分融合，有效解决了复杂路口难以结构化的问题，具备超远视距导航选路能力，路口通行更稳定。

4、默契安心

重点考虑用户心理安全边界，用分米级的微操能力带来更加默契、安心的行车体验。通过激光雷达与视觉前融合的占用网络，车辆可以识别更大范围内的不规则障碍物，感知精度也更高，从而对其他交通参与者的行为实现更早、更准确的预判。得益于此，车辆能够与其他交通参与者保持合理距离，加减速时机也更加得当，有效提升用户行车时的安全感。

是不是全国都能开？是不是有路就好用？关注太平洋智驾，后续我们将带来实测内容。

主动安全能力提升：

这次OTA6.0，也为用户带来主动安全上的升级，同步将在7月内推送：

1、复杂路口 AEB（自动紧急制动）：

行人、两轮车、三轮车典型的三种类型，从左、右、前靠近，做到了全覆盖。这三种对象从任何一个方向靠近，如果它侵占了理想汽车的安全系统区间，理想汽车都会启动AEB帮助用户主动刹停。

2、夜间AEB（自动紧急制动）：

在高速上夜间行驶，周围基本上没有光照，没有开灯、没有反光条。理想AD Max的AEB能做到120公里时速完全刹停。

3、全自动AES（自动紧急转向）：

解决“消失的前车”安全隐患场景。行驶过程中的我方车辆和前车，都以非常快的速度在高速上行驶，突然前前车急刹停，前车避让而我车距离很近不可能刹停。这种情况下理想汽车提供AES（自动紧急转向）功能，车辆会减速并避让过去，提升安全上限。

4、全方位低速AEB（自动紧急制动）：

用户在日常生活的低速场景中，特别在地库停车环境复杂的情况下，可能会出现比如柱子、墩子，理想汽车的低速AEB，以上情况都可以刹停，避免剐蹭。

二、智驾新思路：端到端＋VLM

作为理想智驾展望未来的新技术，端到端＋VLM的讲解部分偏向学术，比较深奥。我尽量以我的视角来给大家带入讲解。首先我们要肯定的是，这套技术论确实在智驾同质化、跟随化严重的当下，打开了新思路，也提出更好解决智驾场景问题的新方法。

理想智能驾驶副总裁郎咸朋博士表示，新思路是来源于诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考，快与慢》中阐述了认知心理学中系统1与系统2的概念，这也是人类的认知模式。

系统1可以看做为直觉、肌肉记忆。对应理解为，人根据自己过去的经验和习惯形成的直觉，可以做出快速的决策。如自动换挡或者在看到红灯时无需深思熟虑地停车。

系统2则是深度思考能力，琢磨的能力。对应理解为，人需要经过思考或推理才能解决这种复杂的问题和应对未知的场景。比如遇到突发紧急情况、复杂的交通或不熟悉的路段。

系统1和系统2相互配合，也组成了人类认知和理解世界、做出决策的基础。想想自身解决一个简单或一个复杂的问题，是不是也需求这两种系统。所以，自动驾驶要解决的问题，也就是如何仿生的问题。

系统1和系统2是如何应用到自动驾驶中的?

系统1，就是由各家厂商天天都在说的端到端（E2E）模型来实现，直接用来快速响应常规驾驶问题。是快系统。

系统2，则是由VLM来实现。什么是VLM？就是视觉语言模型（Visual Language Model），

这个模型擅长解读图片或视频里的信息，能用自然语言把看到的内容都描述出来，所以可以把它的能力理解为看图说话。

所以在自动驾驶中，VLM可以用于场景理解，能识别和描述道路环境，这里面包含了思考的能力。通过大量数据训练，VLM就能理解交通场景中的复杂交互事件。是慢系统。

即系统1，处理简单任务，足以应对驾驶车辆时95%的常规场景。系统2，解决复杂场景，占日常驾驶的约5%。系统1和系统2相互配合，分别确保大部分场景下的高效率和少数场景下的高上限，成为人类认知、理解世界并做出决策的基础。

端到端和VLM分别是如何工作，如何配合呢？

我们先说端到端。理想第一代的智驾大家都知道是重先验的NPN路口神经网络的方案，是典型的模块化方案，感知、定位、规划、导航、NPN等等。

第二代智驾，也就是7月要全量推送的，目前正流行的分段式端到端，是感知和规控两个大模型。

第三代智驾，我们所说的真正意义的端到端模型，它是一个One Model的结构，只有一个模型，输入的是传感器，输出的是行驶轨迹。

端到端模型的输入信息，主要来源于摄像头和激光雷达。多传感器特征经过CNN主干网络的提取、融合，投影至BEV空间。为提升模型的表征能力，理想汽车还设计了记忆模块，兼具时间和空间维度的记忆能力。在模型的输入中，理想汽车还加入了车辆状态信息和导航信息，经过Transformer模型的编码，与BEV特征共同解码出动态障碍物、道路结构和通用障碍物，并规划出行车轨迹。

黑盒特征，端到端方案已经不显示系统看到了什么，所以也不存在也传统的辅助驾驶感知界面让用户来观察。系统解码出动态障碍物、道路结构和通用障碍物，让用户在屏幕上看到，多次一举的目的，也是为了加强用户的安全感。

多任务输出在一体化的模型中得以实现，中间没有规则介入，因此端到端模型在信息传递、推理计算、模型迭代上均具有显著优势。

在实际驾驶中，端到端模型展现出更强大的通用障碍物理解能力、超视距导航能力、道路结构理解能力，以及更拟人的路径规划能力。如复杂道路通行，路口一堆违停车，需要从两车中间穿行，这样复杂场景，通过写规则是写不出来的。

总结来说，端到端的优势就是高效传递，驾驶体验更聪明和更拟人；高效计算，驾驶时车辆会反应更及时和更迅速；高效迭代，更高频率的OTA。

再来谈谈VLM视觉语言模型。它的算法架构由一个统一的Transformer模型组成，将Prompt（提示词）文本进行Tokenizer（分词器）编码，并将前视相机的图像和导航地图信息进行视觉信息编码，再通过图文对齐模块进行模态对齐，最终统一进行自回归推理，输出对环境的理解、驾驶决策和驾驶轨迹，传递给系统1辅助控制车辆。

具官方介绍，理想汽车的VLM视觉语言模型参数量达到22亿，对物理世界的复杂交通环境具有强大的理解能力，即使面对首次经历的未知场景也能自如应对。

VLM模型可以识别路面平整度、光线等环境信息，提示系统1控制车速，确保驾驶安全舒适。VLM模型也具备更强的导航地图理解能力，可以配合车机系统修正导航，预防驾驶时走错路线。同时，VLM模型可以理解公交车道、潮汐车道和分时段限行等复杂的交通规则，在驾驶中作出合理决策。

可以大家也注意到了一个问题，VLM是不是看起来非常厉害，但为啥没有在自动驾驶中广泛应用？

时延，还是时延。大模型的特点，是拥有巨大的参数量，理想汽车的VLM视觉语言模型参数量达到了22亿。所以这也会导致模型的推理时间有较高延迟，少则几秒。别看就几秒钟，但放在自动驾驶场景当中，总不能说遇到一个场景，等车先思考4-5秒，显然这是无法满足自动驾驶对实时性的要求。所以，VLM模型更多应用在自动驾驶的仿真训练中，帮助车辆学会应对更多场景。

理想就怎么能解决这个问题呢？

从4.1秒的时延缩短到0.3秒时延，提升了13倍。优化路线如上图，涉及到理想从魔改行业原有方案，到创新方案。技术细节过于深奥，有从事相关行业或有技术背景的朋友，可以验证一下，我们在这就不展开了。不过，既然理想敢公开技术细节，也代表着取得了一定的进展，谁也不会留辫子给竞争对手。

理想汽车基于快慢系统系统理论形成了自动驾驶算法架构的原型。系统1由端到端模型实现，具备高效、快速响应的能力。端到端模型接收传感器输入，并直接输出行驶轨迹用于控制车辆。系统2由VLM视觉语言模型实现，其接收传感器输入后，经过逻辑思考，输出决策信息给到系统1。如障碍物和夜间行驶时的减速建议，公交车道、潮汐车道的行驶建议。

甚至还可以识别交警的动态手势，还有施工改道的指示牌。

端到端＋VLM的能力怎么验证呢？

将在云端利用世界模型进行训练和验证。理想利用重建+生成的世界模型。把真实数据通过3DGS（3D高斯溅射）进行重建，并使用生成模型补充新视角，两者结合所生成的场景既可以保证场景是符合真实世界的，也同时解决了新视角模糊的问题。

在场景重建时，我们需要将场景中的动静态分离，核心思想是静态环境进行重建，动态物体进行重建和新视角生成，变成360°的新资产，将两者结合生成一个3D的物理世界，同时里面的动态资产可以被随意编辑和调整，实现场景的部分泛化。

生成相对于重建具备更好的泛化性，可以自定义地改变天气、时间、车流等条件，生成不同的场景来考验模型的泛化能力，评价自动驾驶系统在各种条件下的适应能力。

这种两种方式可以取长补短，生成相当考试前的模拟题，考验知识广度；重建相当于真题，考验知识深度。

所以在这样的无限云端环境里，可以进行自动驾驶系统的充分学习和考试，确保系统的安全可靠。

技术的落地是为产品服务，前不久我们找来华、蔚、小、理，也就是目前智驾头部厂商的主力车型做了一次智驾横评对比。当时还是NPN方案的理想L7的表现，并不算亮眼，智驾可用范围少，规控策略僵硬是比较明显的感受。所以这次全量无图NOA后，按理是补齐了覆盖率和规则过重的问题。整体切换到无图方案后的理想AD Max的体验，到底如何？有多少进步？敬请关注太平洋智驾，我们后续将第一时间带来分享。

这次发布会的最后还有一个彩蛋，除了全量推送无图NOA外，还有端到端＋VLM系统的鸟蛋用户内测，十分期待。

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

7月全国都能开，秋季端到端＋VLM 理想智驾还有哪些黑科技？

友情提示

中国

中国

警察示意女子停车女子没戴头盔也没减速撞上民警

网络热歌《苹果香》竟然被一个失聪的小女孩唱到了极致

杨雯梓美女（蚊子）演唱《苹果香

孙女被领导穿小鞋，董事长爷爷亲自下场撑腰！

叙总统：伊朗打击以是给后者的教训

“透明开奖，由我见证”，湖南体彩观摩团现场看开奖

多地真金白银促消费

最危险的时刻来了？《纽约时报》：美国将卷入战争

国庆假期长沙五一商圈成热门打卡地

叙利亚防空系统拦截来自以色列空袭