任少卿在接受晚点采访,大谈很多观点,很有意思:1、任少卿是整个蔚来NT2.0开始

楷瑞看汽车啊 2025-10-10 08:47:42

任少卿在接受晚点采访,大谈很多观点,很有意思:

1、任少卿是整个蔚来NT2.0开始的“创始人”,也是第一名员工。

任少卿 2020 年 8 月入职,目标要在 2022 年 3 月在 ET7 上量产,最后组建团队基本耗时一年,只有 8 个月做量产。我们也知道,中间还有一段特殊时期。

任少卿做的最早的一件事,除了组建团队,还有就是重视数据系统的闭环。

这一点无论是 Momenta 、地平线等科技公司,比新势力早期新势力智驾的人意识的更早,所以任加入蔚来第一件事就是做数据的闭环。他主要思考了几件事:

虽然算力够大,但是必须有自己模型筛选出来的数据才有用,所以团队很巧妙的应用了 4 个 Orin 的能力做数据管理分工。

有一套数据系统是负责自动筛选数据,形成有用数据进入训练和标注。

第二套是系统是在四个 Orin 上布局并行系统,一套跑功能,一套跑路测,路测可以跑大量实测做验证,比如 B 作为影子模式可以给 A 验证,主动安全迭代快也是这个原因,相比测试车,在量产车上验证里程够长。

第三是风险评估系统,可以自动化分析接管数据,这也是最新的一套数据管理。

这几套数据系统,也给后来的世界模型技术转型和主动安全能力的提升目标做铺垫。

2、端到端是“填坑”。

2024 年初蔚来最先开始蔚来走的是感知和规划分开结构,后面用模型来实现统一。

这个阶段主要还是很多算力不足,神经网络也不成熟,所以需要拆分任务做训练,再通过后处理拼接。但这个过程需要大量“填坑”,只能依赖模仿学习,所以只能解决短短几秒内的问题,没法做长时序的推理。

但其实端到端只是在智能驾驶特有的一种语境,在语言和图像AI领域,大多都是一个整体,没有端到端这一说法,现在看不需要太多强调。

来到 2025 年初,蔚来开始把研发拆分成平台和交付两个团队,避免过去混合后导致效率低的问题,这样可以让两个团队各自专注自己的事。

如今的阶段,蔚来变成一个四阶段的团队。

最先试预研阶段。主要满足新技术的迭代需要,把一个不确定性的结果收敛为确定结果,预研的团队会更聚焦。

第二量产阶段,通过数据和工程以及用户反馈,把预研的成果转化成用户体验的功能,并且做多平台适配。

第三是把它们快速迁移到多个硬件平台上,高算力到低算力都是。

第四是把方案复制到不同车型。

3、语言知识带来的是概念认知,世界模式的时空认知。

任少卿认为,要实现 AGI ,只有把两者拼在一起。

语言模型的突破在于,它把语言对应的概念和逻辑关系建模了出来,比如模型开始对具像化的物体有认知概念,比如对猫和狗等语言的理解和生成。

但是任认为,语言对描述的信息始终有限,属于低带宽。比如文字描述一个路口,很难用简短的文字把信息作完整的解读覆盖。

所以 VLA 本质是语言模型的模态扩展,视觉要先转语言,语言再转模型。但世界模型不同,世界模型是直接在视频上建立能力,无需转化语言,是一套更高宽带的认知系统。

而世界模型的对时间间和空间的认知恰好能补齐语言模型的短板,更像给嘴巴和耳朵加上一双眼睛。

但任也肯定了语言在其中也有很多核心价值,比如说有海量的互联网现成的数据,还有就是思维链推理,这其实也能弥补世界模型的推理上的细粒度不足,最后还有就是人机的语言交互,也就是用户指令,这些都是语言模型在智驾上的优势。

4、很多人忽略了强化学习的重要性。

主流数据有两种,第一种专家数据很干净,但是量小也贵。第二种是量产数据则什么都有,但难免有一些事故犯错的数据。

专家数据缺少 corner case, 而量产数据虽然脏,但是通过强化学习可以学习到更多东西。

所以很多人忽略了强化学习的重要性。

模仿学习的局限,很核心就是长时序的任务解决不了,只能解决前面几秒会发生的事。

强化学习则相反,因为模型的输出本身是一个分布,所以强化学习能把好的分布往前排,把差的往后压,相当于做了一次后端清洗。所以强化学习能把整个过程撑起来,让模型学会更长链条的推理。

在过去长时序的问题只能靠规则和地图解决,要么就是地图提前告知你前方路口即将发生什么,要么就是靠规则来兜底。

但这样会出现一种情况,比如小路上有对向车一起博弈,就容易出现专家数据迭代规则,只要出现越线系统就容易出现一顿一顿的刹车情况,很不流畅。而强化学习就没有这个问题,不容易掉到需要规则兜底的死逻辑里。

目前蔚来希望在现有模型上叠加强化学习,把长时序的能力真正做出来。任少卿预计年底的新版本,会有一个比较明显的进展。

5、关于世界模型的数据来源,也很有意思。

他总结为两种,一种来自于游戏,因为游戏的需要理解玩家的动作,下一步需要预测到场景变化,这个逻辑和现实生活比较相似。

第二是真实车载数据,比如驾驶者刹车前后带来的场景变化,模型可以学习,最后能掌握到时空认知这样的概念。

6、蔚来现在到哪一步了?要怎么走?

VLA 中的 L 最大的作用就是用互联网数据,其次可以做链式推理。

但未来更重要的是做到开放式交互。蔚来在后续版本里推出 Open-set(开放集指令交互),今年下半年推一个版本,年底的版本里就会有。

目前蔚来的版本还是有限集。也就是给你一个列表,1 到 30,你可以说这些,组合一下。但除此之外就不行了。

开放集指令交互就是把 L 的语言和 A 的动作彻底变成一个开放的入口,用户可以随意表达,系统也能理解并且做出执行。

这个能力也会在年底到明年 Q1 的时候逐步释放。

0 阅读:34
楷瑞看汽车啊

楷瑞看汽车啊

感谢大家的关注