任少卿在接受晚点采访，大谈很多观点，很有意思：1、任少卿是整个蔚来NT2.0开始

任少卿在接受晚点采访，大谈很多观点，很有意思：

1、任少卿是整个蔚来NT2.0开始的“创始人”，也是第一名员工。

任少卿 2020 年 8 月入职，目标要在 2022 年 3 月在 ET7 上量产，最后组建团队基本耗时一年，只有 8 个月做量产。我们也知道，中间还有一段特殊时期。

任少卿做的最早的一件事，除了组建团队，还有就是重视数据系统的闭环。

这一点无论是 Momenta 、地平线等科技公司，比新势力早期新势力智驾的人意识的更早，所以任加入蔚来第一件事就是做数据的闭环。他主要思考了几件事：

虽然算力够大，但是必须有自己模型筛选出来的数据才有用，所以团队很巧妙的应用了 4 个 Orin 的能力做数据管理分工。

有一套数据系统是负责自动筛选数据，形成有用数据进入训练和标注。

第二套是系统是在四个 Orin 上布局并行系统，一套跑功能，一套跑路测，路测可以跑大量实测做验证，比如 B 作为影子模式可以给 A 验证，主动安全迭代快也是这个原因，相比测试车，在量产车上验证里程够长。

第三是风险评估系统，可以自动化分析接管数据，这也是最新的一套数据管理。

这几套数据系统，也给后来的世界模型技术转型和主动安全能力的提升目标做铺垫。

2、端到端是“填坑”。

2024 年初蔚来最先开始蔚来走的是感知和规划分开结构，后面用模型来实现统一。

这个阶段主要还是很多算力不足，神经网络也不成熟，所以需要拆分任务做训练，再通过后处理拼接。但这个过程需要大量“填坑”，只能依赖模仿学习，所以只能解决短短几秒内的问题，没法做长时序的推理。

但其实端到端只是在智能驾驶特有的一种语境，在语言和图像AI领域，大多都是一个整体，没有端到端这一说法，现在看不需要太多强调。

来到 2025 年初，蔚来开始把研发拆分成平台和交付两个团队，避免过去混合后导致效率低的问题，这样可以让两个团队各自专注自己的事。

如今的阶段，蔚来变成一个四阶段的团队。

最先试预研阶段。主要满足新技术的迭代需要，把一个不确定性的结果收敛为确定结果，预研的团队会更聚焦。

第二量产阶段，通过数据和工程以及用户反馈，把预研的成果转化成用户体验的功能，并且做多平台适配。

第三是把它们快速迁移到多个硬件平台上，高算力到低算力都是。

第四是把方案复制到不同车型。

3、语言知识带来的是概念认知，世界模式的时空认知。

任少卿认为，要实现 AGI ，只有把两者拼在一起。

语言模型的突破在于，它把语言对应的概念和逻辑关系建模了出来，比如模型开始对具像化的物体有认知概念，比如对猫和狗等语言的理解和生成。

但是任认为，语言对描述的信息始终有限，属于低带宽。比如文字描述一个路口，很难用简短的文字把信息作完整的解读覆盖。

所以 VLA 本质是语言模型的模态扩展，视觉要先转语言，语言再转模型。但世界模型不同，世界模型是直接在视频上建立能力，无需转化语言，是一套更高宽带的认知系统。

而世界模型的对时间间和空间的认知恰好能补齐语言模型的短板，更像给嘴巴和耳朵加上一双眼睛。

但任也肯定了语言在其中也有很多核心价值，比如说有海量的互联网现成的数据，还有就是思维链推理，这其实也能弥补世界模型的推理上的细粒度不足，最后还有就是人机的语言交互，也就是用户指令，这些都是语言模型在智驾上的优势。

4、很多人忽略了强化学习的重要性。

主流数据有两种，第一种专家数据很干净，但是量小也贵。第二种是量产数据则什么都有，但难免有一些事故犯错的数据。

专家数据缺少 corner case，而量产数据虽然脏，但是通过强化学习可以学习到更多东西。

所以很多人忽略了强化学习的重要性。

模仿学习的局限，很核心就是长时序的任务解决不了，只能解决前面几秒会发生的事。

强化学习则相反，因为模型的输出本身是一个分布，所以强化学习能把好的分布往前排，把差的往后压，相当于做了一次后端清洗。所以强化学习能把整个过程撑起来，让模型学会更长链条的推理。

在过去长时序的问题只能靠规则和地图解决，要么就是地图提前告知你前方路口即将发生什么，要么就是靠规则来兜底。

但这样会出现一种情况，比如小路上有对向车一起博弈，就容易出现专家数据迭代规则，只要出现越线系统就容易出现一顿一顿的刹车情况，很不流畅。而强化学习就没有这个问题，不容易掉到需要规则兜底的死逻辑里。

目前蔚来希望在现有模型上叠加强化学习，把长时序的能力真正做出来。任少卿预计年底的新版本，会有一个比较明显的进展。

5、关于世界模型的数据来源，也很有意思。

他总结为两种，一种来自于游戏，因为游戏的需要理解玩家的动作，下一步需要预测到场景变化，这个逻辑和现实生活比较相似。

第二是真实车载数据，比如驾驶者刹车前后带来的场景变化，模型可以学习，最后能掌握到时空认知这样的概念。

6、蔚来现在到哪一步了？要怎么走？

VLA 中的 L 最大的作用就是用互联网数据，其次可以做链式推理。

但未来更重要的是做到开放式交互。蔚来在后续版本里推出 Open-set（开放集指令交互），今年下半年推一个版本，年底的版本里就会有。

目前蔚来的版本还是有限集。也就是给你一个列表，1 到 30，你可以说这些，组合一下。但除此之外就不行了。

开放集指令交互就是把 L 的语言和 A 的动作彻底变成一个开放的入口，用户可以随意表达，系统也能理解并且做出执行。

这个能力也会在年底到明年 Q1 的时候逐步释放。