理想汽车在 Livis Day 上官宣了 Q4 辅助驾驶能力对齐特斯拉 FSD

理想汽车在 Livis Day 上官宣了 Q4 辅助驾驶能力对齐特斯拉 FSD v14 的目标，这其中一个关键技术就是 3D ViT。

关于这个技术...其实我也不懂，这条就整理下理想汽车基座模型负责人詹锟对 3D ViT 的分享，我们一起来学习下。

詹锟：

1. 3D ViT 来自于去年的 CVPR 的论文 VGGT（VGGT: Visual Geometry Grounded Transformer），这证明了 2D 视觉也能学会完整的 3D 空间结构，证明了 Scaling Law 在 3D 空间的全新可行性。

第二，之前我们团队一直在往这方面探索和尝试，中间做了很多方案的取舍和权衡。最后因为我们看到 3D ViT 对空间深度的理解、物体精细度的理解能达到激光雷达级别的效果，我们去年才正式从研究探索阶段转入产品开发阶段。

在这个过程中，我们把它变成一个真实项目，放到最新的马赫 VLA 里面来。原来马赫 VLA 不一定使用 3D ViT，但有了会更好。3D ViT 后续还有更大的改进与优化空间，这也是追上 FSD v14 很重要的一环，中间的视觉信息能不能表征清楚，这是非常关键的。

3D ViT 是一个纯视觉方案，它不依赖于激光雷达。它基于视觉，把空间建模成带有色彩信息的全彩点云，基于更强的视觉编码器和空间视觉表征，做到更丰富的 3D 理解。

因为激光雷达帧率有限，只有10 Hz，视觉能做到 30 Hz 甚至更高，高帧率主要是提高反应速度，我们基于视觉能做到更高的反应速度。

能不能达到激光雷达的效果？我们是有信心的。因为我们最新所有的车都标配了激光雷达，激光雷达对纯视觉方案有非常强的监督和校验作用。

一定要达到跟激光雷达完全一样的精度吗？不一定。特别是看远处时，人也分不清大货车（距离）是 20.8 米还是 19.8 米。但在极近处，人对深度的感知非常敏感，我们（3D ViT）也是如此，在极近处能达到激光雷达的水平，这是上线的标准。

另外，理解空间以后更重要的是做出更拟人的行为决策。

2. 3D ViT是什么？可以理解为基于 3DGS（三维高斯溅射）或全新稠密三维空间的新的三维表示。从 2025 年到 2026 年，CVPR（计算机视觉与模式识别会议）的 Best Paper都是这个领域。去年的论文是剑桥大学的老师做的，基于图像直接投射出三维空间，直接预测三维深度。2026 年的 CVPR 是 DeepMind 基于传感器把三维空间动静分离。

所以我们未来三年内，就是基于这个路径做。我们把大家之前认为的栅格化、需要人类表征的东西，变成不用表征。OCC 先不定义类别，任何物体和任何元素我都可以投射三维空间，它有外观、RGB、纹理、属性。这样的建模方式需要随着下一代的算力增加才能做到。

3. 人眼有两个非常重要的特性：第一是实时双目，双目天然就带了 3D 结构，这一点很厉害；第二是（大脑）前额叶很强，能抽取非常高维特征的表征。

做深度学习本质上是在做表征学习，就是把信息映射到高维空间的特征，这个特征长什么样子我们没法直观描述，但它要包含所有下游想要的信息，这是大脑在做的事。

人的双眼时刻去观察 3D 物理空间以后，大脑中整个物理空间会有很强烈的 3D 感。但是摄像头，特别是单目摄像头，天然是没有 3D 感的。人眼如果遮住一只，当你习惯了双眼训练以后，单目也能看到 3D 结构，是因为前额叶已经把这种能力固化下来了。

对机器来说也是这个思路：用很高维的 3D 空间数据去训练它。即便摄像头在移动中，也能构建出三维空间，这就是典型的 3D 建模思路。任何一段视频进来，通过三维建模构建出三维空间，任何一个单目摄像头就可以知道三维空间是什么样，跟人的思路一模一样。通过这种方式，3D ViT 就可以深刻理解 3D 环境。

补充一点，激光雷达也能理解 3D 环境，它是主动光。但3D ViT 的特点是，除了理解环境的 3D 结构外，还能理解 3D 物体的属性、纹理、类型，因为它有 RGB（色彩信息），保留了所有信息。甚至还能做 tracking（目标追踪），就是对移动物体做动静分离，在 3D 环境中很容易判断目标是动还是不动，这就是光流的作用。

把这些能力结合以后，高维的视觉表征就非常丰富，不会有遗漏。比如地面有个坑和沟，你很容易识别出来。如果拿 BEV 来表达的话，BEV 无法定义什么是沟和坑，对下游决策来说就缺少了这个信息，这就叫高维表征的缺失。

所以只有解决了这个问题，才能给下游提供更完整的信息，下游才能根据这些表征做出正确的动作。

以前大家熟知的 The Bitter Lesson（苦涩的教训），是指机器不要加任何人为先验，用数据训练，一定做得比人更好。现在最新的理念是 Vision Bitter Lesson（视觉的苦涩教训），就是怎么判断你的视觉表征好不好？看你有没有做出对应的动作——你绕过了这个沟，才能证明你理解了这个沟。

我们通过构建一个非常好的三维空间表征标准，让下游把动作真正理解好，这样视觉能力就得到了充分的展现。

4. 3D ViT一开始就是在马赫 M100 做的验证，不是从 Thor 迁移过来的。

泡泡资讯网

理想汽车在 Livis Day 上官宣了 Q4 辅助驾驶能力对齐特斯拉 FSD

热门分类