理想汽车在 Livis Day 上官宣了 Q4 辅助驾驶能力对齐特斯拉 FSD v14 的目标,这其中一个关键技术就是 3D ViT。
关于这个技术...其实我也不懂,这条就整理下理想汽车基座模型负责人詹锟对 3D ViT 的分享,我们一起来学习下。
詹锟:
1. 3D ViT 来自于去年的 CVPR 的论文 VGGT(VGGT: Visual Geometry Grounded Transformer),这证明了 2D 视觉也能学会完整的 3D 空间结构,证明了 Scaling Law 在 3D 空间的全新可行性。
第二,之前我们团队一直在往这方面探索和尝试,中间做了很多方案的取舍和权衡。最后因为我们看到 3D ViT 对空间深度的理解、物体精细度的理解能达到激光雷达级别的效果,我们去年才正式从研究探索阶段转入产品开发阶段。
在这个过程中,我们把它变成一个真实项目,放到最新的马赫 VLA 里面来。原来马赫 VLA 不一定使用 3D ViT,但有了会更好。3D ViT 后续还有更大的改进与优化空间,这也是追上 FSD v14 很重要的一环,中间的视觉信息能不能表征清楚,这是非常关键的。
3D ViT 是一个纯视觉方案,它不依赖于激光雷达。它基于视觉,把空间建模成带有色彩信息的全彩点云,基于更强的视觉编码器和空间视觉表征,做到更丰富的 3D 理解。
因为激光雷达帧率有限,只有10 Hz,视觉能做到 30 Hz 甚至更高,高帧率主要是提高反应速度,我们基于视觉能做到更高的反应速度。
能不能达到激光雷达的效果?我们是有信心的。因为我们最新所有的车都标配了激光雷达,激光雷达对纯视觉方案有非常强的监督和校验作用。
一定要达到跟激光雷达完全一样的精度吗?不一定。特别是看远处时,人也分不清大货车(距离)是 20.8 米还是 19.8 米。但在极近处,人对深度的感知非常敏感,我们(3D ViT)也是如此,在极近处能达到激光雷达的水平,这是上线的标准。
另外,理解空间以后更重要的是做出更拟人的行为决策。
2. 3D ViT是什么?可以理解为基于 3DGS(三维高斯溅射)或全新稠密三维空间的新的三维表示。从 2025 年到 2026 年,CVPR(计算机视觉与模式识别会议)的 Best Paper都是这个领域。去年的论文是剑桥大学的老师做的,基于图像直接投射出三维空间,直接预测三维深度。2026 年的 CVPR 是 DeepMind 基于传感器把三维空间动静分离。
所以我们未来三年内,就是基于这个路径做。我们把大家之前认为的栅格化、需要人类表征的东西,变成不用表征。OCC 先不定义类别,任何物体和任何元素我都可以投射三维空间,它有外观、RGB、纹理、属性。这样的建模方式需要随着下一代的算力增加才能做到。
3. 人眼有两个非常重要的特性:第一是实时双目,双目天然就带了 3D 结构,这一点很厉害;第二是(大脑)前额叶很强,能抽取非常高维特征的表征。
做深度学习本质上是在做表征学习,就是把信息映射到高维空间的特征,这个特征长什么样子我们没法直观描述,但它要包含所有下游想要的信息,这是大脑在做的事。
人的双眼时刻去观察 3D 物理空间以后,大脑中整个物理空间会有很强烈的 3D 感。但是摄像头,特别是单目摄像头,天然是没有 3D 感的。人眼如果遮住一只,当你习惯了双眼训练以后,单目也能看到 3D 结构,是因为前额叶已经把这种能力固化下来了。
对机器来说也是这个思路:用很高维的 3D 空间数据去训练它。即便摄像头在移动中,也能构建出三维空间,这就是典型的 3D 建模思路。任何一段视频进来,通过三维建模构建出三维空间,任何一个单目摄像头就可以知道三维空间是什么样,跟人的思路一模一样。通过这种方式,3D ViT 就可以深刻理解 3D 环境。
补充一点,激光雷达也能理解 3D 环境,它是主动光。但3D ViT 的特点是,除了理解环境的 3D 结构外,还能理解 3D 物体的属性、纹理、类型,因为它有 RGB(色彩信息),保留了所有信息。甚至还能做 tracking(目标追踪),就是对移动物体做动静分离,在 3D 环境中很容易判断目标是动还是不动,这就是光流的作用。
把这些能力结合以后,高维的视觉表征就非常丰富,不会有遗漏。比如地面有个坑和沟,你很容易识别出来。如果拿 BEV 来表达的话,BEV 无法定义什么是沟和坑,对下游决策来说就缺少了这个信息,这就叫高维表征的缺失。
所以只有解决了这个问题,才能给下游提供更完整的信息,下游才能根据这些表征做出正确的动作。
以前大家熟知的 The Bitter Lesson(苦涩的教训),是指机器不要加任何人为先验,用数据训练,一定做得比人更好。现在最新的理念是 Vision Bitter Lesson(视觉的苦涩教训),就是怎么判断你的视觉表征好不好?看你有没有做出对应的动作——你绕过了这个沟,才能证明你理解了这个沟。
我们通过构建一个非常好的三维空间表征标准,让下游把动作真正理解好,这样视觉能力就得到了充分的展现。
4. 3D ViT一开始就是在马赫 M100 做的验证,不是从 Thor 迁移过来的。
