实测所有AI视频模型:数10全翻车!李飞飞的世界模型是解药?
Seeddance 2.0能生成比真视频还逼真的画面,西半球法务部迪士尼却发现它数1-10全翻车,这不是bug,而是AI能力的照妖镜。
现在的AI视频模型本质是“统计机器”,它们像看了百万张手的照片却没摸过真手的画家,靠预测像素排列生成画面。比如Seeddance 2.0说“ten”时伸出3根手指,Veo模型连续重复“t”音节,这些错误背后,是AI只会“猜下一个像素”,不会“理解物理规则”。OpenAI Sora官方报告也承认,它连玻璃破碎这种基础物理交互都模拟不了。
为什么“数10”难倒所有人?因为人类3岁小孩都懂的常识,AI要跨过三重坎:
手有27块骨、100+条韧带,单个手掌18个自由度。模型训练数据里,手多在边缘或模糊处,导致学不到“手指数量=数字值”的逻辑。 比如数“5”要伸出5根手指,数“6”会自然加1,AI因是“逐帧预测”,忘了上一帧伸了几根。 再者视频是有逻辑的时间链,不是孤立图片。模型做不到“记住历史行为”,所以“1”到“10”的手指变化成了死循环。
然而这不是模型的错,我们需要一条新路,那就是世界模型。李飞飞2024年创立的World Labs,用10亿美元研发“能理解空间、物理、运动”的AI系统,其Marble产品已能生成可交互的3D世界。同样押注的还有杨乐昆的AMI Labs、DeepMind的Genie,它们都在突破“统计预测”,转向“真正的物理认知”。
有人会说:AI已经能骗眼睛了,还不够吗?但Seeddance 2.0只学会了“电影级视觉语法”,没学会“世界物理语法”。AI要取代人类创作者,必须先学会“数10”,而这背后,世界模型是关键一步。**
至少现在可以松口气,AI离真正“懂”现实,还有很长的路要走。