实测所有AI视频模型：数10全翻车！李飞飞的世界模型是解药？ Seeddanc

实测所有AI视频模型：数10全翻车！李飞飞的世界模型是解药？

Seeddance 2.0能生成比真视频还逼真的画面，西半球法务部迪士尼却发现它数1-10全翻车，这不是bug，而是AI能力的照妖镜。

现在的AI视频模型本质是“统计机器”，它们像看了百万张手的照片却没摸过真手的画家，靠预测像素排列生成画面。比如Seeddance 2.0说“ten”时伸出3根手指，Veo模型连续重复“t”音节，这些错误背后，是AI只会“猜下一个像素”，不会“理解物理规则”。OpenAI Sora官方报告也承认，它连玻璃破碎这种基础物理交互都模拟不了。

为什么“数10”难倒所有人？因为人类3岁小孩都懂的常识，AI要跨过三重坎：
手有27块骨、100+条韧带，单个手掌18个自由度。模型训练数据里，手多在边缘或模糊处，导致学不到“手指数量=数字值”的逻辑。比如数“5”要伸出5根手指，数“6”会自然加1，AI因是“逐帧预测”，忘了上一帧伸了几根。再者视频是有逻辑的时间链，不是孤立图片。模型做不到“记住历史行为”，所以“1”到“10”的手指变化成了死循环。

然而这不是模型的错，我们需要一条新路，那就是世界模型。李飞飞2024年创立的World Labs，用10亿美元研发“能理解空间、物理、运动”的AI系统，其Marble产品已能生成可交互的3D世界。同样押注的还有杨乐昆的AMI Labs、DeepMind的Genie，它们都在突破“统计预测”，转向“真正的物理认知”。

有人会说：AI已经能骗眼睛了，还不够吗？但Seeddance 2.0只学会了“电影级视觉语法”，没学会“世界物理语法”。AI要取代人类创作者，必须先学会“数10”，而这背后，世界模型是关键一步。**

至少现在可以松口气，AI离真正“懂”现实，还有很长的路要走。

泡泡资讯网

实测所有AI视频模型：数10全翻车！李飞飞的世界模型是解药？ Seeddanc

热门分类