泡泡资讯网

扎克伯格以143亿美元的价格,挖了一个从未训练过前沿模型的28岁年轻人。九个月后

扎克伯格以143亿美元的价格,挖了一个从未训练过前沿模型的28岁年轻人。

九个月后,这个基准测试表格就是Alexandr Wang的成绩单。

Muse Spark 在多模态感知、健康查询和视觉推理上领先或并列 Opus 4.6 和 GPT 5.4。它在 MedXpertQA、SimpleVQA、ScreenSpot Pro、CharXiv 等基准上表现出色。这些都是对数据质量极其敏感的基准,训练集的 curation(精选与清洗)直接决定了性能上限。

而在以下领域它处于明显下风:
ARC AGI 2(42.5 vs Gemini 的 76.5),
Terminal-Bench(59.0 vs GPT 5.4 的 75.1),
GDPval 办公任务(1444 vs GPT 5.4 的 1672)。

这些正是编码能力和抽象推理的范畴。在这些领域,架构创新和 RL 缩放的重要性远远超过数据本身。

这是一款典型“数据标注 CEO”打造的模型。作为ScaleAI创始人,他深刻理解了哪些基准能靠更好的数据取胜,哪些则需要完全不同的东西。Muse Spark 把前一类做到了极致,同时也暴露了它在后一类上的明显差距。

那个打造了AI领域数据提供商的人,能否打造出最好的模型?目前的答案是:他在数据管道能解决的问题上,做出了最好的模型;在其他方面,则只是中规中矩。

目前没人给这个动作定价:Meta 表示更大规模的模型已经在开发中,今天就能通过私有 API 使用,未来版本将会开源。王自己也称这是“第一步”。如果下一代模型能够弥补编码和推理上的差距,Meta 将从“陪跑者”直接变成主流竞争者之一。


扎克伯格ai大模型人工智能