扎克伯格以143亿美元的价格，挖了一个从未训练过前沿模型的28岁年轻人。九个月后

2026-04-09 22:29:44 平安说世界国际

扎克伯格以143亿美元的价格，挖了一个从未训练过前沿模型的28岁年轻人。

九个月后，这个基准测试表格就是Alexandr Wang的成绩单。

Muse Spark 在多模态感知、健康查询和视觉推理上领先或并列 Opus 4.6 和 GPT 5.4。它在 MedXpertQA、SimpleVQA、ScreenSpot Pro、CharXiv 等基准上表现出色。这些都是对数据质量极其敏感的基准，训练集的 curation（精选与清洗）直接决定了性能上限。

而在以下领域它处于明显下风： ARC AGI 2（42.5 vs Gemini 的 76.5）， Terminal-Bench（59.0 vs GPT 5.4 的 75.1）， GDPval 办公任务（1444 vs GPT 5.4 的 1672）。

这些正是编码能力和抽象推理的范畴。在这些领域，架构创新和 RL 缩放的重要性远远超过数据本身。

这是一款典型“数据标注 CEO”打造的模型。作为ScaleAI创始人，他深刻理解了哪些基准能靠更好的数据取胜，哪些则需要完全不同的东西。Muse Spark 把前一类做到了极致，同时也暴露了它在后一类上的明显差距。

那个打造了AI领域数据提供商的人，能否打造出最好的模型？目前的答案是：他在数据管道能解决的问题上，做出了最好的模型；在其他方面，则只是中规中矩。

目前没人给这个动作定价：Meta 表示更大规模的模型已经在开发中，今天就能通过私有 API 使用，未来版本将会开源。王自己也称这是“第一步”。如果下一代模型能够弥补编码和推理上的差距，Meta 将从“陪跑者”直接变成主流竞争者之一。 

扎克伯格ai大模型人工智能