国外一个研究团队做了严肃实验,让 GLM-5.2 和 Opus 4.8 跑同一个极难的科学任务。您猜怎么着?
他俩都成功了,但花费的钱可不一样多。
简单来说,这个任务就是要复现一个论文上的科学结论。模型必须自己找到解决问题的方法,然后自己运行实验论证论文的结论。
以下是团队的三个结论:
1)GLM 5.2 花费 6.21 美元,而 Opus 4.8 花费我们 46.35 美元
2)两个模型都花费了大部分 token 来解决初始 verl 问题。GLM 5.2 在首次成功前尝试了 14 次失败运行,而 Opus 4.8 尝试了 9 次运行。
3)GLM 5.2 令人惊讶地使用了 265 万个 token,而 Opus 4.8 使用了 453 万个 token。
