转:【天风海外李泽宇】谷歌Gemini3.0模型卡提前放出快评——多模态、知识

但斌啊 2025-11-19 00:44:10

转:【天风海外李泽宇】谷歌Gemini 3.0模型卡提前放出快评——多模态、知识库能力大幅超越GPT与ClaudeGoogle尚未发布新一代大模型 Gemini 3 Pro,但官网已经上线模型卡,并同步披露与 Gemini 2.5 Pro、Claude Sonnet 4.5 与 GPT‑5.1 的对比测试结果。整体看,Gemini 3 Pro 在多模态能力上大幅领先目前其它旗舰模型,并在数学、科学推理及长上下文等核心能力上有较为明显的跨代提升。在涉及图像理解能力的逻辑推理上(Humanity’s Last Exam、ARC‑AGI‑2、AIME 2025、MathArena 等)上,Gemini 3 Pro 大幅超越自家 2.5 Pro,GPT‑5.1、Claude 4.5 。AIME 2025 等高难数学榜单中,Gemini 3 Pro 在“有代码执行”场景下达到满分,显示其在 工具调用+数学推理 组合能力上已经具备行业顶级水准。多模态与视频理解:延续 Google 传统优势,视频场景领先两档档在 MMMU‑Pro、ScreenSpot‑Pro、Video‑MMMU 等多模态基准中,Gemini 3 Pro 相比 Gemini 2.5 Pro 有明显跳升,并普遍高于 GPT‑5.1 与 Claude 4.5。在截图理解上,Gemini 3 Pro达到72.7%,大幅超越其它旗舰模型的36.2%。特别是 Video‑MMMU 维度上,Gemini 3 Pro 在视频信息抽取与知识问答上表现突出,Agent & 代码:综合实力强,部分专项仍与 GPT‑5.1/Claude 形成互有胜负在 LiveCodeBench Pro、SWE‑Bench Verified、t2‑bench、Vending‑Bench 2 等“代码+智能体”基准上,Gemini 3 Pro 的 Elo/成功率普遍高于旧版本,并在多数维度与 GPT‑5.1 非常接近。但在部分单项(如 SWE‑Bench Verified 测试,Claude 4.5 仍保持小幅领先),表明行业在真实软件工程类任务上尚处于“多强并立”格局,尚未出现一骑绝尘的模型。长文本与检索:128k 上下文可用性增强,复杂检索任务能力改善。幻觉极低。在 MRCR V2、FACTS Benchmark Suite 等长上下文与检索基准上,Gemini 3 Pro 相对 2.5 Pro 提升明显,在 128k 长度下仍能保持较高准确率。并且在SimpleQA Verified上,其得分超过72%,大幅领先非Anthropic Sonnect4.5的29%与GPT5.1 的35%。长任务执行能力:整体也胜于GPT 5.1 与Sonnet 4.5我们怎么看未来生态与商业化?我们认为尽管在代码能力上Gemini 3Pro尚未完全超于竞争对手,但在多模态能力、文本Rag能力上3Pro已经大幅超越,叠加 Google 自有搜搜索+Workspace+Android 生态,有望在搜索AI mode商业化、文档问答、企业AI等场景实现市场开拓能力的大幅提升,并且涌现大量多模态新场景。继续看好谷歌与谷歌链的受益者。

0 阅读:0
但斌啊

但斌啊

感谢大家的关注