转：【天风海外李泽宇】谷歌Gemini3.0模型卡提前放出快评——多模态、知识

转：【天风海外李泽宇】谷歌Gemini 3.0模型卡提前放出快评——多模态、知识库能力大幅超越GPT与ClaudeGoogle尚未发布新一代大模型 Gemini 3 Pro，但官网已经上线模型卡，并同步披露与 Gemini 2.5 Pro、Claude Sonnet 4.5 与 GPT‑5.1 的对比测试结果。整体看，Gemini 3 Pro 在多模态能力上大幅领先目前其它旗舰模型，并在数学、科学推理及长上下文等核心能力上有较为明显的跨代提升。在涉及图像理解能力的逻辑推理上（Humanity’s Last Exam、ARC‑AGI‑2、AIME 2025、MathArena 等）上，Gemini 3 Pro 大幅超越自家 2.5 Pro，GPT‑5.1、Claude 4.5 。AIME 2025 等高难数学榜单中，Gemini 3 Pro 在“有代码执行”场景下达到满分，显示其在工具调用+数学推理组合能力上已经具备行业顶级水准。多模态与视频理解：延续 Google 传统优势，视频场景领先两档档在 MMMU‑Pro、ScreenSpot‑Pro、Video‑MMMU 等多模态基准中，Gemini 3 Pro 相比 Gemini 2.5 Pro 有明显跳升，并普遍高于 GPT‑5.1 与 Claude 4.5。在截图理解上，Gemini 3 Pro达到72.7%，大幅超越其它旗舰模型的36.2%。特别是 Video‑MMMU 维度上，Gemini 3 Pro 在视频信息抽取与知识问答上表现突出，Agent & 代码：综合实力强，部分专项仍与 GPT‑5.1/Claude 形成互有胜负在 LiveCodeBench Pro、SWE‑Bench Verified、t2‑bench、Vending‑Bench 2 等“代码+智能体”基准上，Gemini 3 Pro 的 Elo/成功率普遍高于旧版本，并在多数维度与 GPT‑5.1 非常接近。但在部分单项（如 SWE‑Bench Verified 测试，Claude 4.5 仍保持小幅领先），表明行业在真实软件工程类任务上尚处于“多强并立”格局，尚未出现一骑绝尘的模型。长文本与检索：128k 上下文可用性增强，复杂检索任务能力改善。幻觉极低。在 MRCR V2、FACTS Benchmark Suite 等长上下文与检索基准上，Gemini 3 Pro 相对 2.5 Pro 提升明显，在 128k 长度下仍能保持较高准确率。并且在SimpleQA Verified上，其得分超过72%，大幅领先非Anthropic Sonnect4.5的29%与GPT5.1 的35%。长任务执行能力：整体也胜于GPT 5.1 与Sonnet 4.5我们怎么看未来生态与商业化？我们认为尽管在代码能力上Gemini 3Pro尚未完全超于竞争对手，但在多模态能力、文本Rag能力上3Pro已经大幅超越，叠加 Google 自有搜搜索+Workspace+Android 生态，有望在搜索AI mode商业化、文档问答、企业AI等场景实现市场开拓能力的大幅提升，并且涌现大量多模态新场景。继续看好谷歌与谷歌链的受益者。