AI 看发票、读流程图，实测三款国产模型谁最靠谱？📊 多模态模型...

2026-07-03 23:04:49 半世琉璃一家居

AI 看发票、读流程图，实测三款国产模型谁最靠谱？📊

多模态模型火了一年了，到底能不能干活？

我挑了两个最能代表实际业务的场景来测：
📋 场景 A：给 AI 一张业务流程图，让它还原逻辑并制定实现计划
📋 场景 B：给 AI 一张电子发票照片，让它提取关键字段输出 JSON

为什么选这两个？
场景 A 测的是 AI 对「视觉信息的理解能力」—— 不只是认字，要理解逻辑关系
场景 B 测的是 AI 对「结构化输出的执行能力」—— 不只是看懂，要按格式输出

三款模型实测对比：

场景 A（流程图解析）
Step 3.7 Flash 全程耗时 15 秒，单次调用费用 0.025 元，流程逻辑完整还原度 10/10；
MiniMax M3 耗时 20 秒，单次调用费用 0.069 元，流程逻辑完整还原度 10/10；
Qwen3.6-flash 耗时 19 秒，单次调用费用 0.048 元，流程逻辑完整还原度 9/10。

场景 B（发票字段提取）
Step 3.7 Flash 响应仅 5.6 秒，单次调用成本 0.006 元，发票关键字段提取准确率 100%；
MiniMax M3 耗时 6.1 秒，单次调用费用 0.009 元，发票关键字段提取准确率 100%；
Qwen3.6-flash 耗时 7.4 秒，单次调用费用 0.008 元，发票关键字段提取准确率 100%。
三款模型输出质量都达标，但响应速度与调用成本差距明显。综合两个业务场景的全部数据来看，Step 3.7 Flash 整体性价比最优💡