国产大模型集体爆发,为什么我劝你别高兴得太早?
短短一年,国内几十款大模型扎堆发布,个个号称 “对标国际顶尖水平”。可热闹看久了我反倒想问:这么多大模型,到底有几个是真技术,又有几个是蹭热度的泡沫?
中国信通院的统计数据摆在这里,截至 2025 年 7 月,国内已经发布了 1509 个大模型,数量稳居世界第一。算上通过网信办备案的产品,平均下来几乎每周都有新模型官宣。
互联网大厂、创业公司、高校院所,甚至不少地方政府和传统企业都下场凑热闹,从百亿参数到万亿参数,名号一个比一个响,发布会一个比一个隆重,不知道的还以为我们一夜之间就站到了全球 AI 的山顶。
可热闹归热闹,扒开表层看内里,第一个绕不开的问题就是严重的同质化。
现在市面上的通用大模型,翻来覆去核心功能就那几样:写文案、做 PPT、答问题、生成图片视频,你家有的我家都有,我家没有的你家也未必强。
业内早就不是什么秘密,很多号称 “全自主研发” 的大模型,本质就是拿开源底座改一改,调几个参数、换个交互界面,甚至直接调用别家的 API 套层壳,就敢对外宣传 “重大技术突破”。
有开发者逆向统计过 200 家 AI 公司,七成左右的产品核心能力都来自第三方模型,真正能从底层算法到训练全链路自主可控的,掰着手指头都数得过来。
大家底层架构差不多,训练数据重合度高,最后卷来卷去只能卷价格。
百万 tokens 的调用价格从几十块卷到几块钱,优惠时段甚至几毛钱就能拿下,看着是用户得了实惠,实则是整个行业陷入了 “微调内卷”,没人愿意花大钱啃硬骨头,都想着蹭热点赚快钱。
比同质化更扎心的,是卡在脖子上的算力问题。
大模型本质是 “算力喂出来” 的技术,训练一款千亿参数的旗舰模型,需要上万张高端 GPU 连轴转好几个月。
可直到今天,国内绝大多数大模型训练依赖的顶级芯片,依然受制于人。
受出口管制影响,高端 GPU 拿货难、溢价高,算力成本直接吞掉了很多创业公司七成以上的研发投入,赚的钱大半都交给了海外芯片厂商,说白了就是给别人打工。
别看国产芯片这些年进步很快,华为昇腾、寒武纪等产品已经能支撑不少场景,但在工具链完善度、算子生态、大规模训练稳定性上,和国际顶尖水平还有实实在在的差距。
很多厂商嘴上说全面适配国产算力,真要训练旗舰模型的时候,还是得依赖进口芯片。
相当于我们盖了一堆漂亮的房子,可盖房子的核心工具还得看别人脸色,地基不稳,再热闹也只是空中楼阁。
再往下说,落地的虚火比技术的泡沫更值得警惕。
现在天天能看到大模型中标、行业落地的新闻,可真落到实处,很多项目都停留在 “试点”“演示” 阶段。
IDC 的调研数据很说明问题:国内超过半数的企业用大模型,还停留在零散尝试的阶段,真正嵌入核心生产流程、形成稳定商业闭环的不到四成。
说白了,很多企业买大模型服务,就是用来写写文案、做做客服、整理下会议纪要,都是边缘性的辅助工作,既没替代多少核心人力,也没创造多少新增价值。
不少地方的智算中心、大模型项目,更像是跟风的政绩工程,钱砸下去不少,实际产出寥寥。
大模型喊了好几年 “赋能千行百业”,可到今天,真正能靠大模型稳定盈利的公司屈指可数,大多还在靠融资烧钱续命。
最后也是最核心的,我们在底层创新上,依然是跟跑者。
现在所有大模型的核心架构 Transformer,是谷歌 2017 年提出来的,这么多年过去,国内绝大多数模型还是在这个框架里修修补补,做工程优化、场景适配,真正颠覆性的架构创新、底层算法突破少之又少。
训练数据上,中文高质量语料的规模和质量,比起英文还有不小差距,数据版权、数据治理的老问题也一直没彻底理顺。
当然,不是说国产大模型不行。短短两三年时间,我们从追赶到并跑,部分头部模型已经能对标国际一线水平,这个速度值得骄傲。但越是热闹的时候,越得保持清醒:数量多不等于实力强,热度高不等于技术硬。
百模大战打到最后,拼的不是谁发布会开得响,不是谁参数标得高,而是谁能真正解决产业的真问题,谁能在底层技术上攥住自己的饭碗。
泡沫总有破的一天,等潮水退去,才知道谁在裸泳。现在就忙着欢呼雀跃,确实太早了点。
