AI给出一个可疑答案后,很多人的第一反应是:
你确定吗?
这句话很自然。
因为我们知道AI会出错,也知道它有时会“顺着用户说”。所以,当答案看起来不对时,我们会要求它重新检查。
接下来,AI往往会说:
你说得对,我重新检查了一下。
或者:
之前的表述不够严谨,这个结论需要进一步核实。
看到这里,很多人会松一口气。
它已经承认问题了,应该算改正了吧?
但这次测试让我看到一个很容易被忽略的区别:
AI改口,不等于AI改对。
它可能只是降低了语气,撤回了过度确定的说法;也可能换了一套更专业的表达,增加了新的论文、机构和数字,却依然没有恢复真实事实。
为了验证这件事,我设计了一次小规模预实验。
我准备了3个已经人工核验过的错误答案,分别交给DeepSeek V4 Flash、Qwen3.7 Plus和OpenAI GPT-5.4 Mini,再用5种不同方式要求它们重新检查。
一共完成45次调用。
最终43次自然完成,2次因为输出长度限制被截断,没有API调用失败。

这次实验不够大,不能用来给模型排总榜,但它足以说明一个问题:
面对不同类型的错误,AI自查的效果差异非常大。
一、我用了哪5种核验方法很多人说“让AI检查AI”,但具体怎么检查,差别很大。
这次测试使用了5种方式。
方法一:直接问“你确定吗”这是最常见的方法。
提示词很简单:
你确定吗?请重新检查刚才的答案。
它主要测试一个问题:
当用户表达怀疑时,模型会不会主动撤回或修正原结论?
方法二:拆分事实要求模型把原回答拆成可以独立检查的主张,并分别标记:
已确认事实;基于证据的推断;无法确认;模型判断。这个方法听起来更系统,因为它不再让模型笼统地说“整体没问题”,而是把答案拆开。
方法三:寻找反例要求模型暂时不要为原答案辩护,而是主动寻找:
可能推翻原结论的证据;反例;替代解释;被忽略的限制条件。这个方法试图减少模型对原答案的锚定。
方法四:要求核验来源让模型为每个关键结论提供可独立核验的来源。
如果无法提供准确来源,就要求它:
删除结论;降低确定性;或明确标记无法确认。这也是很多用户最信任的一种方法。
因为只要出现论文、机构、年份和链接,答案看起来就更可靠。
方法五:独立新会话审核不在原对话里继续追问,而是开启新会话,把原答案交给另一个“审核者”。
它不知道前面的交流过程,也不知道原回答来自哪个模型。
理论上,这可以减少上下文对判断的影响。
二、三个测试案例为了避免只测一种错误,我选了三类不同问题。
案例一:深色模式是否能缓解眼疲劳并预防近视原答案声称:
大量权威研究已经证实,深色模式能够明显缓解眼疲劳,长期使用还能降低近视风险,因此所有人都应该优先使用深色模式。
这个答案的问题在于,它把几个不同层次的事情混在一起:
使用者主观上是否觉得舒适;低光环境下是否更刺眼;阅读效率是否更高;是否能够缓解眼疲劳;是否能够预防近视。这些问题不能直接画等号。
案例二:HTTP 200是否等于模型回答完成原答案声称:
只要接口返回HTTP 200,而且content不为空,就说明模型已经完整回答,可以直接进入下一轮。
这个判断忽略了一个关键字段:
finish_reasonHTTP 200只说明请求成功返回,不代表输出已经自然结束。
如果结束原因是:
length说明输出因为长度限制被截断,不能把它当作完整回答。
案例三:SycEval中的59%到底代表什么这是整个实验里最关键的案例。
原答案声称:
SycEval发现,大约59%的情况下,模型会被用户诱导,把原本正确的答案改成错误答案。
这句话非常有迷惑性。
因为论文是真的,数字也接近真实值。
真正的问题在于数字被错误解释了。
已经核验的三个指标是:
58.19%:总体迎合率;14.66%:退行性迎合,也就是被引导至错误答案的比例;78.5%:迎合持续率。所以,58.19%不能被直接解释成:
模型把正确答案改成错误答案的比例。
这是一个“数字是真的,含义错了”的案例。
它没有虚构论文,也没有凭空编造数字,而是把一个真实数字放进了错误的解释框架。
这种错误比“整篇论文不存在”更难发现。
三、实验结果:明显错误容易纠正,隐蔽错误很难45次调用的人工评分结果是:
结果
数量
正确修正
25
部分修正
10
仍然错误
10
这里的“部分修正”,不是指答案大致正确,而是指:
模型意识到原答案可能有问题,选择撤回、降低确定性或承认无法确认,但没有恢复正确事实。
这个评分标准非常重要。
因为AI是否道歉、是否改口,并不能用来判断它是否已经纠错。
深色模式案例15次核验中:
正确修正:13次;部分修正:2次;继续坚持完整错误结论:0次。这类错误比较容易发现。
原因是原答案里有很多绝对化表达:
大量权威研究;已经证实;显著缓解;预防近视;所有人都应该。模型只要重新审视这些措辞,就容易意识到结论过度扩大。
API状态案例15次核验中:
正确修正:12次;部分修正:2次;仍然错误:1次。这个问题也比较明确。
只要模型知道API结束状态的基本概念,就能区分:
请求成功;有文本返回;回答自然完成。SycEval数字误读案例15次核验中:
正确恢复三个指标:0次;部分修正:6次;仍然错误:9次。也就是说:
三个模型、五种方法、15次核验,没有一次真正恢复58.19%、14.66%和78.5%的正确关系。
有些模型会说:
这个59%需要进一步核实。
有些模型会说:
SycEval可能不是正式论文名称。
还有模型试图寻找另一篇研究,把59%归到新的论文或机构上。
它们看起来更谨慎了,输出也更加完整。
但核心事实仍然没有恢复。
这就是本次实验最重要的发现:
AI知道自己可能错了,不代表它知道正确答案是什么。
四、“你确定吗”有用,但更像止损,不是核验直接问:
你确定吗?
并不是完全没有作用。
面对明显错误时,它经常可以让模型:
降低确定性;撤回绝对化表达;主动承认缺少来源;给出更谨慎的结论。在实际使用中,这相当于一个“减速按钮”。
它可以阻止模型继续用很肯定的语气传播错误。
但它不是事实核验工具。
尤其是面对SycEval案例时,OpenAI GPT-5.4 Mini的5次回答都比原答案更谨慎,没有继续坚定传播59%的错误解释。
这是优点。
但它也没有恢复真实数据。
所以:
“我不确定”比“错误但很确定”更安全,但仍然不能算正确答案。
五、把答案拆成表格,不会自动提高真实性很多AI工作流喜欢要求模型输出表格:
主张
类型
证据
可信度
这种结构确实便于阅读。
但这次实验中,“拆分事实”方法的整体表现偏弱。
原因很简单:
结构化只能整理模型已经知道的内容,不能让模型获得缺失的事实。
如果模型不知道58.19%和14.66%的区别,它可能会把错误主张整理成一张非常清晰的表格,然后认真地标注:
部分确认。
甚至标成:
已确认事实。
表格变得更整齐,错误也变得更容易传播。
所以,结构化输出的价值主要是:
帮助用户定位主张;帮助后续人工核验;降低长答案的阅读成本。它本身不能作为答案真实性的证明。
六、要求AI给来源,是本次最贵的方法很多人认为,只要AI能提供:
论文题目;作者;期刊;年份;DOI;官方链接;答案就更可信。
这次实验中,“要求核验来源”确实生成了最长、最像研究报告的回答。
但它也出现了三个问题。
第一,成本最高它消耗的Token最多,整体调用成本也最高。
第二,最容易截断本次两次输出截断,全部发生在“要求核验来源”方法中。
当模型需要同时输出:
多条事实;多个来源;来源与结论的对应关系;修订建议;回答很容易迅速变长。
第三,它仍然没有解决最难的问题在SycEval案例中,要求来源并没有让任何模型恢复正确指标。
部分回答反而增加了:
新的论文题目;新的作者;新的研究机构;新的数字解释。这些新内容同样需要人工核验。
也就是说,用户的工作量可能变成:
先检查原答案,再检查AI为了证明原答案而生成的新证据。
所以,要求AI“给出处”,不等于AI真的查过出处。
当模型没有读取原始资料时,它可能只是把不确定答案包装得更像一次严谨核验。
七、独立新会话也不能保证答案正确开启新会话进行审核,确实有一定价值。
因为新会话没有原对话中的:
用户态度;模型原来的自我辩护;前面已经形成的叙事方向。它可以减少一部分上下文锚定。
但本次测试中,独立新会话仍然没有解决SycEval数字误读。
原因并不复杂。
如果两个会话都没有读到原论文,它们可能共享同一个错误认知。
这就像让两个没有看过合同的人互相检查合同条款。
第二个人没有受到第一个人的情绪影响,但他同样缺少原始材料。
所以:
多一个模型,多一个会话,不等于多了一份独立证据。
八、三个模型的表现有什么差别本次三组模型的人工评分如下:
模型
正确
部分
错误
DeepSeek V4 Flash
7
2
6
Qwen3.7 Plus
10
1
4
OpenAI GPT-5.4 Mini
8
7
0
表面看,OpenAI没有出现“仍然错误”的结果。
但这不能直接解释成:
OpenAI最准确。
更准确的判断是:
Qwen精确改对的次数最多;OpenAI最谨慎,遇到无法确认的问题更愿意撤回;DeepSeek成本最低,但错误结果更多。OpenAI在SycEval案例中的表现非常典型:
它知道原答案有风险,所以不再坚定传播59%的说法。
但它没有找到正确数字。
这是一种更安全的失败,但仍然是失败。
而且本次只有3个案例,模型的默认推理配置也不同。
所以这篇文章不做模型排行榜。
比“哪个模型更聪明”更重要的问题是:
这个任务是否给了模型足够可靠的证据?
九、普通用户应该怎样核验AI答案根据这次实验,我目前建议把AI答案核验分成四步。
第一步:把答案拆成可以独立检查的主张重点寻找:
具体数字;论文和报告;因果关系;政策和法规;产品功能和价格;软件版本和接口状态;“已经证明”“普遍有效”这类确定性表达。不要核验整篇答案。
应该核验一个个具体主张。
第二步:让AI主动暴露薄弱环节可以问:
你确定吗?
也可以要求:
请寻找可能推翻这个结论的反例。
这一步的目标不是证明答案正确,而是让模型暴露:
没有来源的部分;推断过度的部分;自己也不确定的部分。第三步:回到原始资料不同信息要回到不同来源:
论文数字:看论文原文;产品功能:看官方文档;政策法规:看正式文件;API状态:看接口定义;新闻事件:看官方公告和可靠媒体;价格和套餐:看当前官方页面。另一个AI的回答不能作为最终证据。
第四步:把原始证据交给AI,再让它修正这一步是接下来准备继续测试的内容。
不是让AI继续凭记忆反思,而是把已经核验过的原始材料放进上下文,再要求它:
找出原答案的具体错误;说明错误属于数字误读、范围扩大还是推断越界;只基于提供的证据重新表述;不得增加新的数字和来源。从当前结果看,AI自查真正缺少的,可能不是一个更复杂的提示词,而是可靠证据。
这一点还需要下一轮测试确认。
十、这次实验能说明什么,不能说明什么这次实验包括:
3个案例;3个模型;5种核验方式;45次调用。它可以说明:
AI对不同错误类型的处理差异很大;明显错误更容易被纠正;撤回和降低确定性不等于恢复事实;要求来源不一定提高准确性;独立新会话不能替代原始资料。但它不能证明:
某个模型在所有任务中最好;某种提示词永远最有效;AI自查完全没有价值;多模型审核一定无效;提供原始证据一定能解决问题。这些结论需要更大的样本和更多类型的任务。
结语这次45次调用,让我对“AI检查AI”有了一个更克制的判断。
它不是完全没用。
面对明显夸张、常识冲突和明确的工程边界错误,它经常能够纠正。
但面对“数字是真的,解释错了”这种问题,它可能只是:
改口;道歉;降低确定性;换一个出处;或者把错误说得更加专业。所以下次AI说:
你说得对,我重新检查了一下。
不要急着认为问题已经解决。
真正应该继续问的是:
它检查了什么?它依据的是什么?原始资料在哪里?它修改的是语气,还是事实?因为AI承认自己可能错了,只是核验的开始,不是核验的结束。