[AI]《Propose,Solve,Verify:Self-PlayT

[AI]《Propose, Solve, Verify: Self-Play Through Formal Verification》A Wilf, P Aggarwal, B Parno, D Fried... [CMU] (2025) AI自我进化的征途上，一直存在一个幽灵：如果反馈信号不准确，模型会在自我博弈中逐渐跑偏，最终陷入“幻觉”的死循环。在代码生成领域，这个挑战尤为突出。传统的单元测试就像是抽查，即便通过了所有测试用例，代码依然可能存在逻辑漏洞。这种“奖励作弊”现象限制了大规模自我博弈的可能性。本文为我们指明了方向：利用形式化验证（Formal Verification）作为AI进化的“真理锚点”。以下是该研究的核心洞察与深度解析：1. 形式化验证：从“看起来对”到“证明是对”传统的代码评估依赖于有限的测试用例，而形式化验证则要求模型同时生成代码和数学证明。通过Verus等工具，验证器可以在数学层面保证代码在所有可能的输入下都符合规范。这种“绝对正确”的信号，为自我博弈提供了坚实的基础，彻底杜绝了错误信号的传播。2. PSV框架：提问、解决、验证的闭环论文提出的PSV框架由三个核心环节组成：- 提问（Propose）：提问者模型根据当前的解决能力，生成具有挑战性的形式化规范（Specifications）。- 解决（Solve）：解决者模型尝试编写能够通过验证的代码和证明。- 验证（Verify）：利用形式化验证器给出二进制的反馈信号。通过这种方式，系统可以自主构建一套从易到难的“进化阶梯”。3. 难度感知的课程学习PSV不仅仅是随机出题。研究引入了“难度感知”机制：提问者会根据解决者的历史通过率，动态调整新题目的难度。如果通过率太高，就增加复杂度；如果模型束手无策，则退回基础逻辑。这种类似人类“区带学习”的模式，极大提升了训练效率。4. 令人惊叹的性能飞跃实验结果显示，基于PSV训练出的PSV-Verus模型，在多个基准测试中表现惊人。在某些任务上，其性能比仅在人类数据上微调的模型提升了高达9.6倍。更重要的是，这种提升随着迭代次数和题目数量的增加展现出了清晰的扩展性（Scaling）。5. 摆脱人类数据的依赖这项研究最深刻的启示在于：AI的进化上限可能不再受限于人类积累的存量数据。只要我们能定义清楚“规则”和“验证机制”，模型就能在自创的沙盒中通过无限次的自我博弈，探索出人类尚未触及的逻辑深度。深度思考与金句：- 真正的智能不仅在于给出答案，更在于拥有一个不可撼动的真理准则。- 形式化验证将代码从概率性的艺术变成了确定性的科学。- 当AI学会了自我审视，进化的速度将不再取决于人类教了什么，而取决于逻辑边界在哪里。- 自我博弈的本质，是模型在真理的反馈下，不断与过去的平庸进行决裂。这项工作不仅是代码生成技术的进步，更是通往通用人工智能（AGI）推理能力演进的重要里程碑。原文链接：arxiv.org/abs/2512.18160

0 阅读：0