GLM/Qwen: Agentic RL最新进展网页链接一篇总结近期大模型Agentic RL进展的长文,下为最后的总结:"GLM 5.2 解决的是长任务 compaction 后 GRPO 失效的问题——超长轨迹被切开后,不同 rollout 产生的子轨迹数量和长度都不一样,组内相对排名没法做了。改用 critic-based PPO 做 token 级 advantage,配套两阶段反作弊(规则 + LLM 裁判),只拦具体违规动作而不中断轨迹。从 PPO 切回 GRPO 再切回 PPO,背后是同一个洞察:traj 越长,value-free 的 credit assignment 越不可靠。
Qwen 的验证系统讲了四类任务:SWE 类靠 Agentic Quality Judge 清洗"烂尾"任务(很多零解决率其实不是真难,是任务质量差),靠 Trajectory Monitor 把作弊率从 28.57% 打 到 0.56%;前端类靠 25.9 项打分表 + 交互式裁判(模拟真实点击操作)粉碎代码堆砌式作弊;真实世界类靠提取用户隐式反馈训练 Span-KTO,发现用户极少夸奖但骂得很准(81.8% 高置信度),丢弃差评反而让模型变笨(41.8%→37.2%);超长周期任务靠裁判智能体自己写测试,迭代五版专治各类毛病,核心point:验证器和生成器必须协同进化,固定的验证系统迟早被更强的模型攻破。
GenAC 发现传统 Critic 的问题不只是训练技巧:价值函数本身可能很复杂(某些生成 MDP 价值计算达 P-complete),而固定深度的 Transformer 受限于 TC0,根本"一口报不出数"。生成式 Critic 让模型先 thinking 再输出整数,结合当前 Actor 的参数规模和胜率,训练后具备 Scaling Law(误差真的随模型变大而下降)和极强稳定性(换种子不崩)。放到 RL 里,GenAC 样本效率最高,当 GRPO/RLOO/VC-PPO 全部陷入瓶颈时它仍在攀升,AIME24 和 GPQA 上误差降幅超一半。
OPID 从自己的轨迹里挖技能,分轨迹级(全局工作流)和步骤级(关键时刻局部决策),按状态路由。小模型提升更明显;去掉技能提示后依然保持优势;GRPO 中期就平台了,OPID 还继续走;用 60% 数据接近 GRPO 全量效果,80% 数据超过全量。最反直觉的是:把两类技能简单叠加反而更差,必须按关键点路由才能发挥作用。"
