GLM/Qwen: Agentic RL最新进展网页链接一篇总结近期大模型Age

GLM/Qwen: Agentic RL最新进展网页链接一篇总结近期大模型Agentic RL进展的长文，下为最后的总结："GLM 5.2 解决的是长任务 compaction 后 GRPO 失效的问题——超长轨迹被切开后，不同 rollout 产生的子轨迹数量和长度都不一样，组内相对排名没法做了。改用 critic-based PPO 做 token 级 advantage，配套两阶段反作弊（规则 + LLM 裁判），只拦具体违规动作而不中断轨迹。从 PPO 切回 GRPO 再切回 PPO，背后是同一个洞察：traj 越长，value-free 的 credit assignment 越不可靠。

Qwen 的验证系统讲了四类任务：SWE 类靠 Agentic Quality Judge 清洗"烂尾"任务（很多零解决率其实不是真难，是任务质量差），靠 Trajectory Monitor 把作弊率从 28.57% 打到 0.56%；前端类靠 25.9 项打分表 + 交互式裁判（模拟真实点击操作）粉碎代码堆砌式作弊；真实世界类靠提取用户隐式反馈训练 Span-KTO，发现用户极少夸奖但骂得很准（81.8% 高置信度），丢弃差评反而让模型变笨（41.8%→37.2%）；超长周期任务靠裁判智能体自己写测试，迭代五版专治各类毛病，核心point：验证器和生成器必须协同进化，固定的验证系统迟早被更强的模型攻破。

GenAC 发现传统 Critic 的问题不只是训练技巧：价值函数本身可能很复杂（某些生成 MDP 价值计算达 P-complete），而固定深度的 Transformer 受限于 TC0，根本"一口报不出数"。生成式 Critic 让模型先 thinking 再输出整数，结合当前 Actor 的参数规模和胜率，训练后具备 Scaling Law（误差真的随模型变大而下降）和极强稳定性（换种子不崩）。放到 RL 里，GenAC 样本效率最高，当 GRPO/RLOO/VC-PPO 全部陷入瓶颈时它仍在攀升，AIME24 和 GPQA 上误差降幅超一半。

OPID 从自己的轨迹里挖技能，分轨迹级（全局工作流）和步骤级（关键时刻局部决策），按状态路由。小模型提升更明显；去掉技能提示后依然保持优势；GRPO 中期就平台了，OPID 还继续走；用 60% 数据接近 GRPO 全量效果，80% 数据超过全量。最反直觉的是：把两类技能简单叠加反而更差，必须按关键点路由才能发挥作用。"

泡泡资讯网

GLM/Qwen: Agentic RL最新进展网页链接一篇总结近期大模型Age

热门分类