R-zero
1. 这篇论文在解决什么问题
作者观点
作者想解决的是:能不能不依赖人工任务和人工标注,让大模型自己生成训练题、自己生成伪标签、自己持续提升推理能力。论文认为,现有 self-evolving / label-free 方法虽然减少了人工标注,但通常仍然依赖一批现成任务,或者依赖代码执行器这类外部验证环境;这会限制真正“从零数据开始”的自我进化。
Huang 等 - 2025 - R-Zero Self-Ev…
我的分析
这篇论文的本质问题不是普通的“训练一个更强推理模型”,而是:
- 如何摆脱种子数据集
- 如何自动构造 curriculum
- 如何在没有标准标签的情况下做稳定训练
这很难,因为一旦训练数据也由模型自己生成,就会立刻遇到两个根本问题:
- 题目质量:生成的问题是不是有意义、可解、不是胡编
- 标签质量:模型自己投票出来的答案是不是可信
这两个问题如果处理不好,就会进入“模型吃自己生成的数据,越来越偏”的退化循环。
2. 核心思路是什么
一句话
R-Zero 用两个从同一个 base model 初始化出来的角色——Challenger 和 Solver——做协同进化:
- Challenger 负责不断出“刚好卡在 Solver 能力边缘”的题
- Solver 负责学习解这些题
两者循环迭代,不需要任何外部任务和人工标签。
机制解释
整套方法的关键是一个闭环:
- 先有一个当前版本的 Solver
- Challenger 观察这个 Solver 的能力边界,生成让它“最不确定”的问题
- Solver 对这些问题多次作答,多数投票形成伪标签
- 过滤掉太简单或太难的问题,只保留“信息量最大”的题
- 用这些题和伪标签再训练 Solver
- 新 Solver 变强后,Challenger 再继续升级题目难度
这其实是在自动实现一种 capability frontier curriculum:
不是随机造题,而是尽量造出“对当前 Solver 来说最有训练价值的题”。
3. 模型框架怎么理解
论文第 3 节和第 4 页的图 2 是核心。图里清楚画出了上下两个阶段:上半部分训练 Challenger,下半部分训练 Solver。
Huang 等 - 2025 - R-Zero Self-Ev…
3.1 Challenger 的作用
Challenger 是“出题者”。
它的目标不是随便出难题,而是出那种让当前 Solver 大约只有 50% 把握的题。作者专门设计了一个 uncertainty reward:
runcertainty(x;ϕ)=1−2∣p^(x;Sϕ)−12∣r_{\text{uncertainty}}(x;\phi) = 1 - 2 \left| \hat p(x; S_\phi) - \frac{1}{2} \right|runcertainty(x;ϕ)=1−2p^(x;Sϕ)−21
其中 p^\hat pp^ 是当前 Solver 对这个问题的“自一致性正确率”。如果 Solver 十次回答里大多数都一致,说明题太简单;如果十次回答非常混乱,说明它不确定。作者希望奖励在 p^≈0.5\hat p \approx 0.5p^≈0.5 时最大。
Huang 等 - 2025 - R-Zero Self-Ev…
我的分析
这其实是在把“最有训练价值的问题”形式化。
如果题太简单,模型学不到东西;如果题太难,伪标签不可靠、训练噪声大。50% 附近意味着:
- Solver 已经有一点基础
- 但还不稳
- 再训练最有可能提升
这和 curriculum learning 里“边界样本最有信息量”的思想很接近。
3.2 Solver 的作用
Solver 是“解题者”。
它并不直接学人工标注答案,而是学 Challenger 生成的问题,并用自己多次采样后的多数投票答案作为伪标签。之后再用 GRPO 训练自己去输出这些伪标签。
Huang 等 - 2025 - R-Zero Self-Ev…
我的分析
这里最微妙的地方在于:
标签并不是外部真值,而是 Solver 自己投票出的“临时共识”。
这有一个好处和一个风险:
- 好处:完全去掉了人工监督
- 风险:如果共识本身错了,模型会被自己的错误继续强化
论文后面的分析也明确承认了这个问题:伪标签质量会随着迭代变难而下降。
Huang 等 - 2025 - R-Zero Self-Ev…
4. 训练流程具体怎么走
4.1 Challenger training
作者用 GRPO 训练 Challenger,让它学会出“有训练价值的问题”。奖励由三部分构成:
第一部分:格式检查
要求输出必须包在 <question> ... </question> 里,否则直接 reward=0。
Huang 等 - 2025 - R-Zero Self-Ev…
第二部分:不确定性奖励
看 frozen Solver 对这个题是不是处在 50% 左右的成功率。越接近 50%,奖励越高。
Huang 等 - 2025 - R-Zero Self-Ev…
第三部分:重复惩罚
如果 batch 里很多题彼此相似,就扣分。作者用 BLEU 距离聚类,再按簇大小给 repetition penalty。
Huang 等 - 2025 - R-Zero Self-Ev…
最终奖励是:
ri=max(0,runcertainty−rrep)r_i = \max(0, r_{\text{uncertainty}} - r_{\text{rep}})ri=max(0,runcertainty−rrep)
我的分析
这一步的设计很合理,目标非常明确:
- 格式检查:防止输出不可解析
- uncertainty reward:做难度对齐
- repetition penalty:防止 Challenger 找到几个模板后无限重复
其中 repetition penalty 很像“防模式坍缩”的局部修补。因为如果没有它,Challenger 很可能发现某一类题最容易让 Solver 犯错,然后不断刷同类题,导致 curriculum 多样性很差。
4.2 Solver dataset construction
Challenger 更新后,会生成一大批候选问题。
然后对每个问题,让当前 Solver 采样 m=10m=10m=10 次答案,做多数投票得到伪标签。接着,只保留那些经验正确率落在一个“信息带”里的样本。论文里用的是 ∣p^i−1/2∣≤δ|\hat p_i - 1/2| \le \delta∣p^i−1/2∣≤δ,在实验中对应“10 次回答里有 3 到 7 次与多数答案一致”的问题。
Huang 等 - 2025 - R-Zero Self-Ev…
我的分析
这一步非常关键,它不仅是难度筛选,也是质量控制:
- 太一致:题太简单,没训练价值
- 太不一致:题可能有歧义、伪标签也不可靠
- 中间区域:最适合训练
所以 R-Zero 真正的“数据构建机制”不只是生成问题,而是
生成 + 多次求解 + 多数投票 + 难度/质量过滤。
4.3 Solver training
Solver 再用这些过滤后的题和伪标签进行 GRPO 训练。此时 reward 非常简单:只要生成答案和伪标签完全一致,reward=1,否则 0。
Huang 等 - 2025 - R-Zero Self-Ev…
我的分析
这里其实不是传统意义上的 RLVR,因为“verifiable reward”里的 verifier 不是真正外部 oracle,而是由当前系统自举出来的伪标签。
所以这篇论文的难点不在优化算法,而在于:如何让这个伪标签机制尽量不崩。
5. 理论分析讲了什么
论文第 3.5 节试图为 uncertainty reward 提供理论动机。作者引用近期工作,认为学习潜力与 reward variance 相关,而对于二值奖励,方差在 p=0.5p=0.5p=0.5 时最大,因此把 Challenger 奖励设计为偏好“成功率接近 50% 的题”,有助于构造最有效的 curriculum。
Huang 等 - 2025 - R-Zero Self-Ev…
我的分析
这个理论动机是合理的,但你要注意:
- 它更多是“支持性解释”
- 不是严格证明整个系统会收敛或持续提升
也就是说,理论只说明:
为什么 50% 边界问题可能最有训练价值
但并没有解决伪标签会不会越来越差、系统会不会 collapse 的核心问题。
6. 实验结果讲了什么
6.1 数学推理结果
表 1 是数学 benchmark 的主结果。对多个 backbone,R-Zero 经过 3 次迭代后都比 base model 强。比如:
Qwen3-4B-Base:平均从 42.58 提升到 49.07,提升 +6.49
Qwen3-8B-Base:从 49.18 到 54.69,提升 +5.51
OctoThinker-3B:从 26.64 到 29.32,提升 +2.68
OctoThinker-8B:从 36.41 到 38.52,提升 +2.11
Huang 等 - 2025 - R-Zero Self-Ev…
我的分析
这说明方法有一定 backbone 泛化性,不是只对一个模型家族有效。
同时也能看出:Qwen 系列收益明显大于 OctoThinker 系列。这可能意味着:
- backbone 的初始 reasoning 能力不同
- 自举训练对不同模型的可塑性不同
- “从零数据自进化”对强基础模型更友好
6.2 泛化到一般推理
表 2 非常重要。虽然 Challenger 主要生成的是数学题,但性能提升也迁移到了通用 reasoning benchmark:
Qwen3-4B-Base:general-domain overall 从 27.10 提升到 34.92 左右
Qwen3-8B-Base:从 34.49 提升到 38.73
OctoThinker-3B:从 12.27 提升到 15.67
OctoThinker-8B:从 16.81 提升到 26.88
Huang 等 - 2025 - R-Zero Self-Ev…
我的分析
这点很有价值。它说明 R-Zero 学到的可能不只是“数学题模板”,而是某种更基础的 reasoning skill。
但你也要谨慎:这里的 generalization 还是在 benchmark 层面,并不等于真正开放域智能。
7. 这篇论文最有价值的分析部分
我认为论文最有价值的,不是主结果,而是第 5 节分析,因为它把系统的优点和瓶颈都讲得比较坦诚。
7.1 Ablation
表 3 去掉关键模块后的结果表明:
去掉 RL-Challenger,性能掉得最多
去掉 repetition penalty,也会明显变差
去掉 filtering,general 平均分下降尤其明显
Huang 等 - 2025 - R-Zero Self-Ev…
我的分析
这说明 R-Zero 的核心不是“自己出题”这么简单,而是下面三件事缺一不可:
- Challenger 必须经过 RL 训练
- 必须保持题目多样性
- 必须过滤难度和低质量题
如果没有这些,系统就只是“模型给自己随机出题再学”,很容易退化。
7.2 问题难度会越来越高,但标签质量会越来越差
表 4 很关键。作者取不同迭代 Challenger 生成的问题集,发现:
问题确实越来越难
但伪标签准确率从 79% 降到 63%
Huang 等 - 2025 - R-Zero Self-Ev…
我的分析
这揭示了 R-Zero 的根本 trade-off:
- 题更难 → 更有可能提升 Solver
- 题更难 → 多数投票更不可靠 → 标签质量下降
这就是 self-evolving 系统的典型张力。你越想推高难度,就越容易损坏训练信号。
7.3 迭代并不会无限提升,最终会 collapse
第 5.4 节和图 4 显示:
所有模型在前几轮提升后,最终都会开始退化
大模型比小模型更晚 collapse,但不能避免 collapse
Huang 等 - 2025 - R-Zero Self-Ev…
我的分析
这是论文最诚实、也最重要的发现之一。
它说明 R-Zero 不是“无限自进化”的解决方案,而是一个在早期阶段有效、但有内在不稳定性的框架。
7.4 Collapse 不仅仅是 label noise
表 5 里作者发现,不同模型开始退化时,对应的伪标签准确率阈值并不统一。比如:
小模型在 70.6% 准确率时就开始退化
大模型可以忍到 48.8% 才退化
Huang 等 - 2025 - R-Zero Self-Ev…
我的分析
这说明问题不只是“标签错了多少”,而更可能是:
- 自生成数据分布越来越偏
- 模型反复训练在自己分布上,出现 self-consuming collapse
- 内部 bias 被持续放大
这和近几年关于 model collapse 的讨论是一致的。
7.5 为什么要把 Challenger 和 Solver 分开
表 6 做了一个很好的 ablation:如果把 Challenger 和 Solver 参数共享,变成一个 Single-R-Zero,结果明显更差:
峰值更低
更早退化
伪标签质量也更差
Huang 等 - 2025 - R-Zero Self-Ev…
我的分析
这非常关键。它说明“出题者”和“解题者”分离,不只是工程选择,而是机制上有必要。
原因很可能是:
- 同一个模型既出题又解题,会产生过度自信
- 题目分布会更贴近自己的偏好,降低真正的 challenge
- 独立模型能带来某种“对抗性张力”
8. 这篇论文真正的创新点是什么
作者声称的创新
作者强调自己是“zero external data”的 fully autonomous framework,通过 Challenger/Solver 共进化,自主生成任务和伪标签,并显著提升 reasoning 能力。
Huang 等 - 2025 - R-Zero Self-Ev…
我的判断:真实创新点
我会把真实贡献概括成 3 点:
1. 真正把“从零数据自进化”做成一个完整闭环
不是只去掉标签,而是连任务也去掉了。
这一点比普通 label-free RL 更进一步。
Huang 等 - 2025 - R-Zero Self-Ev…
2. 把 curriculum 生成形式化成“最大不确定性”
Challenger 的目标不是随便发难,而是围绕 Solver 的能力边界造题。这个 reward 设计是论文最核心的机制创新。
Huang 等 - 2025 - R-Zero Self-Ev…
3. 系统性揭示 self-evolving 的收益与崩溃机制
特别是后面关于 data accuracy 下降、iteration collapse、parameter sharing 的分析,很有研究价值。
Huang 等 - 2025 - R-Zero Self-Ev…
不算强创新的部分
- GRPO 本身不是创新
- 多数投票伪标签也不是创新
- 数学域自举训练也不是首次出现
真正新的,是如何把这些东西组织成一个从零开始、可迭代的 co-evolution 框架。
9. 这篇论文的优点和问题
优点
1. 问题很前沿
这是典型的 post-R1 时代问题:
大模型能不能不靠人类再喂数据,而自己创造训练信号。
2. 框架简单但清晰
Challenger / Solver 两角色设计非常直观,机制容易分析。
3. 分析部分做得比很多论文扎实
不仅报正结果,还认真分析了 collapse、伪标签噪声和参数共享问题。
Huang 等 - 2025 - R-Zero Self-Ev…
问题
1. 目前主要局限在数学这类相对客观领域
作者自己也承认,框架更适合 correctness 可客观判断的任务;扩展到开放式生成任务还很困难。
Huang 等 - 2025 - R-Zero Self-Ev…
2. 伪标签质量会随迭代下降
这是系统性的瓶颈,不是小修小补能完全解决的。
3. 还没有真正解决长期稳定自进化
论文已经显示多轮后会 collapse。也就是说,它证明了“短期自进化有效”,但没有证明“长期可持续”。
4. 评测中数学 benchmark 有 GPT-4o judge
这本身合理,但也意味着最终评测不是完全无外部模型依赖。
Huang 等 - 2025 - R-Zero Self-Ev…
10. 一句话理解这篇论文
R-Zero 的本质是:让一个模型分裂成“出题者”和“解题者”,通过围绕能力边界自动造题、自动投票打标、自动迭代训练,从零外部数据中挖出 reasoning 提升空间;但这种自进化会随着伪标签质量下降和自训练偏差累积而最终失稳。
Huang 等 - 2025 - R-Zero Self-Ev…
11. 如果你是研究生,读这篇论文最该学什么
我建议你重点学 4 个思想:
1. 不确定性可以用来自动构造 curriculum
不是手工分难度,而是让模型自己找到“最值得学”的题。
2. 自生成数据系统的关键不是生成,而是过滤
生成很容易,真正难的是:
- 题目有没有信息量
- 标签是否可靠
- 分布是否多样
3. 双角色比单角色更稳定
Problem Setter 和 Solver 解耦,是避免自我偏见过度闭环的一种重要手段。
4. Self-evolving 系统一定要研究 collapse
不能只看前两轮涨分,要看长期是否稳定。