R-zero

1. 这篇论文在解决什么问题

作者观点

作者想解决的是：能不能不依赖人工任务和人工标注，让大模型自己生成训练题、自己生成伪标签、自己持续提升推理能力。论文认为，现有 self-evolving / label-free 方法虽然减少了人工标注，但通常仍然依赖一批现成任务，或者依赖代码执行器这类外部验证环境；这会限制真正“从零数据开始”的自我进化。

Huang 等 - 2025 - R-Zero Self-Ev…

我的分析

这篇论文的本质问题不是普通的“训练一个更强推理模型”，而是：

如何摆脱种子数据集
如何自动构造 curriculum
如何在没有标准标签的情况下做稳定训练

这很难，因为一旦训练数据也由模型自己生成，就会立刻遇到两个根本问题：

题目质量：生成的问题是不是有意义、可解、不是胡编
标签质量：模型自己投票出来的答案是不是可信

这两个问题如果处理不好，就会进入“模型吃自己生成的数据，越来越偏”的退化循环。

2. 核心思路是什么

一句话

R-Zero 用两个从同一个 base model 初始化出来的角色——Challenger 和 Solver——做协同进化：

Challenger 负责不断出“刚好卡在 Solver 能力边缘”的题
Solver 负责学习解这些题
两者循环迭代，不需要任何外部任务和人工标签。

机制解释

整套方法的关键是一个闭环：

先有一个当前版本的 Solver
Challenger 观察这个 Solver 的能力边界，生成让它“最不确定”的问题
Solver 对这些问题多次作答，多数投票形成伪标签
过滤掉太简单或太难的问题，只保留“信息量最大”的题
用这些题和伪标签再训练 Solver
新 Solver 变强后，Challenger 再继续升级题目难度

这其实是在自动实现一种 capability frontier curriculum：
不是随机造题，而是尽量造出“对当前 Solver 来说最有训练价值的题”。

3. 模型框架怎么理解

论文第 3 节和第 4 页的图 2 是核心。图里清楚画出了上下两个阶段：上半部分训练 Challenger，下半部分训练 Solver。

Huang 等 - 2025 - R-Zero Self-Ev…

3.1 Challenger 的作用

Challenger 是“出题者”。
它的目标不是随便出难题，而是出那种让当前 Solver 大约只有 50% 把握的题。作者专门设计了一个 uncertainty reward：

runcertainty(x;ϕ)=1−2∣p^(x;Sϕ)−12∣r_{\text{uncertainty}}(x;\phi) = 1 - 2 \left| \hat p(x; S_\phi) - \frac{1}{2} \right|runcertainty(x;ϕ)=1−2p^(x;Sϕ)−21

其中 p^\hat pp^ 是当前 Solver 对这个问题的“自一致性正确率”。如果 Solver 十次回答里大多数都一致，说明题太简单；如果十次回答非常混乱，说明它不确定。作者希望奖励在 p^≈0.5\hat p \approx 0.5p^≈0.5 时最大。

Huang 等 - 2025 - R-Zero Self-Ev…

我的分析

这其实是在把“最有训练价值的问题”形式化。
如果题太简单，模型学不到东西；如果题太难，伪标签不可靠、训练噪声大。50% 附近意味着：

Solver 已经有一点基础
但还不稳
再训练最有可能提升

这和 curriculum learning 里“边界样本最有信息量”的思想很接近。

3.2 Solver 的作用

Solver 是“解题者”。
它并不直接学人工标注答案，而是学 Challenger 生成的问题，并用自己多次采样后的多数投票答案作为伪标签。之后再用 GRPO 训练自己去输出这些伪标签。

Huang 等 - 2025 - R-Zero Self-Ev…

我的分析

这里最微妙的地方在于：
标签并不是外部真值，而是 Solver 自己投票出的“临时共识”。

这有一个好处和一个风险：

好处：完全去掉了人工监督
风险：如果共识本身错了，模型会被自己的错误继续强化

论文后面的分析也明确承认了这个问题：伪标签质量会随着迭代变难而下降。

Huang 等 - 2025 - R-Zero Self-Ev…

4. 训练流程具体怎么走

4.1 Challenger training

作者用 GRPO 训练 Challenger，让它学会出“有训练价值的问题”。奖励由三部分构成：

第一部分：格式检查

要求输出必须包在 <question> ... </question> 里，否则直接 reward=0。

Huang 等 - 2025 - R-Zero Self-Ev…

第二部分：不确定性奖励

看 frozen Solver 对这个题是不是处在 50% 左右的成功率。越接近 50%，奖励越高。

Huang 等 - 2025 - R-Zero Self-Ev…

第三部分：重复惩罚

如果 batch 里很多题彼此相似，就扣分。作者用 BLEU 距离聚类，再按簇大小给 repetition penalty。

Huang 等 - 2025 - R-Zero Self-Ev…

最终奖励是：

ri=max⁡(0,runcertainty−rrep)r_i = \max(0, r_{\text{uncertainty}} - r_{\text{rep}})ri=max(0,runcertainty−rrep)

我的分析

这一步的设计很合理，目标非常明确：

格式检查：防止输出不可解析
uncertainty reward：做难度对齐
repetition penalty：防止 Challenger 找到几个模板后无限重复

其中 repetition penalty 很像“防模式坍缩”的局部修补。因为如果没有它，Challenger 很可能发现某一类题最容易让 Solver 犯错，然后不断刷同类题，导致 curriculum 多样性很差。

4.2 Solver dataset construction

Challenger 更新后，会生成一大批候选问题。
然后对每个问题，让当前 Solver 采样 m=10m=10m=10 次答案，做多数投票得到伪标签。接着，只保留那些经验正确率落在一个“信息带”里的样本。论文里用的是 ∣p^i−1/2∣≤δ|\hat p_i - 1/2| \le \delta∣p^i−1/2∣≤δ，在实验中对应“10 次回答里有 3 到 7 次与多数答案一致”的问题。

Huang 等 - 2025 - R-Zero Self-Ev…

我的分析

这一步非常关键，它不仅是难度筛选，也是质量控制：

太一致：题太简单，没训练价值
太不一致：题可能有歧义、伪标签也不可靠
中间区域：最适合训练

所以 R-Zero 真正的“数据构建机制”不只是生成问题，而是
生成 + 多次求解 + 多数投票 + 难度/质量过滤。

4.3 Solver training

Solver 再用这些过滤后的题和伪标签进行 GRPO 训练。此时 reward 非常简单：只要生成答案和伪标签完全一致，reward=1，否则 0。

Huang 等 - 2025 - R-Zero Self-Ev…

我的分析

这里其实不是传统意义上的 RLVR，因为“verifiable reward”里的 verifier 不是真正外部 oracle，而是由当前系统自举出来的伪标签。
所以这篇论文的难点不在优化算法，而在于：如何让这个伪标签机制尽量不崩。

5. 理论分析讲了什么

论文第 3.5 节试图为 uncertainty reward 提供理论动机。作者引用近期工作，认为学习潜力与 reward variance 相关，而对于二值奖励，方差在 p=0.5p=0.5p=0.5 时最大，因此把 Challenger 奖励设计为偏好“成功率接近 50% 的题”，有助于构造最有效的 curriculum。

Huang 等 - 2025 - R-Zero Self-Ev…

我的分析

这个理论动机是合理的，但你要注意：

它更多是“支持性解释”
不是严格证明整个系统会收敛或持续提升

也就是说，理论只说明：
为什么 50% 边界问题可能最有训练价值
但并没有解决伪标签会不会越来越差、系统会不会 collapse 的核心问题。

6. 实验结果讲了什么

6.1 数学推理结果

表 1 是数学 benchmark 的主结果。对多个 backbone，R-Zero 经过 3 次迭代后都比 base model 强。比如：

Qwen3-4B-Base：平均从 42.58 提升到 49.07，提升 +6.49
Qwen3-8B-Base：从 49.18 到 54.69，提升 +5.51
OctoThinker-3B：从 26.64 到 29.32，提升 +2.68
OctoThinker-8B：从 36.41 到 38.52，提升 +2.11

Huang 等 - 2025 - R-Zero Self-Ev…

我的分析

这说明方法有一定 backbone 泛化性，不是只对一个模型家族有效。
同时也能看出：Qwen 系列收益明显大于 OctoThinker 系列。这可能意味着：

backbone 的初始 reasoning 能力不同
自举训练对不同模型的可塑性不同
“从零数据自进化”对强基础模型更友好

6.2 泛化到一般推理

表 2 非常重要。虽然 Challenger 主要生成的是数学题，但性能提升也迁移到了通用 reasoning benchmark：

Qwen3-4B-Base：general-domain overall 从 27.10 提升到 34.92 左右
Qwen3-8B-Base：从 34.49 提升到 38.73
OctoThinker-3B：从 12.27 提升到 15.67
OctoThinker-8B：从 16.81 提升到 26.88

Huang 等 - 2025 - R-Zero Self-Ev…

我的分析

这点很有价值。它说明 R-Zero 学到的可能不只是“数学题模板”，而是某种更基础的 reasoning skill。
但你也要谨慎：这里的 generalization 还是在 benchmark 层面，并不等于真正开放域智能。

7. 这篇论文最有价值的分析部分

我认为论文最有价值的，不是主结果，而是第 5 节分析，因为它把系统的优点和瓶颈都讲得比较坦诚。

7.1 Ablation

表 3 去掉关键模块后的结果表明：

去掉 RL-Challenger，性能掉得最多
去掉 repetition penalty，也会明显变差
去掉 filtering，general 平均分下降尤其明显

Huang 等 - 2025 - R-Zero Self-Ev…

我的分析

这说明 R-Zero 的核心不是“自己出题”这么简单，而是下面三件事缺一不可：

Challenger 必须经过 RL 训练
必须保持题目多样性
必须过滤难度和低质量题

如果没有这些，系统就只是“模型给自己随机出题再学”，很容易退化。

7.2 问题难度会越来越高，但标签质量会越来越差

表 4 很关键。作者取不同迭代 Challenger 生成的问题集，发现：

问题确实越来越难
但伪标签准确率从 79% 降到 63%

Huang 等 - 2025 - R-Zero Self-Ev…

我的分析

这揭示了 R-Zero 的根本 trade-off：

题更难 → 更有可能提升 Solver
题更难 → 多数投票更不可靠 → 标签质量下降

这就是 self-evolving 系统的典型张力。你越想推高难度，就越容易损坏训练信号。

7.3 迭代并不会无限提升，最终会 collapse

第 5.4 节和图 4 显示：

所有模型在前几轮提升后，最终都会开始退化
大模型比小模型更晚 collapse，但不能避免 collapse

Huang 等 - 2025 - R-Zero Self-Ev…

我的分析

这是论文最诚实、也最重要的发现之一。
它说明 R-Zero 不是“无限自进化”的解决方案，而是一个在早期阶段有效、但有内在不稳定性的框架。

7.4 Collapse 不仅仅是 label noise

表 5 里作者发现，不同模型开始退化时，对应的伪标签准确率阈值并不统一。比如：

小模型在 70.6% 准确率时就开始退化
大模型可以忍到 48.8% 才退化

Huang 等 - 2025 - R-Zero Self-Ev…

我的分析

这说明问题不只是“标签错了多少”，而更可能是：

自生成数据分布越来越偏
模型反复训练在自己分布上，出现 self-consuming collapse
内部 bias 被持续放大

这和近几年关于 model collapse 的讨论是一致的。

7.5 为什么要把 Challenger 和 Solver 分开

表 6 做了一个很好的 ablation：如果把 Challenger 和 Solver 参数共享，变成一个 Single-R-Zero，结果明显更差：

峰值更低
更早退化
伪标签质量也更差

Huang 等 - 2025 - R-Zero Self-Ev…

我的分析

这非常关键。它说明“出题者”和“解题者”分离，不只是工程选择，而是机制上有必要。
原因很可能是：

同一个模型既出题又解题，会产生过度自信
题目分布会更贴近自己的偏好，降低真正的 challenge
独立模型能带来某种“对抗性张力”

8. 这篇论文真正的创新点是什么

作者声称的创新

作者强调自己是“zero external data”的 fully autonomous framework，通过 Challenger/Solver 共进化，自主生成任务和伪标签，并显著提升 reasoning 能力。

Huang 等 - 2025 - R-Zero Self-Ev…

我的判断：真实创新点

我会把真实贡献概括成 3 点：

1. 真正把“从零数据自进化”做成一个完整闭环

不是只去掉标签，而是连任务也去掉了。
这一点比普通 label-free RL 更进一步。

Huang 等 - 2025 - R-Zero Self-Ev…

2. 把 curriculum 生成形式化成“最大不确定性”

Challenger 的目标不是随便发难，而是围绕 Solver 的能力边界造题。这个 reward 设计是论文最核心的机制创新。

Huang 等 - 2025 - R-Zero Self-Ev…

3. 系统性揭示 self-evolving 的收益与崩溃机制

特别是后面关于 data accuracy 下降、iteration collapse、parameter sharing 的分析，很有研究价值。

Huang 等 - 2025 - R-Zero Self-Ev…

不算强创新的部分

GRPO 本身不是创新
多数投票伪标签也不是创新
数学域自举训练也不是首次出现

真正新的，是如何把这些东西组织成一个从零开始、可迭代的 co-evolution 框架。

9. 这篇论文的优点和问题

优点

1. 问题很前沿

这是典型的 post-R1 时代问题：
大模型能不能不靠人类再喂数据，而自己创造训练信号。

2. 框架简单但清晰

Challenger / Solver 两角色设计非常直观，机制容易分析。

3. 分析部分做得比很多论文扎实

不仅报正结果，还认真分析了 collapse、伪标签噪声和参数共享问题。

Huang 等 - 2025 - R-Zero Self-Ev…

问题

1. 目前主要局限在数学这类相对客观领域

作者自己也承认，框架更适合 correctness 可客观判断的任务；扩展到开放式生成任务还很困难。

Huang 等 - 2025 - R-Zero Self-Ev…

2. 伪标签质量会随迭代下降

这是系统性的瓶颈，不是小修小补能完全解决的。

3. 还没有真正解决长期稳定自进化

论文已经显示多轮后会 collapse。也就是说，它证明了“短期自进化有效”，但没有证明“长期可持续”。

4. 评测中数学 benchmark 有 GPT-4o judge

这本身合理，但也意味着最终评测不是完全无外部模型依赖。

Huang 等 - 2025 - R-Zero Self-Ev…

10. 一句话理解这篇论文

R-Zero 的本质是：让一个模型分裂成“出题者”和“解题者”，通过围绕能力边界自动造题、自动投票打标、自动迭代训练，从零外部数据中挖出 reasoning 提升空间；但这种自进化会随着伪标签质量下降和自训练偏差累积而最终失稳。

Huang 等 - 2025 - R-Zero Self-Ev…

11. 如果你是研究生，读这篇论文最该学什么

我建议你重点学 4 个思想：

1. 不确定性可以用来自动构造 curriculum

不是手工分难度，而是让模型自己找到“最值得学”的题。

2. 自生成数据系统的关键不是生成，而是过滤

生成很容易，真正难的是：

题目有没有信息量
标签是否可靠
分布是否多样

3. 双角色比单角色更稳定

Problem Setter 和 Solver 解耦，是避免自我偏见过度闭环的一种重要手段。

4. Self-evolving 系统一定要研究 collapse

不能只看前两轮涨分，要看长期是否稳定。

R-zero

http://cathylove47.github.io/2026/03/24/R-zero/

作者

cathy

发布于

2026年3月24日

许可协议

MedR1 下一篇