配资网监督学习也能从错误中学习反思？！清华英伟达联合提出隐式负向策略爆炸提升数学能力

监督学习也能像强化学习一样进行"自我反思"了配资网。

清华大学与英伟达、斯坦福联合提出新的监督学习方案—— NFT（Negative-aware FineTuning），在 RFT（Rejection FineTuning）算法基础上通过构造一个"隐式负向模型" 来额外利用负向数据进行训练。

这并不意味着使用"差数据"进行训练，而是在已知的模型计算结果前提下，通过负向数据训练正向模型，即"隐式负向策略（Implicit Negative Policy）"。

这一策略弥合了监督学习和强化学习的差距，使得两者性能基本持平。

△架构图语言模型在线强化算法光谱图

更让人惊讶的是，NFT 损失函数梯度和 GRPO 在 On-Policy 条件下是等价的！这意味着，GRPO 中人为经验设置的" Group Relative Normalization "方案，可以直接通过理论推导自然得出。

方法：负向策略计算出正向模型

NFT 定义了一个在线强化过程：

1.数据采样：语言模型自己产生大量数学问题答案，通过一个 01 奖励函数，把答案分为正确和错误两类，并统计每个问题回答准确率 [ 数学公式 ] 。

2.隐式策略建模：利用原始模型和待训练正向模型，构造一个隐式负向策略来建模负向数据。

3.策略优化：在正确数据上，直接监督训练正向策略模型；在错误数据上，通过用隐式负向策略拟合建模，达到直接优化正向策略模型的目的。

配资网

考虑这样一个监督学习基线：Rejection sampling Finetuning（RFT）。每一轮，研究团队让模型自己产生大量数学问题答案，通过一个 01 奖励函数，把所有模型产生的错误答案丢弃，仅在高质量正向数据上进行监督训练。

RFT 中，研究团队每一轮的训练目标是：

问题关键在于：能否在负向数据上监督训练，也同样得到上面的"正向策略"呢？

乍看上去是不可能的，在负向数据上训练只能得到没有用的"负向策略"。

然而，问题的转折点在于，数据是已知模型在线采样的，也就是正负向数据分布的和是已知的。由贝叶斯公式可知以下线性关系：

这说明，假设真能在负向数据上学习到一个"负向策略"，可以把这个负向策略和原始生成策略结合，"计算"得出想要的正向模型。

在实际操作中，不是真的去学习一个"差模型"。研究团队提出"隐式负向策略"（Implicit Negative Policy），可以直接在负向数据上训练正向策略。可用以下表达式来参数化隐式负向模型：

其中 rq 表示模型在回答问题 q 时的正确率，现实中由于模型对一个问题会产生多个回答，我们可以很容易地估计 rq 。这里表明隐式负向策略不是一个静态的模型，而是基于不同难度的问题动态构造的。

因此配资网，NFT 损失函数就可以表达为：

对以上损失函数直接求导，研究团队在严格 On-policy 条件下得到和 GRPO 等价的梯度表达式。

这暗示了监督学习和强化学习或许存在深层的联系，也直接说明 NFT 是一个绝对可靠的算法，最差也是退回 On-Policy 训练和 GRPO 等价。

结果：监督强化学习方案性能持平，负向反馈在大模型中优势更加明显

NFT 和当下性能最优的强化学习算法性能持平，部分场景下可能更有优势（可以在现有监督学习框架基础上简单实现）。

与主流 RLHF 算法对比，NFT7B 性能超过 GRPO、DAPO；32B 性能和 DAPO 基本持平。研究团队还观察到，模型越大，NFT 和 RFT 算法性能差异越明显。这暗示了负向反馈在大模型中承担更重要的作用。

和其他已有的基于 Qwen-7B zero style 训练模型相比，NFT 达到最高的数学平均成绩。

作为一个纯监督学习算法，NFT 不依赖任何外界数据，可实现数学能力的大幅提升。

△架构图 NFT 在 Qwen-7B（左）和 32B 模型（右）上性能表现及对比

研究团队还发现 NFT 算法在不损失性能条件下有利于模型熵增加，鼓励模型充分探索。

NFT 算法指出并弥合了强化学习和监督学习的本质差异，这暗示两套机器学习理论存在深层联系，可以帮助研究者重新定位、思考和放大强化训练的本质优势。

项目网页 : https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning/

论文链接 : https://arxiv.org/pdf/2505.18116

项目代码 : https://github.com/NVlabs/NFT

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 点亮星标 � �

科技前沿进展每日见配资网

杨方配资提示：文章来自网络，不代表本站观点。

配资网监督学习也能从错误中学习反思？！清华英伟达联合提出隐式负向策略爆炸提升数学能力

万银鼎信白羊座的 “热血小太阳”：看爱国电影能激动到站起来敬礼，被人笑也不害羞_金牛座_cOm_国旗

配多多李斌立下“军令状”：蔚来今年四季度实现单季盈利明年挑战全年盈利

优配网超级碗后遗症？民调显示周一旷工员工数或创纪录

致富配资花呗致歉

淘股神美军空袭试图突破封锁的油轮

盛多网腾讯2025年净赚超2200亿元微博年度盈利同比增近5成

盈富配资廊坊：锚定智能化绿色化融合化全力构建现代化产业体系

乐配资多家交易所，紧急提示风险

爱一配今日共66只个股发生大宗交易，总成交24.11亿元

中国配资网今日上线！这部电影！在日照拍的！

乐红网拍卖史上最贵的包！原版爱马仕柏金包拍出7200万元天价，买家来自日本

牛势策略全运会：天津大胜吉林小组第二进八强时德帅22分田雨25+9

配多多李斌立下“军令状”：蔚来今年四季度实现单季盈利明年挑战全年盈利

万银鼎信 白羊座的 “热血小太阳”：看爱国电影能激动到站起来敬礼，被人笑也不害羞_金牛座_cOm_国旗

配多多 李斌立下“军令状”：蔚来今年四季度实现单季盈利 明年挑战全年盈利

优配网 超级碗后遗症？民调显示周一旷工员工数或创纪录

万银鼎信白羊座的 “热血小太阳”：看爱国电影能激动到站起来敬礼，被人笑也不害羞_金牛座_cOm_国旗

配多多李斌立下“军令状”：蔚来今年四季度实现单季盈利明年挑战全年盈利

优配网超级碗后遗症？民调显示周一旷工员工数或创纪录