- +1
“強(qiáng)化學(xué)習(xí)教師”登場(chǎng)!7B模型擊敗671B DeepSeek-R1,小模型也可訓(xùn)練大模型了

俗話說,“授人以魚,不如授人以漁。”即:送人一條魚,不如教他學(xué)會(huì)如何捕魚。
如今,這句話背后的思想,也被應(yīng)用在了強(qiáng)化學(xué)習(xí)(RL)中。
剛剛,由“Transformer八子”之一 Llion Jones 聯(lián)合創(chuàng)立的 AI 初創(chuàng)公司 Sakana AI 提出了一種新的 RL 范式——“強(qiáng)化學(xué)習(xí)教師”(Reinforcement Learned Teacher,RLT) 。
據(jù)介紹,RLT 通過學(xué)習(xí)如何教學(xué)而非直接解決問題,來教會(huì)大語言模型(LLM)如何進(jìn)行推理,有效解決了傳統(tǒng)教師模型 RL 過程耗時(shí)長(zhǎng)、成本高、應(yīng)用領(lǐng)域窄等諸多難題。

圖|強(qiáng)化學(xué)習(xí)教師(RLT)通過訓(xùn)練教師模型從問答對(duì)中生成解釋,來優(yōu)化學(xué)生模型的理解能力。與其從頭開始解決問題,教師的獎(jiǎng)勵(lì)應(yīng)基于其解釋的有效性,即這些解釋如何幫助學(xué)生恢復(fù)正確的解決方案。
在這一過程中,RLT 像人類教師一樣“學(xué)習(xí)如何教學(xué)”,并基于已知解決方案輸出清晰的分步解釋。教師模型不再因自行解決問題而獲得獎(jiǎng)勵(lì),而是因其解釋對(duì)學(xué)生模型有多大幫助而獲得獎(jiǎng)勵(lì)。這種反饋機(jī)制使得教師模型的訓(xùn)練與其「幫助學(xué)生」的實(shí)際目的相一致,提升了訓(xùn)練效果。

結(jié)果顯示,在教授推理技能方面,7B 大小的教師模型的表現(xiàn)超過了規(guī)模大幾個(gè)數(shù)量級(jí)的模型(如 671B DeepSeek-R1)。而且,這一結(jié)果不僅適用于規(guī)模相同的學(xué)生模型,也適用于規(guī)模遠(yuǎn)大于教師模型(如 32B)的學(xué)生模型。
相關(guān)研究論文以“Reinforcement Learning Teachers of Test Time Scaling”為題,已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。

論文鏈接:
https://arxiv.org/abs/2506.08388
強(qiáng)化學(xué)習(xí)新范式:學(xué)習(xí)「教學(xué)」
受人類教師工作方式的啟發(fā),正如一位優(yōu)秀的人類教師無需重新發(fā)現(xiàn)數(shù)學(xué)定理就能解釋它們一樣,RLT 在輸入提示中同時(shí)獲得每個(gè)問題的題目和正確答案,它們的任務(wù)是通過有幫助的、分步解釋來幫助學(xué)生模型從中學(xué)習(xí)。

這項(xiàng)研究的主要亮點(diǎn)在于:改變了訓(xùn)練教師模型的方式。RLT 被訓(xùn)練以最大化其解釋的清晰度和指導(dǎo)性,類似于人類教師在課堂上評(píng)估學(xué)生理解程度的方式。具體來說,如果學(xué)生模型能夠輕松理解教師模型對(duì)問題的解釋所給出的正確解決方案,這表明教師模型教學(xué)效果好。
這一方法解決了傳統(tǒng)“學(xué)習(xí)解決”框架中的兩大問題。首先,這一新訓(xùn)練循環(huán)將教師模型訓(xùn)練與其實(shí)際目的(即通過蒸餾/冷啟動(dòng)機(jī)制幫助學(xué)生)相對(duì)齊,使其效果顯著提升。其次,向 RLT 同時(shí)輸入問題及其正確答案,使研究團(tuán)隊(duì)能夠使用小而高效的教師模型,這些模型在沒有輸入的情況下無法獨(dú)立解決問題。
相比于規(guī)模更大的教師模,如 DeepSeek-R1(671B),7B RLT 模型在數(shù)學(xué)和科學(xué)領(lǐng)域的多個(gè)挑戰(zhàn)性基準(zhǔn)測(cè)試中表現(xiàn)更優(yōu)。

值得一提的是,當(dāng)使用 7B RLT 模型訓(xùn)練更大規(guī)模(如 32B)的學(xué)生模型時(shí),也表現(xiàn)出了更好的結(jié)果。這表明,小型專業(yè)化教師模型能夠?qū)⑸疃韧评砑寄苻D(zhuǎn)移到規(guī)模大得多的學(xué)生模型中。

他們還發(fā)現(xiàn),RLT 與傳統(tǒng) RL 方法相輔相成。當(dāng)作為起點(diǎn)使用時(shí),RLT 幫助學(xué)生模型達(dá)到了更高的性能水平。從成本角度來看,差異非常顯著:使用 RLT 訓(xùn)練 32B 學(xué)生模型在單個(gè)計(jì)算節(jié)點(diǎn)上不到一天即可完成,而傳統(tǒng) RL 在相同硬件上則需要數(shù)月時(shí)間。

邁向更先進(jìn)、更經(jīng)濟(jì)的推理模型
研究團(tuán)隊(duì)表示,RLT 重新定義了構(gòu)建推理模型的方式。與從頭開始訓(xùn)練模型解決問題不同,RLT 訓(xùn)練模型清晰地解釋已知解決方案,這與經(jīng)驗(yàn)豐富的人類教師相似。這種轉(zhuǎn)變使得將 RL 應(yīng)用于此前被認(rèn)為超出語言模型直接處理能力的領(lǐng)域成為可能。
同時(shí),RLT 可能大大降低先進(jìn)模型訓(xùn)練的成本。無需在每個(gè)階段都依賴龐大的系統(tǒng),我們可以訓(xùn)練小型、專業(yè)化的教師模型,并利用它們高效地訓(xùn)練更大規(guī)模的模型。
展望未來,RLT 框架暗示著一個(gè)更令人著迷的構(gòu)想:一個(gè)同時(shí)扮演教師和學(xué)生雙重角色的模型。通過為自身生成解釋,模型能夠隨著時(shí)間的推移,逐步學(xué)會(huì)如何更好地自我教學(xué)。
整理:學(xué)術(shù)君
原標(biāo)題:《「強(qiáng)化學(xué)習(xí)教師」登場(chǎng)!7B模型擊敗671B DeepSeek-R1,小模型也可訓(xùn)練大模型了》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司