▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

“強化學習教師”登場!7B模型擊敗671B DeepSeek-R1,小模型也可訓練大模型了

2025-06-24 15:33
來源:澎湃新聞·澎湃號·湃客
字號

俗話說,“授人以魚,不如授人以漁。”即:送人一條魚,不如教他學會如何捕魚。

如今,這句話背后的思想,也被應用在了強化學習(RL)中。

剛剛,由“Transformer八子”之一 Llion Jones 聯合創立的 AI 初創公司 Sakana AI 提出了一種新的 RL 范式——“強化學習教師”(Reinforcement Learned Teacher,RLT) 。

據介紹,RLT 通過學習如何教學而非直接解決問題,來教會大語言模型(LLM)如何進行推理,有效解決了傳統教師模型 RL 過程耗時長、成本高、應用領域窄等諸多難題。

圖|強化學習教師(RLT)通過訓練教師模型從問答對中生成解釋,來優化學生模型的理解能力。與其從頭開始解決問題,教師的獎勵應基于其解釋的有效性,即這些解釋如何幫助學生恢復正確的解決方案。

在這一過程中,RLT 像人類教師一樣“學習如何教學”,并基于已知解決方案輸出清晰的分步解釋。教師模型不再因自行解決問題而獲得獎勵,而是因其解釋對學生模型有多大幫助而獲得獎勵。這種反饋機制使得教師模型的訓練與其「幫助學生」的實際目的相一致,提升了訓練效果。

結果顯示,在教授推理技能方面,7B 大小的教師模型的表現超過了規模大幾個數量級的模型(如 671B DeepSeek-R1)。而且,這一結果不僅適用于規模相同的學生模型,也適用于規模遠大于教師模型(如 32B)的學生模型。

相關研究論文以“Reinforcement Learning Teachers of Test Time Scaling”為題,已發表在預印本網站 arXiv 上。

論文鏈接:

https://arxiv.org/abs/2506.08388

強化學習新范式:學習「教學」

受人類教師工作方式的啟發,正如一位優秀的人類教師無需重新發現數學定理就能解釋它們一樣,RLT 在輸入提示中同時獲得每個問題的題目和正確答案,它們的任務是通過有幫助的、分步解釋來幫助學生模型從中學習。

這項研究的主要亮點在于:改變了訓練教師模型的方式。RLT 被訓練以最大化其解釋的清晰度和指導性,類似于人類教師在課堂上評估學生理解程度的方式。具體來說,如果學生模型能夠輕松理解教師模型對問題的解釋所給出的正確解決方案,這表明教師模型教學效果好。

這一方法解決了傳統“學習解決”框架中的兩大問題。首先,這一新訓練循環將教師模型訓練與其實際目的(即通過蒸餾/冷啟動機制幫助學生)相對齊,使其效果顯著提升。其次,向 RLT 同時輸入問題及其正確答案,使研究團隊能夠使用小而高效的教師模型,這些模型在沒有輸入的情況下無法獨立解決問題。

相比于規模更大的教師模,如 DeepSeek-R1(671B),7B RLT 模型在數學和科學領域的多個挑戰性基準測試中表現更優。

值得一提的是,當使用 7B RLT 模型訓練更大規模(如 32B)的學生模型時,也表現出了更好的結果。這表明,小型專業化教師模型能夠將深度推理技能轉移到規模大得多的學生模型中。

他們還發現,RLT 與傳統 RL 方法相輔相成。當作為起點使用時,RLT 幫助學生模型達到了更高的性能水平。從成本角度來看,差異非常顯著:使用 RLT 訓練 32B 學生模型在單個計算節點上不到一天即可完成,而傳統 RL 在相同硬件上則需要數月時間。

邁向更先進、更經濟的推理模型

研究團隊表示,RLT 重新定義了構建推理模型的方式。與從頭開始訓練模型解決問題不同,RLT 訓練模型清晰地解釋已知解決方案,這與經驗豐富的人類教師相似。這種轉變使得將 RL 應用于此前被認為超出語言模型直接處理能力的領域成為可能。

同時,RLT 可能大大降低先進模型訓練的成本。無需在每個階段都依賴龐大的系統,我們可以訓練小型、專業化的教師模型,并利用它們高效地訓練更大規模的模型。

展望未來,RLT 框架暗示著一個更令人著迷的構想:一個同時扮演教師和學生雙重角色的模型。通過為自身生成解釋,模型能夠隨著時間的推移,逐步學會如何更好地自我教學。

整理:學術君

原標題:《「強化學習教師」登場!7B模型擊敗671B DeepSeek-R1,小模型也可訓練大模型了》

閱讀原文

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 东乌珠穆沁旗| 五大连池市| 松阳县| 金川县| 庐江县| 蒙城县| 垣曲县| 泰来县| 格尔木市| 湘阴县| 昭觉县| 清远市| 亳州市| 梁平县| 双鸭山市| 同心县| 景宁| 义乌市| 稻城县| 武威市| 河西区| 汉中市| 大石桥市| 章丘市| 安吉县| 石城县| 临海市| 潮安县| 沈阳市| 丰台区| 洱源县| 玉林市| 惠安县| 沁水县| 扶风县| 理塘县| 容城县| 高安市| 陇南市| 章丘市| 威海市|