夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

自動(dòng)學(xué)會(huì)工具解題,RL擴(kuò)展催化奧數(shù)能力激增17%

0
分享至




在大模型推理能力提升的探索中,工具使用一直是克服語(yǔ)言模型計(jì)算局限性的關(guān)鍵路徑。不過(guò),當(dāng)今的大模型在使用工具方面還存在一些局限,比如預(yù)先確定了工具的使用模式、限制了對(duì)最優(yōu)策略的探索、實(shí)現(xiàn)透明度不足等。

為了解決這些難題,來(lái)自上海交通大學(xué)、SII 和 GAIR的研究團(tuán)隊(duì)提出了一種全新框架ToRL(Tool-Integrated Reinforcement Learning),該方法允許模型直接從基座模型開(kāi)始,通過(guò)強(qiáng)化學(xué)習(xí)自主探索最優(yōu)工具使用策略,而非受限于預(yù)定義的工具使用模式。



  • 論文標(biāo)題:ToRL: Scaling Tool-Integrated RL
  • 論文地址:https://arxiv.org/pdf/2503.23383
  • 代碼地址:https://github.com/GAIR-NLP/ToRL
  • 數(shù)據(jù)集地址:https://github.com/GAIR-NLP/ToRL/tree/main/data/torl_data
  • 模型地址:https://huggingface.co/GAIR/ToRL-7B

實(shí)驗(yàn)表明,這種方法在數(shù)學(xué)推理任務(wù)上取得了顯著突破:ToRL-7B 在 AIME24 上達(dá)到了 43.3% 的準(zhǔn)確率,比不使用工具的基線 RL 模型提高了 14%,比現(xiàn)有的工具集成大模型提高了 17%。



圖 1: ToRL 在 AIME24 等基準(zhǔn)中的性能對(duì)比,優(yōu)于基線和現(xiàn)有 TIR 系統(tǒng)

一、為什么要直接從基座模型擴(kuò)展工具集成強(qiáng)化學(xué)習(xí)?

在傳統(tǒng)工具集成推理(TIR)領(lǐng)域,研究者們長(zhǎng)期遵循著一條看似不可撼動(dòng)的鐵律:必須先通過(guò)監(jiān)督微調(diào)(SFT)教會(huì)模型使用工具,才能進(jìn)行強(qiáng)化學(xué)習(xí)優(yōu)化。這種 "先 SFT 再 RL" 的范式,就像給 AI 套上預(yù)設(shè)的思維枷鎖,雖然能獲得穩(wěn)定的性能提升,卻可能永遠(yuǎn)無(wú)法發(fā)現(xiàn)最優(yōu)的工具使用策略。

正當(dāng)大家沿著這條既定路線堆砌數(shù)據(jù)和算力時(shí),該研究團(tuán)隊(duì)卻大膽提出了一個(gè)假設(shè):如果讓模型完全自主探索工具使用方式,會(huì)怎樣?他們開(kāi)發(fā)的 ToRL 框架就像打開(kāi)了一扇全新的大門(mén) —— 直接從基座模型出發(fā),單純通過(guò)擴(kuò)展強(qiáng)化學(xué)習(xí)讓 AI 自主掌握工具使用的精髓。

實(shí)驗(yàn)結(jié)果令人驚喜:ToRL 不僅打破了傳統(tǒng) TIR 方法的性能天花板,更讓模型自發(fā)涌現(xiàn)出三大重要能力:

  1. 像人類專家般的工具選擇直覺(jué)
  2. 自我修正無(wú)效代碼的元能力
  3. 動(dòng)態(tài)切換計(jì)算與推理的解題智慧

這些能力完全由獎(jiǎng)勵(lì)信號(hào)驅(qū)動(dòng)自然形成,沒(méi)有任何人為預(yù)設(shè)的痕跡。

這不禁讓人思考:ToRL 證明了大模型可能早已具備強(qiáng)大的工具使用能力,只是需要更開(kāi)放的學(xué)習(xí)方式去釋放。當(dāng)主流研究還在為數(shù)據(jù)規(guī)模和算法復(fù)雜度較勁時(shí),ToRL 用事實(shí)告訴我們:有時(shí)候,少一些人為干預(yù),反而能收獲更多意外之喜。



圖 2: ToRL 使用自然語(yǔ)言和代碼工具交叉驗(yàn)證,并在發(fā)現(xiàn)不一致后進(jìn)一步使用使用工具驗(yàn)證

二、技術(shù)解析:ToRL 如何賦予模型自主工具能力

工具集成推理 (TIR) 的基本框架

工具集成推理 (TIR) 使大語(yǔ)言模型能夠通過(guò)編寫(xiě)代碼,利用外部工具執(zhí)行計(jì)算,并基于執(zhí)行結(jié)果迭代生成推理過(guò)程。這一過(guò)程可以用簡(jiǎn)單的語(yǔ)言描述為:

當(dāng)語(yǔ)言模型面對(duì)一個(gè)問(wèn)題時(shí),TIR 允許模型構(gòu)建一個(gè)包含多個(gè)步驟的推理軌跡。在每一步中,模型首先用自然語(yǔ)言進(jìn)行推理,然后生成相關(guān)代碼,接著獲取代碼的執(zhí)行結(jié)果,并將這三部分內(nèi)容組合起來(lái)形成完整的推理過(guò)程。隨著推理的深入,模型會(huì)不斷參考之前的推理內(nèi)容、代碼及其執(zhí)行結(jié)果,進(jìn)一步調(diào)整自己的思路。

ToRL: 直接從基座模型的強(qiáng)化學(xué)習(xí)

ToRL 框架將 TIR 與直接從基座語(yǔ)言模型開(kāi)始的強(qiáng)化學(xué)習(xí)相結(jié)合,而不需要先進(jìn)行監(jiān)督微調(diào)。這使得模型能夠自主發(fā)現(xiàn)有效的工具使用策略。

在模型的推理過(guò)程中,當(dāng)檢測(cè)到代碼終止標(biāo)識(shí)符 (```output) 時(shí),系統(tǒng)會(huì)暫停文本生成,提取最新的代碼塊執(zhí)行,并將結(jié)構(gòu)化執(zhí)行結(jié)果插入上下文中。系統(tǒng)會(huì)繼續(xù)生成后續(xù)的自然語(yǔ)言推理,直到模型提供最終答案或生成新的代碼塊。

設(shè)計(jì)選擇與考量:

  • 工具調(diào)用頻率控制:為了平衡訓(xùn)練效率,引入超參數(shù) C,表示每次響應(yīng)生成允許的最大工具調(diào)用次數(shù);
  • 執(zhí)行環(huán)境選擇:選擇穩(wěn)定、準(zhǔn)確和響應(yīng)迅速的代碼解釋器實(shí)現(xiàn);
  • 錯(cuò)誤消息處理:提取關(guān)鍵錯(cuò)誤信息,減少上下文長(zhǎng)度;
  • 沙盒輸出掩碼:在損失計(jì)算中掩蓋沙盒環(huán)境的輸出,提高訓(xùn)練穩(wěn)定性。

獎(jiǎng)勵(lì)設(shè)計(jì):實(shí)現(xiàn)了基于規(guī)則的獎(jiǎng)勵(lì)函數(shù),正確答案獲得 + 1 獎(jiǎng)勵(lì),錯(cuò)誤答案獲得 - 1 獎(jiǎng)勵(lì)。此外,研究還嘗試探究了基于執(zhí)行的懲罰:含有不可執(zhí)行代碼的響應(yīng)會(huì)導(dǎo)致 - 0.5 的獎(jiǎng)勵(lì)減少。在默認(rèn)實(shí)驗(yàn)設(shè)置中,僅使用了答案正確性的 reward。

三、實(shí)驗(yàn)驗(yàn)證:ToRL 的性能優(yōu)勢(shì)



圖 3: ToRL 在數(shù)學(xué)基準(zhǔn)測(cè)試上的準(zhǔn)確率比較

實(shí)驗(yàn)結(jié)果表明,ToRL 在所有測(cè)試基準(zhǔn)上的表現(xiàn)始終優(yōu)于基線模型。對(duì)于 1.5B 參數(shù)模型,ToRL-1.5B 的平均準(zhǔn)確率達(dá)到了 48.5%,超過(guò)了 Qwen2.5-Math-1.5B-Instruct (35.9%) 和 Qwen2.5-Math-1.5B-Instruct-TIR (41.3%)。在 7B 參數(shù)模型中,性能提升更加顯著,ToRL-7B 達(dá)到了 62.1% 的平均準(zhǔn)確率,比具有相同基礎(chǔ)模型的其他開(kāi)源模型高出 14.7%。



圖 4: ToRL 在數(shù)學(xué)基準(zhǔn)測(cè)試上的訓(xùn)練動(dòng)態(tài)

圖 4 展示了在五個(gè)不同數(shù)學(xué)基準(zhǔn)上的訓(xùn)練動(dòng)態(tài)。ToRL-7B 在訓(xùn)練步驟中顯示出持續(xù)改進(jìn),并保持明顯優(yōu)勢(shì)。這種性能差距在具有挑戰(zhàn)性的基準(zhǔn)上尤為顯著,如 AIME24 (43.3%)、AIME25 (30.0%) 和 OlympiadBench (49.9%)。

四、行為探索:模型使用工具的認(rèn)知模式

訓(xùn)練中的工具使用進(jìn)化



圖 5: 訓(xùn)練步數(shù)增加時(shí),ToRL 的代碼使用率與有效性變化

圖 5 提供了訓(xùn)練過(guò)程中工具使用模式的深入洞察:

  • 代碼比率:模型生成的包含代碼的響應(yīng)比例在前 100 步內(nèi)從 40% 增加到 80%,展示了整個(gè)訓(xùn)練過(guò)程中的穩(wěn)定提升
  • 通過(guò)率:成功執(zhí)行的代碼比例呈現(xiàn)持續(xù)上升趨勢(shì),反映了模型增強(qiáng)的編碼能力
  • 正確 / 錯(cuò)誤響應(yīng)的通過(guò)率:揭示了代碼執(zhí)行錯(cuò)誤與最終答案準(zhǔn)確性之間的相關(guān)性,正確響應(yīng)表現(xiàn)出更高的代碼通過(guò)率
  • 有效代碼比率:檢查有效代碼比例的變化,包括成功執(zhí)行的代碼和在模型提供最終答案前生成的代碼,兩者都隨著訓(xùn)練時(shí)間增加而提高

關(guān)鍵發(fā)現(xiàn):隨著訓(xùn)練步驟的增加,模型解決問(wèn)題使用代碼的比例以及可以正確執(zhí)行的代碼比例持續(xù)增長(zhǎng)。同時(shí),模型能夠識(shí)別并減少無(wú)效代碼的生成。

關(guān)鍵參數(shù)設(shè)置的影響



圖 6: 探索相應(yīng)最大次數(shù)(左 2 圖)和可執(zhí)行(右 2 圖)對(duì)模型性能的影響

研究團(tuán)隊(duì)探索了關(guān)鍵 ToRL 設(shè)置對(duì)最終性能和行為的影響:

首先,實(shí)驗(yàn)探究了增加 C(單次響應(yīng)生成中可調(diào)用的最大工具數(shù))的影響。將 C 從 1 增加到 2 顯著提高了性能,平均準(zhǔn)確率提高約 2%。然而,增加 C 會(huì)大幅降低訓(xùn)練速度,需要在性能和效率之間進(jìn)行權(quán)衡。

此外,分析了將代碼可執(zhí)行性獎(jiǎng)勵(lì)納入獎(jiǎng)勵(lì)塑造的影響。結(jié)果表明,這種獎(jiǎng)勵(lì)設(shè)計(jì)并未提高模型性能。研究團(tuán)隊(duì)推測(cè),對(duì)執(zhí)行錯(cuò)誤進(jìn)行懲罰可能會(huì)激勵(lì)模型生成過(guò)于簡(jiǎn)單的代碼以最小化錯(cuò)誤,從而可能阻礙其正確解決問(wèn)題的能力。

通過(guò)強(qiáng)化學(xué)習(xí)擴(kuò)展涌現(xiàn)的認(rèn)知行為

模型訓(xùn)練后期出現(xiàn)了一些有趣的現(xiàn)象,這些現(xiàn)象幫助我們深入理解模型使用工具解決問(wèn)題的認(rèn)知行為。

例如,模型能夠根據(jù)代碼解釋器的執(zhí)行反饋調(diào)整其推理。在一個(gè)案例中,模型首先編寫(xiě)了代碼,但由于不當(dāng)處理導(dǎo)致索引錯(cuò)誤。在收到 "TypeError: 'int' object is not subscriptable" 的反饋后,它迅速調(diào)整并生成了可執(zhí)行代碼,最終推斷出正確答案。



圖 7: 案例 1-ToRL 通過(guò)執(zhí)行器報(bào)錯(cuò)反饋重新構(gòu)建推理代碼

另一個(gè)案例展示了模型的反思認(rèn)知行為。模型最初通過(guò)自然語(yǔ)言推理解決問(wèn)題,然后通過(guò)工具進(jìn)行驗(yàn)證,但發(fā)現(xiàn)不一致。因此,模型進(jìn)一步進(jìn)行修正,最終生成正確答案。



圖 8: 案例 2-ToRL 使用代碼工具驗(yàn)證修正推理結(jié)果

關(guān)鍵發(fā)現(xiàn):ToRL 產(chǎn)生了多種認(rèn)知行為,包括從代碼執(zhí)行結(jié)果獲取反饋,以及通過(guò)代碼和自然語(yǔ)言進(jìn)行交叉檢查。

五、前景與意義:超越數(shù)學(xué)的工具學(xué)習(xí)

ToRL 使大語(yǔ)言模型能夠通過(guò)強(qiáng)化學(xué)習(xí)將工具整合到推理中,超越預(yù)定義的工具使用約束。研究結(jié)果顯示了顯著的性能提升和涌現(xiàn)的推理能力,展示了 ToRL 在復(fù)雜推理方面推進(jìn)大語(yǔ)言模型發(fā)展的潛力。

這種直接從基座模型擴(kuò)展的方法不僅在數(shù)學(xué)領(lǐng)域表現(xiàn)出色,還為需要精確計(jì)算、模擬或算法推理的其他領(lǐng)域開(kāi)辟了新的可能性,如科學(xué)計(jì)算、經(jīng)濟(jì)建模和算法問(wèn)題解決。

研究團(tuán)隊(duì)已開(kāi)源實(shí)現(xiàn)代碼、數(shù)據(jù)集和訓(xùn)練模型,使社區(qū)能夠在 ToRL 的基礎(chǔ)上進(jìn)一步拓展工具增強(qiáng)語(yǔ)言模型的研究。

項(xiàng)目鏈接:https://github.com/GAIR-NLP/ToRL

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
光緒帝為何不直接殺掉慈禧奪回實(shí)權(quán)?溥儀:這三個(gè)后果他無(wú)法承擔(dān)

光緒帝為何不直接殺掉慈禧奪回實(shí)權(quán)?溥儀:這三個(gè)后果他無(wú)法承擔(dān)

南宗歷史
2025-08-12 05:04:34
女性染上“性癮”是種什么樣的體驗(yàn)?醫(yī)生直言:或與你想象的不同

女性染上“性癮”是種什么樣的體驗(yàn)?醫(yī)生直言:或與你想象的不同

特約前排觀眾
2025-07-09 05:18:05
館長(zhǎng)痛罵吳宗憲:去大陸幾十年卻對(duì)統(tǒng)一沒(méi)貢獻(xiàn),你就是廢物

館長(zhǎng)痛罵吳宗憲:去大陸幾十年卻對(duì)統(tǒng)一沒(méi)貢獻(xiàn),你就是廢物

米君文史
2025-08-14 12:11:23
坑娃父母真不少,張若昀爹媽太離譜,隱瞞生子還債臺(tái)高筑!

坑娃父母真不少,張若昀爹媽太離譜,隱瞞生子還債臺(tái)高筑!

智凌縱橫
2025-08-14 10:39:55
整村搬遷通知!天津這個(gè)村莊開(kāi)始分房啦!

整村搬遷通知!天津這個(gè)村莊開(kāi)始分房啦!

天津人
2025-08-14 08:08:34
案例:湖南一寡婦打麻將時(shí),無(wú)意看見(jiàn)9年前被丈夫殺害的人還活著

案例:湖南一寡婦打麻將時(shí),無(wú)意看見(jiàn)9年前被丈夫殺害的人還活著

墨染塵香
2024-07-05 14:14:02
巴黎隊(duì)史首次!葡籍四將鑄就王朝,2025年成金色之年

巴黎隊(duì)史首次!葡籍四將鑄就王朝,2025年成金色之年

星耀國(guó)際足壇
2025-08-14 14:20:51
A股:不用等周五開(kāi)盤(pán)了,市場(chǎng)動(dòng)向已明顯,明天將毫無(wú)懸念!

A股:不用等周五開(kāi)盤(pán)了,市場(chǎng)動(dòng)向已明顯,明天將毫無(wú)懸念!

財(cái)經(jīng)大拿
2025-08-14 11:33:26
房租收入不再免稅!房東稅全面開(kāi)征!

房租收入不再免稅!房東稅全面開(kāi)征!

燕梳樓頻道
2025-08-13 22:38:48
看誰(shuí)還敢欺負(fù)中國(guó),這就是下場(chǎng)!韓媒哀嚎:韓國(guó)成為最大受害者

看誰(shuí)還敢欺負(fù)中國(guó),這就是下場(chǎng)!韓媒哀嚎:韓國(guó)成為最大受害者

文雅筆墨
2025-08-14 05:10:21
外賣員闖紅燈送孕婦就醫(yī)救兩命,孕婦丈夫翻臉?biāo)饕駬p失費(fèi)20萬(wàn)

外賣員闖紅燈送孕婦就醫(yī)救兩命,孕婦丈夫翻臉?biāo)饕駬p失費(fèi)20萬(wàn)

今天說(shuō)故事
2025-08-04 18:41:09
庫(kù)明加全給防住了!灣區(qū)名記:勇士管理層有多達(dá)43位高管

庫(kù)明加全給防住了!灣區(qū)名記:勇士管理層有多達(dá)43位高管

直播吧
2025-08-14 08:13:16
兩性關(guān)系:70—75歲,如果你還能做到這8件事,真的很牛!

兩性關(guān)系:70—75歲,如果你還能做到這8件事,真的很牛!

特特農(nóng)村生活
2025-08-14 02:20:44
驚人發(fā)現(xiàn) 原來(lái)釋永信只是少林寺高層之一,而且還是三十二分之一

驚人發(fā)現(xiàn) 原來(lái)釋永信只是少林寺高層之一,而且還是三十二分之一

甜檸聊史
2025-08-06 09:24:04
問(wèn)界M9在全球最高公路埡口陷車被營(yíng)救,車主發(fā)視頻感謝遭網(wǎng)暴,當(dāng)事人回應(yīng)

問(wèn)界M9在全球最高公路埡口陷車被營(yíng)救,車主發(fā)視頻感謝遭網(wǎng)暴,當(dāng)事人回應(yīng)

極目新聞
2025-08-12 18:04:26
當(dāng)眾喊“娶莎莎”,和孫穎莎戀情曝光?細(xì)節(jié)被挖,誰(shuí)注意大頭回應(yīng)

當(dāng)眾喊“娶莎莎”,和孫穎莎戀情曝光?細(xì)節(jié)被挖,誰(shuí)注意大頭回應(yīng)

懂球社
2025-08-14 00:39:00
黑豆重新被關(guān)注!醫(yī)生發(fā)現(xiàn):常吃黑豆的人,身體或發(fā)生3大改善

黑豆重新被關(guān)注!醫(yī)生發(fā)現(xiàn):常吃黑豆的人,身體或發(fā)生3大改善

素衣讀史
2025-08-13 17:06:41
秦怡之女金斐姮:用冷漠對(duì)待生父,嫁給軍人,見(jiàn)證母親坎坷一生

秦怡之女金斐姮:用冷漠對(duì)待生父,嫁給軍人,見(jiàn)證母親坎坷一生

小椰的奶奶
2025-08-13 17:57:07
特朗普太囂張,避而不見(jiàn)我們這么重要的國(guó)家,退而見(jiàn)波蘭這種小國(guó)

特朗普太囂張,避而不見(jiàn)我們這么重要的國(guó)家,退而見(jiàn)波蘭這種小國(guó)

大道無(wú)形我有型
2025-08-14 12:57:24
皇馬強(qiáng)烈反對(duì)巴薩邁阿密西甲賽:呼吁歐足聯(lián)介入阻止

皇馬強(qiáng)烈反對(duì)巴薩邁阿密西甲賽:呼吁歐足聯(lián)介入阻止

野薔薇觀察所
2025-08-13 20:10:03
2025-08-14 14:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11083文章數(shù) 142416關(guān)注度
往期回顧 全部

科技要聞

監(jiān)管重拳出擊,直指智駕虛假宣傳、濫用OTA

頭條要聞

女子吃火鍋見(jiàn)碗里活蛆蠕動(dòng)當(dāng)場(chǎng)嘔吐 商家:這是蛋白質(zhì)

頭條要聞

女子吃火鍋見(jiàn)碗里活蛆蠕動(dòng)當(dāng)場(chǎng)嘔吐 商家:這是蛋白質(zhì)

體育要聞

打了21年職業(yè)的玻璃人,終于拿到生涯首冠

娛樂(lè)要聞

張雨綺縱欲過(guò)度?三次婚姻多次戀愛(ài)

財(cái)經(jīng)要聞

許家印同伙!恒大夏海鈞藏身加州爾灣

汽車要聞

大六座SUV還能這么玩 吉利銀河M9動(dòng)態(tài)內(nèi)測(cè)

態(tài)度原創(chuàng)

本地
游戲
教育
健康
軍事航空

本地新聞

云游中國(guó) | 地心探秘!一天穿越池州六大溶洞

外媒8分評(píng)游戲《鬼滅之刃2》:尖叫和嘶吼有點(diǎn)多了

教育要聞

一張圖,讓新傳為我革命

急診科專家解答動(dòng)物抓咬傷八大問(wèn)題

軍事要聞

歐烏給美俄峰會(huì)提條件

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 亚洲av网址在线观看| 夜夜艹狠狠艹狠狠| 久久婷婷五月综合尤物色国产| 老子午夜精品无码| 中文字幕国产日韩| 中国极品少妇xxxxx| αv亚洲αv日韩αⅴ东京| 午夜精品久久久久蜜桃| 久久久久女18| 人妻丝袜无码专区视频网站| 日韩久久久久久中文人妻| 国产精品三级一区二区| 久久精品免视看国产盗摄| 国产深夜久久优| 四虎永久在线精品免费观看视频| CHINESE熟女熟妇1乱老女人| 亚洲国产欧美日韩图片在线人成 | jiujiubb| 99热精品久久| 国产一国产二国产三国产四国产五 | 亚洲av无码xxx麻豆艾秋| 男人女人午夜视频免费| 7777成人在线视频| 欧美成人精品欧美一级乱黄| 国产麻豆视频一区二区| 69久久夜色精品国产69| 性a资源网站在线| 高大丰满欧美熟妇hd| 8x8x拔插拔插影库永久免费 - 神仙玉骨 | 亚洲欧洲日产国无高清码图片| 久久久久波多野结衣高潮| 成年片色大黄全免费网站久久| 最新国产精品自在线观看| 久久久久人妻精品区一三寸| 国产久9视频这里只有精品| 国产亚洲欧美另类一区二区| 亚洲激情成人AV| 欧美精品影院| 国产尤物在线观看| 国产精品色一区二区三区| 国产日产高清欧美一区|