夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

騰訊發(fā)布超低成本AI訓練法!120元效果秒殺70000元微調方案

0
分享至

時令 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

只花120元,效果吊打70000元微調!

騰訊提出一種升級大模型智能體的新方法——無訓練組相對策略優(yōu)化Training-Free GRPO。

無需調整任何參數(shù),只要在提示詞中學習簡短經驗,即可實現(xiàn)高性價比提升模型性能。



實驗表明,在數(shù)學推理和網頁搜索任務上,利用無訓練GRPO的DeepSeek-V3.1-Terminus模型展現(xiàn)出顯著的跨領域性能提升。

與微調32B模型相比,該方法在671B大型模型上所需訓練數(shù)據更少、成本更低。



網友不禁表示:

  • 也太劃算了吧!



下面具體來看。

將經驗知識作為token先驗

如今,大語言模型正逐漸成為強大的通用智能體,在復雜問題解決、網頁研究等通用任務中表現(xiàn)出色。

然而,在需外部工具(如計算器、API) 和特定提示策略的專業(yè)場景中,LLM往往會因對領域需求和工具不熟悉,而導致性能欠佳。

為了彌補上述差距,基于GRPO的強化學習通過參數(shù)空間調整實現(xiàn)對模型行為的定向優(yōu)化。盡管這些方法能有效提升特定任務的能力,但其對LLM參數(shù)調優(yōu)的依賴仍存在多方面挑戰(zhàn):

  • 算力成本高;
  • 跨領域泛化能力弱;
  • 數(shù)據稀缺;
  • 收益遞減。

參數(shù)調優(yōu)中的這些局限引發(fā)了一個根本性問題:在參數(shù)空間中應用強化學習是否是唯一可行的方法?能否以非參數(shù)化的方式提升LLM智能體的性能,同時降低數(shù)據和計算成本?

為此,騰訊優(yōu)圖團隊提出了無訓練組相對策略優(yōu)化,通過輕量級的token先驗在上下文中學習經驗知識,無需修改模型參數(shù)即可提升LLM智能體性能。



Training-Free GRPO重新利用了傳統(tǒng)GRPO基于組間相對評估的核心邏輯,但將其轉化為非參數(shù)化的推理階段過程。

該方法保持參數(shù)θ永久凍結,轉而維護一個外部經驗知識庫(初始為空集),通過動態(tài)更新知識庫而非模型參數(shù)來實現(xiàn)性能優(yōu)化。

隨后,Training-Free GRPO生成自然語言形式的組相對語義優(yōu)勢。



具體流程如下所示:

1、對于每個輸出,免訓練GRPO首先讓同一個大語言模型M生成對應分析摘要。



2、基于摘要集和當前經驗,由M說明每個輸出相對成功或失敗的原因,然后提取出簡明的自然語言經驗。

之后,傳統(tǒng)GRPO會通過對單個批次中所有優(yōu)勢計算得到的目標函數(shù)進行梯度上升,從而更新模型參數(shù)θ。

而在Training-Free GRPO中,該方法通過使用當前批次中的所有語義優(yōu)勢A_text來更新經驗庫,每條操作可能包括:

  • Add(添加):將A_text中描述的經驗直接追加到經驗庫
    中。
  • Delete(刪除):根據A_text,從經驗庫中移除低質量經驗。
  • Modify(修改):根據A_text提供的見解,優(yōu)化或改進經驗庫中已有的經驗。
  • Keep(保留):經驗庫保持不變。

在更新經驗庫后,條件策略會在隨后的批次或訓練輪次中生成偏移后的輸出分布。

可以說,Training-Free GRPO是通過改變上下文而非模型參數(shù)本身,將模型引向高獎勵輸出。

其中,被凍結的基礎模型起到了強先驗(strong prior)的作用,不僅保證輸出的連貫性,還提供了類似于GRPO中KL散度約束的內在穩(wěn)定性,防止策略過度偏離參考模型。

實驗結果

為評估免訓練GRPO方法的性能,團隊在數(shù)學推理和網絡搜索兩大基準測試上開展了多維度對比實驗。

在實驗中,研究主要關注的是現(xiàn)實應用中難以微調且成本高昂的大型高性能LLM,例如DeepSeek-V3.1-Terminus。



實驗結果顯示,Training-Free GRPO在數(shù)學推理任務中取得了顯著提升,無論是否使用工具,均表現(xiàn)出明顯優(yōu)勢。

基線模型DeepSeek-V3.1-Terminus+ReAct在AIME24和AIME25上的得分分別為80.0%和 67.9%,而應用Training Free GRPO后,凍結模型的表現(xiàn)顯著提升至82.7%和73.3%,分別帶來2.7%和5.4%的絕對增益。

值得注意的是,這一提升僅使用了100個跨域訓練樣本,并且無需任何梯度更新。相比之下,傳統(tǒng)強化學習方法如ReTool和AFM在32B LLM上通常需要數(shù)千個訓練樣本,成本超過10000美元,而Training Free GRPO僅需約18美元。



在AIME24和AIME25實驗中,隨著每一步學習,模型表現(xiàn)持續(xù)提升,這表明僅從100個問題中學到的經驗能夠有效泛化,同時也凸顯了多步學習的必要性。

此外,在訓練過程以及跨域評估中,模型的平均工具調用次數(shù)都有所下降。這表明Training-Free GRPO不僅促使模型做出正確的推理和決策,還能教會智能體更高效、更謹慎地使用工具。

學習到的經驗知識幫助智能體發(fā)現(xiàn)一些捷徑,避免錯誤或冗余的工具調用,從而驗證了基于語義優(yōu)勢優(yōu)化方法的有效性。

在網絡搜索任務中,團隊選擇在WebWalkerQA基準上評估免訓練GRPO方法的有效性。



可以看出,該方法在使用DeepSeek-V3.1-Terminus模型時實現(xiàn)了67.8%的Pass@1得分,較基線63.2%有顯著提升。

此外,研究還對來自WebWalkerQA的51個實例進行分層隨機抽樣,以開展消融實驗。



由上圖可知,直接使用生成的經驗會略微降低ReAct的性能(Pass@1 為64.7%,相比原來的66.7%),這說明僅靠上下文示例而沒有經過優(yōu)化,難以帶來性能提升。

不使用真實答案的Training-Free GRPO在Pass@1上與ReAct保持一致(66.7%),但在Pass@3上提升到78.4%,表明即使沒有真實答案,通過相對獎勵評估也能提高輸出的一致性。

完整的Training-Free GRPO則取得了最佳表現(xiàn)(Pass@1為68.6%,Pass@3為78.4%),凸顯了結合真實答案指導、語義優(yōu)勢和經驗優(yōu)化的重要性。

此外,研究還驗證了模型能力是基于經驗優(yōu)化能否有效的前提條件。

實驗將Training-Free GRPO應用于QwQ-32B時,Pass@1僅為25.5%,遠低于DeepSeek-V3.1-Terminus的66.7%,甚至低于其自身的ReAct基線(27.5%)。這表明該方法的有效性依賴于基礎模型在復雜工具使用場景中的推理和工具使用能力。

論文鏈接:https://arxiv.org/abs/2510.08191
參考鏈接:https://x.com/rohanpaul_ai/status/1978048482003890625
Github鏈接:https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
荷蘭凍結中企資產后,歐盟要求中資轉讓技術,中方連提3個反對

荷蘭凍結中企資產后,歐盟要求中資轉讓技術,中方連提3個反對

趣味萌寵的日常
2025-10-16 11:38:11
深圳知名老板成老賴,57億地標被抵債

深圳知名老板成老賴,57億地標被抵債

新浪財經
2025-10-16 19:17:07
1210萬!中美港務費之戰(zhàn)開打!

1210萬!中美港務費之戰(zhàn)開打!

新浪財經
2025-10-16 11:06:09
你聽過最離譜的事是什么?網友:抱著她,她和老公打電話

你聽過最離譜的事是什么?網友:抱著她,她和老公打電話

帶你感受人間冷暖
2025-08-31 17:45:25
弟弟結婚我送18萬,次日他來電:錢太少了,媽說你給我出88萬彩禮

弟弟結婚我送18萬,次日他來電:錢太少了,媽說你給我出88萬彩禮

張道陵秘話
2025-10-16 21:56:00
95年我去廠醫(yī)室看病,漂亮女醫(yī)生關上門:褲子脫了給你好好瞧瞧病

95年我去廠醫(yī)室看病,漂亮女醫(yī)生關上門:褲子脫了給你好好瞧瞧病

云端小院
2025-10-06 08:29:01
美起訴柬埔寨電詐集團創(chuàng)辦人 查獲逾140億美元比特幣 嫌犯曾擔任柬總理顧問

美起訴柬埔寨電詐集團創(chuàng)辦人 查獲逾140億美元比特幣 嫌犯曾擔任柬總理顧問

曼谷陳大叔
2025-10-15 16:17:36
黃金,進入瘋牛階段!

黃金,進入瘋牛階段!

李生論金
2025-10-16 16:04:51
房價還會下降嗎?這個泡沫還有多大?歷史的經驗或許有答案

房價還會下降嗎?這個泡沫還有多大?歷史的經驗或許有答案

小談食刻美食
2025-07-27 16:33:42
熊磊來九江發(fā)自拍,態(tài)度轉變對許敏示好?柴桑大姐辟謠跟主播聯(lián)系

熊磊來九江發(fā)自拍,態(tài)度轉變對許敏示好?柴桑大姐辟謠跟主播聯(lián)系

東方不敗然多多
2025-10-17 02:57:35
“美國難以下咽的毒藥”:俄羅斯核潛艇技術,搭配中國工業(yè)產能

“美國難以下咽的毒藥”:俄羅斯核潛艇技術,搭配中國工業(yè)產能

愛史紀
2025-10-15 21:39:15
我聽交警的后續(xù):男生硬剛倆月,訛人女子被拘,不止坐牢這么簡單

我聽交警的后續(xù):男生硬剛倆月,訛人女子被拘,不止坐牢這么簡單

好賢觀史記
2025-10-16 17:39:16
特朗普后悔也晚了,美國對付中國的手段,已經在全世界引起了恐慌

特朗普后悔也晚了,美國對付中國的手段,已經在全世界引起了恐慌

阿天愛旅行
2025-10-13 04:44:05
兩性交往,要想刺激女人的荷爾蒙,只需記住這6點,絕對讓她上頭

兩性交往,要想刺激女人的荷爾蒙,只需記住這6點,絕對讓她上頭

王二哥老搞笑
2025-10-17 02:52:14
塞爾維亞到底什么樣?我住了兩年,說幾句沒人愿聽的實話

塞爾維亞到底什么樣?我住了兩年,說幾句沒人愿聽的實話

戶外釣魚哥阿勇
2025-10-09 08:48:11
氣急敗壞!特朗普又盯上東大這個,這次全網都笑了

氣急敗壞!特朗普又盯上東大這個,這次全網都笑了

新財迷
2025-10-16 22:31:18
伊朗、俄羅斯、委內瑞拉等反美國家,都以為自己在給中國當擋箭牌

伊朗、俄羅斯、委內瑞拉等反美國家,都以為自己在給中國當擋箭牌

百態(tài)人間
2025-10-13 15:25:07
俄專家認為:特朗普最終會對中國讓步,但絕不會允許中國做兩件事

俄專家認為:特朗普最終會對中國讓步,但絕不會允許中國做兩件事

墨羽怪談
2025-10-16 10:02:58
把白醋倒在手上搓一搓,作用厲害了,可惜很多人不知道,快去試試

把白醋倒在手上搓一搓,作用厲害了,可惜很多人不知道,快去試試

妙招酷
2025-09-25 06:55:03
第三波救市已經開始,房價又要沸騰了!

第三波救市已經開始,房價又要沸騰了!

山丘樓評
2025-10-16 14:38:18
2025-10-17 04:04:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11501文章數(shù) 176304關注度
往期回顧 全部

科技要聞

許四清:AI投資押注 “奧林匹克級” 團隊

頭條要聞

出獄僅6天 男子在家持刀對著妻子頭部多次揮砍致其死亡

頭條要聞

出獄僅6天 男子在家持刀對著妻子頭部多次揮砍致其死亡

體育要聞

人口5.5萬,他們還在延續(xù)世界杯的夢想

娛樂要聞

還清債務的劉濤 已走上了另一條大道

財經要聞

愛爾眼科等眼科醫(yī)院慈善資金回流疑云

汽車要聞

提問蓮花馮擎峰:如何保證事故后車門正常開啟?

態(tài)度原創(chuàng)

旅游
時尚
藝術
本地
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

一下老了30歲?!她真讓人認不出

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

考上警犬專業(yè),我和修勾一起卷編制

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 久久久人人人婷婷色东京热| а天堂中文在线官网| 泰国性XXXX极品高清HD| 色欲色欲淫呢综合网| 香港经典A毛片在线播放| 久久天堂av综合色无码专区| 好屌射蜜桃视频在线观看| 精品妓女久久久久亚洲中文| 国产成人综合久久免费导航| 免费av一区二区三区无码| 黑人巨大无码精品一区二区三区| 国产精品美女一区二区三区| 蜜桃成人永久免费| 国产精品久久久不卡无毒| 亚洲欧美中文字幕| 精品一线二线三线无人区| 美女鸡巴黄色视频| 丁香六月国产| 亚洲熟妇自偷自拍另欧美| 久久国语露脸国产精品电影| 中国农村妇女真实BBWBBWBBW| 久久久国产裸体| 国产精品高潮呻吟久久久久| av免费在线无码| AV免费播放一区二区三区| 国产内射传媒| 国产一区二区视频观看体育生| 久久亚洲精品无码播放| 337p人体| 国产偷国产偷亚洲清高网站| 毛片网站在线看| 真人熟妇操小嫩b| 肌肉男同巨大超爽gay网站| 国产内射一区亚洲| 97人妻碰碰碰爽爽爽爽视频| 伊人久久大香线蕉亚洲| 久久综合亚洲| 久久精品国产99久久美女| 无码精品毛片一区二区三区亚洲| www.日本色| 人妻人人看人妻人人添|