時令 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
只花120元,效果吊打70000元微調!
騰訊提出一種升級大模型智能體的新方法——無訓練組相對策略優(yōu)化Training-Free GRPO。
無需調整任何參數(shù),只要在提示詞中學習簡短經驗,即可實現(xiàn)高性價比提升模型性能。
實驗表明,在數(shù)學推理和網頁搜索任務上,利用無訓練GRPO的DeepSeek-V3.1-Terminus模型展現(xiàn)出顯著的跨領域性能提升。
與微調32B模型相比,該方法在671B大型模型上所需訓練數(shù)據更少、成本更低。
網友不禁表示:
- 也太劃算了吧!
下面具體來看。
將經驗知識作為token先驗
如今,大語言模型正逐漸成為強大的通用智能體,在復雜問題解決、網頁研究等通用任務中表現(xiàn)出色。
然而,在需外部工具(如計算器、API) 和特定提示策略的專業(yè)場景中,LLM往往會因對領域需求和工具不熟悉,而導致性能欠佳。
為了彌補上述差距,基于GRPO的強化學習通過參數(shù)空間調整實現(xiàn)對模型行為的定向優(yōu)化。盡管這些方法能有效提升特定任務的能力,但其對LLM參數(shù)調優(yōu)的依賴仍存在多方面挑戰(zhàn):
- 算力成本高;
- 跨領域泛化能力弱;
- 數(shù)據稀缺;
- 收益遞減。
參數(shù)調優(yōu)中的這些局限引發(fā)了一個根本性問題:在參數(shù)空間中應用強化學習是否是唯一可行的方法?能否以非參數(shù)化的方式提升LLM智能體的性能,同時降低數(shù)據和計算成本?
為此,騰訊優(yōu)圖團隊提出了無訓練組相對策略優(yōu)化,通過輕量級的token先驗在上下文中學習經驗知識,無需修改模型參數(shù)即可提升LLM智能體性能。
Training-Free GRPO重新利用了傳統(tǒng)GRPO基于組間相對評估的核心邏輯,但將其轉化為非參數(shù)化的推理階段過程。
該方法保持參數(shù)θ永久凍結,轉而維護一個外部經驗知識庫(初始為空集),通過動態(tài)更新知識庫而非模型參數(shù)來實現(xiàn)性能優(yōu)化。
隨后,Training-Free GRPO生成自然語言形式的組相對語義優(yōu)勢。
具體流程如下所示:
1、對于每個輸出,免訓練GRPO首先讓同一個大語言模型M生成對應分析摘要。
2、基于摘要集和當前經驗,由M說明每個輸出相對成功或失敗的原因,然后提取出簡明的自然語言經驗。
之后,傳統(tǒng)GRPO會通過對單個批次中所有優(yōu)勢計算得到的目標函數(shù)進行梯度上升,從而更新模型參數(shù)θ。
而在Training-Free GRPO中,該方法通過使用當前批次中的所有語義優(yōu)勢A_text來更新經驗庫,每條操作可能包括:
- Add(添加):將A_text中描述的經驗直接追加到經驗庫
中。 - Delete(刪除):根據A_text,從經驗庫中移除低質量經驗。
- Modify(修改):根據A_text提供的見解,優(yōu)化或改進經驗庫中已有的經驗。
- Keep(保留):經驗庫保持不變。
在更新經驗庫后,條件策略會在隨后的批次或訓練輪次中生成偏移后的輸出分布。
可以說,Training-Free GRPO是通過改變上下文而非模型參數(shù)本身,將模型引向高獎勵輸出。
其中,被凍結的基礎模型起到了強先驗(strong prior)的作用,不僅保證輸出的連貫性,還提供了類似于GRPO中KL散度約束的內在穩(wěn)定性,防止策略過度偏離參考模型。
實驗結果
為評估免訓練GRPO方法的性能,團隊在數(shù)學推理和網絡搜索兩大基準測試上開展了多維度對比實驗。
在實驗中,研究主要關注的是現(xiàn)實應用中難以微調且成本高昂的大型高性能LLM,例如DeepSeek-V3.1-Terminus。
實驗結果顯示,Training-Free GRPO在數(shù)學推理任務中取得了顯著提升,無論是否使用工具,均表現(xiàn)出明顯優(yōu)勢。
基線模型DeepSeek-V3.1-Terminus+ReAct在AIME24和AIME25上的得分分別為80.0%和 67.9%,而應用Training Free GRPO后,凍結模型的表現(xiàn)顯著提升至82.7%和73.3%,分別帶來2.7%和5.4%的絕對增益。
值得注意的是,這一提升僅使用了100個跨域訓練樣本,并且無需任何梯度更新。相比之下,傳統(tǒng)強化學習方法如ReTool和AFM在32B LLM上通常需要數(shù)千個訓練樣本,成本超過10000美元,而Training Free GRPO僅需約18美元。
在AIME24和AIME25實驗中,隨著每一步學習,模型表現(xiàn)持續(xù)提升,這表明僅從100個問題中學到的經驗能夠有效泛化,同時也凸顯了多步學習的必要性。
此外,在訓練過程以及跨域評估中,模型的平均工具調用次數(shù)都有所下降。這表明Training-Free GRPO不僅促使模型做出正確的推理和決策,還能教會智能體更高效、更謹慎地使用工具。
學習到的經驗知識幫助智能體發(fā)現(xiàn)一些捷徑,避免錯誤或冗余的工具調用,從而驗證了基于語義優(yōu)勢優(yōu)化方法的有效性。
在網絡搜索任務中,團隊選擇在WebWalkerQA基準上評估免訓練GRPO方法的有效性。
可以看出,該方法在使用DeepSeek-V3.1-Terminus模型時實現(xiàn)了67.8%的Pass@1得分,較基線63.2%有顯著提升。
此外,研究還對來自WebWalkerQA的51個實例進行分層隨機抽樣,以開展消融實驗。
由上圖可知,直接使用生成的經驗會略微降低ReAct的性能(Pass@1 為64.7%,相比原來的66.7%),這說明僅靠上下文示例而沒有經過優(yōu)化,難以帶來性能提升。
不使用真實答案的Training-Free GRPO在Pass@1上與ReAct保持一致(66.7%),但在Pass@3上提升到78.4%,表明即使沒有真實答案,通過相對獎勵評估也能提高輸出的一致性。
完整的Training-Free GRPO則取得了最佳表現(xiàn)(Pass@1為68.6%,Pass@3為78.4%),凸顯了結合真實答案指導、語義優(yōu)勢和經驗優(yōu)化的重要性。
此外,研究還驗證了模型能力是基于經驗優(yōu)化能否有效的前提條件。
實驗將Training-Free GRPO應用于QwQ-32B時,Pass@1僅為25.5%,遠低于DeepSeek-V3.1-Terminus的66.7%,甚至低于其自身的ReAct基線(27.5%)。這表明該方法的有效性依賴于基礎模型在復雜工具使用場景中的推理和工具使用能力。
論文鏈接:https://arxiv.org/abs/2510.08191
參考鏈接:https://x.com/rohanpaul_ai/status/1978048482003890625
Github鏈接:https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.