現(xiàn)在的大語言模型就像準備高考的學生,做純文本推理題時已經(jīng)得心應手,但遇到圖文結合的綜合題就容易翻車。
這背后有兩個大麻煩:一是圖像、文字混合的題目太多樣,平時練的和考場上遇到的差距太大,二是練習題里魚龍混雜,總有不少錯題、偏題,越練反而越糊涂。
最近某高校曹琪博士生和謝彭濤副教授團隊搞出了個新模型DreamPRM-1.5,思路挺有意思,不讓AI盲目刷題,而是學會給習題挑重點,高質(zhì)量的題多練,垃圾題少看。
就靠這招,他們在包含30個學科的"終極測驗"里,成績直接超過了GPT-5和Gemini這些國際大牌。
以前的AI訓練像粗放式復習,比如把數(shù)學、語文按科目劃分重點,這就是DreamPRM初代版本的做法,但實際考試時,同一科目里有的題價值高,有的就是浪費時間。
DreamPRM-1.5玩了把精細操作,給每個訓練樣本單獨標權重,就像好學生整理錯題本,會給經(jīng)典例題畫三顆星,偏題怪題直接打叉,他們搞了兩種實現(xiàn)方式。
InstanceTable就像給每道題單獨寫批注,靈活是靈活,但題目一多就記不過來,適合小規(guī)模數(shù)據(jù)集。
InstanceNet則像總結出一套評分標準,不管多少題都能用這套規(guī)則打分,參數(shù)量固定,應付大規(guī)模訓練更在行。
這種從“按科目加權”到“按樣本加權”的升級,讓AI能在海量數(shù)據(jù)里精準抓重點,避免在垃圾數(shù)據(jù)上浪費算力。
光有加權規(guī)則還不夠,關鍵是權重能跟著效果動態(tài)調(diào)整,團隊用的雙層優(yōu)化框架,就像帶反饋的教學系統(tǒng)。
下層優(yōu)化是學生按當前重點刷題,用樣本權重更新模型參數(shù),上層優(yōu)化是老師根據(jù)??冀Y果調(diào)整重點,在元數(shù)據(jù)集上評估效果后反過來更新權重,這種設計讓權重不是死的,而是跟著推理效果實時變動。
打分機制也很有講究,用生成式獎勵模型給推理過程每步打分,就像老師批改作文不僅看結論,還會逐段批注,每步推理合理就打“+”,不合理就打“-”,最后算平均分。
訓練過程也很實在:先用20k樣本冷啟動,讓模型學會基本的打分規(guī)則,再用100k步迭代精調(diào),單卡NVIDIAA100跑了72小時才完成。
檢驗成果的MMMU基準可不是一般的測試,涵蓋30個學科、183個子領域,從圖表分析到化學結構無所不包,堪稱多模態(tài)推理的“高考地獄模式”。
結果相當亮眼:GPT-5-mini基礎版考了80分,用DreamPRM-1.5的InstanceTable方案直接沖到84.6分,InstanceNet也有83.6分。
更厲害的是,這成績超過了GPT-5原版(84.2分)和Gemini2.5Pro(84.0分)這些閉源大模型。
對比實驗很能說明問題:不做加權的對照組只拿79.1分,比基線還低,用了400k大數(shù)據(jù)的VisualPRM才80.5分,證明數(shù)據(jù)多不如數(shù)據(jù)精,經(jīng)典的Self-consistency方法81.4分,還是拼不過動態(tài)加權。
DreamPRM-1.5的突破,本質(zhì)上是讓AI訓練從“題海戰(zhàn)術”轉向“精準教學”,在大模型參數(shù)競賽遇到瓶頸的今天,這種精打細算的數(shù)據(jù)利用方式,可能比盲目擴大參數(shù)量更有前途。
就像好老師懂得因材施教,好的AI訓練框架也該懂得“因數(shù)據(jù)施教”,中國團隊這次拿出的不僅是個SOTA模型,更提供了一種思路,在數(shù)據(jù)爆炸的時代,學會篩選和聚焦,比貪多求全更重要。
未來的AI競爭,或許不再是誰的模型更大,而是誰能更聰明地利用數(shù)據(jù),畢竟真正的智慧不在于擁有多少信息,而在于能從中提取多少價值。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.