一個讓整個AI行業(yè)頭疼的問題,被Meta的科學(xué)家們用一招"四兩撥千斤"給解決了。
當(dāng)所有人都在為數(shù)據(jù)標(biāo)注成本飆升、人工監(jiān)督難以為繼而焦慮時,Meta超級智能實驗室悄然丟出一顆重磅炸彈。
這次,他們讓AI學(xué)會了"自己教自己",而背后的技術(shù)突破,可能徹底改寫整個行業(yè)的游戲規(guī)則。
要理解這次突破有多重要,得先說說AI訓(xùn)練現(xiàn)在面臨的困境,訓(xùn)練一個領(lǐng)先的大模型,需要數(shù)百萬甚至數(shù)千萬條標(biāo)注數(shù)據(jù)。
而每條高質(zhì)量標(biāo)注數(shù)據(jù)的成本高達2-5美元,ChatGPT訓(xùn)練過程中使用的人類反饋數(shù)據(jù)集成本估計超過700萬美元。
更要命的是,Epoch AI的研究估計,到2028年,AI訓(xùn)練數(shù)據(jù)很可能耗盡,這意味著什么?就像建房子沒有磚頭,再先進的AI架構(gòu)也無法進步。
特別是在醫(yī)療診斷、創(chuàng)意寫作這些"不可驗證"的領(lǐng)域,根本沒有標(biāo)準(zhǔn)答案,傳統(tǒng)的監(jiān)督學(xué)習(xí)方法徹底失效。
據(jù)相關(guān)機構(gòu)測算,2023年我國數(shù)據(jù)標(biāo)注產(chǎn)業(yè)規(guī)模已達800億元規(guī)模,但即便如此龐大的投入,仍然無法滿足AI發(fā)展的胃口,很多AI公司都在這個問題上栽了跟頭。
就在所有人一籌莫展的時候,Meta超級智能實驗室推出了CaT(Compute as Teacher)方法,這個方法的核心思想簡單到讓人拍案叫絕:既然缺乏監(jiān)督信號,那就讓AI用自己的推理能力來生成監(jiān)督信號。
具體怎么操作?CaT讓AI模型先生成一堆并行的解答,然后用一個"錨點模型"把這些解答整合成一個高質(zhì)量的參考答案。
就像讓一群學(xué)生先各自答題,然后老師綜合所有答案給出標(biāo)準(zhǔn)答案,再用這個標(biāo)準(zhǔn)答案來指導(dǎo)學(xué)習(xí)。
在CaT中,模型自我合成現(xiàn)有的GRPO推理結(jié)果,調(diào)和分歧、部分解決方案和事實,這種方法巧妙地把原本用于強化學(xué)習(xí)的計算資源,轉(zhuǎn)化成了監(jiān)督學(xué)習(xí)的教師信號。
實驗結(jié)果讓人眼前一亮。,在非可驗證領(lǐng)域(HealthBench)上,CaT在3個模型家族中實現(xiàn)了高達30%的改進,在數(shù)學(xué)推理任務(wù)MATH-500上,最高提升達到27%,要知道,這些提升是在沒有任何額外人工標(biāo)注的情況下實現(xiàn)的。
更神奇的是,結(jié)合強化學(xué)習(xí)的CaT-RL版本表現(xiàn)更優(yōu)秀,甚至能夠超越初始的教師信號,這就像學(xué)生不僅學(xué)會了老師的知識,還青出于藍而勝于藍。
對于不可驗證的任務(wù),CaT還開發(fā)了"自擬評分標(biāo)準(zhǔn)"機制。模型會先生成一個評估標(biāo)準(zhǔn)清單,然后用GPT-4o來判斷答案是否符合這些標(biāo)準(zhǔn),這種方法在效果上甚至能與人類專家標(biāo)注相媲美。
Meta CEO扎克伯格已經(jīng)從OpenAI、Google和Anthropic挖走了大批頂級AI專家,創(chuàng)建Meta超級智能實驗室,典型的薪酬包高達4年2億美元,這比頂級運動員的薪水還要夸張。
Meta正在俄亥俄州建設(shè)代號為"Prometheus"的超大規(guī)模訓(xùn)練集群,甚至使用帳篷來加速數(shù)據(jù)中心建設(shè),這種"不惜一切代價"的投入,正是為了在AI競賽中占據(jù)制高點。
CaT方法的出現(xiàn),可能標(biāo)志著AI訓(xùn)練進入了一個全新階段,不再依賴昂貴的人工標(biāo)注,不再受限于數(shù)據(jù)稀缺,AI真正開始了"自我進化"的征程。
從技術(shù)發(fā)展趨勢看,2024年強化學(xué)習(xí)領(lǐng)域取得了顯著進展,樣本效率顯著提高,探索機制更加智能化,CaT正是站在這些技術(shù)積累之上的又一次飛躍。
對中國AI產(chǎn)業(yè)來說,這個突破有著特殊意義,當(dāng)前全球主流基礎(chǔ)大模型,中文語料僅占全部語料的1%,高質(zhì)量中文數(shù)據(jù)成為制約我國基礎(chǔ)大模型能力的瓶頸,CaT方法提供了一種擺脫數(shù)據(jù)依賴的新路徑。
國家四部門剛剛發(fā)布政策,提出數(shù)據(jù)標(biāo)注產(chǎn)業(yè)年均復(fù)合增長率要超過20%,但CaT的出現(xiàn)表明,未來的競爭可能不再是誰的數(shù)據(jù)更多,而是誰的AI更會"自學(xué)"。
Meta的CaT方法不只是一個技術(shù)突破,更像是打開了AI發(fā)展的一扇新大門,當(dāng)AI學(xué)會自己教自己,人類在這個過程中的角色也在悄然轉(zhuǎn)變。
未來的AI競爭,比拼的將是算法的智慧,而不是數(shù)據(jù)的多寡,這場變革才剛剛開始,但已經(jīng)足夠讓整個行業(yè)為之震撼。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.