魚羊 鷺羽 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
GPT-5,終于亮出真容!
最新實(shí)測,由奧特曼本人帶來,迅速引發(fā)大量圍觀。
瘋狂暗示了一周之后,雖說對(duì)話只是圍繞電視劇推薦,但好歹是有官方實(shí)例了。
當(dāng)然奧特曼其人,放料的同時(shí)還是少不了新的謎語┓( ′?` )┏:
即將進(jìn)入SaaS快時(shí)尚時(shí)代。
比起這種奧式基操,更令人興奮的是,這次有眼疾手快的網(wǎng)友,截到了發(fā)布時(shí)間(秒刪版)???
行吧,這一周的夜,熬起來吧伙計(jì)們。
更多細(xì)節(jié)“泄露”ing
奧特曼持續(xù)的官方放料之外,關(guān)于GPT-5,零零星星的各路消息也正在被歸納總結(jié)出更多關(guān)鍵脈絡(luò)。
比如,在主要競爭對(duì)手Claude一騎當(dāng)先的編程領(lǐng)域,GPT-5被曝重寫了編碼規(guī)則。
首先,是將文本能力與推理層相結(jié)合,模型學(xué)會(huì)更合理地選擇何時(shí)“努力”思考。
其次,GPT-5具備處理真實(shí)工程問題的能力,比如,重構(gòu)“屎山”代碼……
更值得關(guān)注的是,有知情人士透露,GPT-5還用上了Ilya領(lǐng)銜的超級(jí)對(duì)齊團(tuán)隊(duì)的“遺產(chǎn)”——
通用驗(yàn)證器(Universal Verifier)。
這篇論文最早發(fā)表于2024年7月,也就是Ilya官宣離開OpenAI的2個(gè)月之后。
眾所周知,作為Ilya為“控制超級(jí)智能”一手拉起來的團(tuán)隊(duì),超級(jí)對(duì)齊團(tuán)隊(duì)在他和負(fù)責(zé)人Jan Leike離開后迅速被解散。
就在幾天前,現(xiàn)任OpenAI首席研究官M(fèi)ark Chen還解釋了一嘴這件事。他認(rèn)為,對(duì)齊研究已經(jīng)融入OpenAI的核心業(yè)務(wù),模型必須按照預(yù)期工作才能發(fā)揮作用,且當(dāng)前應(yīng)當(dāng)更關(guān)注現(xiàn)有模型的對(duì)齊,而非假設(shè)性的超級(jí)智能。
更直白一點(diǎn)翻譯就是,Ilya這伙人跟現(xiàn)在的OpenAI,話不投機(jī)半句多。
現(xiàn)在,這篇論文的6位作者中,只有Yining Chen和Nat McAleese還留在OpenAI。
使用超級(jí)對(duì)齊團(tuán)隊(duì)技術(shù)
八卦少敘,還是來看看“通用驗(yàn)證器”的具體作用。
消息稱,OpenAI在開發(fā)GPT-5的過程中引入了通用驗(yàn)證器進(jìn)行強(qiáng)化學(xué)習(xí),能讓模型在保持較高準(zhǔn)確率的同時(shí),輸出更清晰的推理過程。
從超級(jí)對(duì)齊團(tuán)隊(duì)發(fā)表的論文來看,他們提出了一種“證明者-驗(yàn)證者游戲”的訓(xùn)練方法,簡單來說就是先在模型內(nèi)部劃分證明者和驗(yàn)證者兩種角色,再讓彼此之間持續(xù)對(duì)抗:
- “靠譜的證明者”負(fù)責(zé)給出正確的解題步驟,并讓驗(yàn)證者認(rèn)可。
- “狡猾的證明者”故意給出錯(cuò)誤步驟,并試圖欺騙驗(yàn)證者。
- 小型“驗(yàn)證者”負(fù)責(zé)準(zhǔn)確區(qū)分正確與錯(cuò)誤方案。
證明者和驗(yàn)證者模型都來自GPT-4系列,且需保證驗(yàn)證者規(guī)模小于證明者,以確保小型驗(yàn)證者在一定程度上可以對(duì)齊人類驗(yàn)證結(jié)果。
為了量化不同角色的作用,分別設(shè)置證明者和驗(yàn)證者的效用函數(shù)。
證明者效用基于獎(jiǎng)勵(lì)函數(shù),為“靠譜的證明者”施加與方案正確性和驗(yàn)證者打分正相關(guān)的獎(jiǎng)勵(lì),而為“狡猾的證明者”提供與方案錯(cuò)誤性和驗(yàn)證者打分正相關(guān)的獎(jiǎng)勵(lì)。
其中獎(jiǎng)勵(lì)函數(shù)需要滿足兩點(diǎn)要求,角色對(duì)齊的方案(如“靠譜的證明者”生成正確答案)獲得的獎(jiǎng)勵(lì)將高于非對(duì)齊方案,且對(duì)齊方案中,驗(yàn)證者打分越高,獎(jiǎng)勵(lì)也隨即增加。
驗(yàn)證者效用則采用交叉熵?fù)p失最小化判斷誤差。
然后進(jìn)行多輪迭代訓(xùn)練,讓證明者通過強(qiáng)化學(xué)習(xí)(PPO)優(yōu)化,分別根據(jù)角色最大化獎(jiǎng)勵(lì),驗(yàn)證者則學(xué)習(xí)如何更好地區(qū)分正確與錯(cuò)誤解決方案。
實(shí)驗(yàn)結(jié)果證明,在每輪訓(xùn)練中,“靠譜”和“狡猾”證明者都能讓驗(yàn)證者打分單調(diào)提升,而“靠譜的證明者”的準(zhǔn)確性整體處于上升趨勢,“狡猾的證明者”生成錯(cuò)誤答案的比例呈現(xiàn)先下降后上升的表現(xiàn),最終能生成與正確答案說服力相當(dāng)?shù)腻e(cuò)誤方案。
在多輪對(duì)抗訓(xùn)練后,“靠譜的證明者”的正確率和“驗(yàn)證者”的抗干擾能力都將不斷提高,且讓模型生成更準(zhǔn)確且易讀的輸出,但與此同時(shí),模型也能生成出更具欺騙性的錯(cuò)誤答案。
基于該技術(shù),GPT-5可以對(duì)每個(gè)答案進(jìn)行評(píng)分,并只保留正確的答案循環(huán)訓(xùn)練,以推出可驗(yàn)證的易讀性答案,后續(xù)即使人類無法完全理解模型的高級(jí)推理,也能通過可擴(kuò)展的小型驗(yàn)證器構(gòu)建起可檢驗(yàn)性約束。
One More Thing
奧特曼瘋狂拋媚眼,宣(chao)傳(zuo)小連招一套接一套。
搞得網(wǎng)上也是真假料滿天飛。
有搶跑實(shí)測視頻的:
有“預(yù)測”基準(zhǔn)的:
還有唱衰的。
The Information就爆料說,GPT-5研發(fā)遇到了比較大的困難,一方面,高質(zhì)量訓(xùn)練數(shù)據(jù)供應(yīng)不足;另一方面,大規(guī)模預(yù)訓(xùn)練收益下降,使得GPT-5的提升不會(huì)像GPT-3到GPT-4那樣有明顯的飛躍。
另外,還存在模型性能轉(zhuǎn)化的落差問題。比如o3,在內(nèi)部測試時(shí)表現(xiàn)出非常強(qiáng)大的性能,但在實(shí)際面向用戶部署之后,性能卻出現(xiàn)了大幅下降。
就如網(wǎng)友所質(zhì)疑的:像此前的所有模型一樣,GPT-5可能發(fā)布1周之后就會(huì)變笨。
不管怎么說,GPT-5箭在弦上,OpenAI應(yīng)該不能不發(fā)……了吧?
參考鏈接:
[1]https://x.com/sama/status/1952071832972186018
[2]https://arxiv.org/abs/2407.13692
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.