機(jī)器之心報(bào)道
編輯:+0、張倩
最近整個(gè) AI 圈的目光似乎都集中在 GPT-5 上,相關(guān)爆料滿天飛,但模型遲遲不見(jiàn)蹤影。
昨天我們報(bào)道了 The Information 扒出的 GPT-5 長(zhǎng)文內(nèi)幕,今天奧特曼似乎也坐不住,發(fā)了推文表示「驚喜很多,值得等待」。
那么,在等待的過(guò)程中,我們來(lái)看看這次 GPT-5 的「疑似王牌」之一:通用驗(yàn)證器(universal verifier)。
據(jù)知情人士透露,OpenAI 一直在開(kāi)發(fā)一種研究人員稱之為「通用驗(yàn)證器」的東西,這個(gè)東西可能是 GPT-5 中用到的重要技術(shù)。
這個(gè)概念源于 OpenAI 去年發(fā)表的一篇論文。它解決的問(wèn)題是:當(dāng) LLM 僅優(yōu)化答案正確性時(shí),其推理過(guò)程(如 Chain-of-Thought)變得難以被人類或小型模型理解和驗(yàn)證,導(dǎo)致「可解釋性」下降。但在高風(fēng)險(xiǎn)應(yīng)用中,用戶需要能快速、準(zhǔn)確判斷模型輸出是否正確,而不僅是輸出答案本身。
為此,該論文提出了一套已準(zhǔn)備好投入生產(chǎn)的技術(shù)管線,其核心在于:讓一個(gè)「驗(yàn)證者」小模型來(lái)為「證明者」大模型的推理鏈打分,并將其作為獎(jiǎng)勵(lì)信號(hào)反饋給大模型進(jìn)行策略更新。
- 論文標(biāo)題:Prover-Verifier Games improve legibility of LLM outputs
- 論文地址:https://arxiv.org/pdf/2407.13692
論文明確指出,這個(gè)驗(yàn)證者模型足夠小,可以進(jìn)行大規(guī)模部署,并且是「為未來(lái)的 GPT 部署而設(shè)計(jì)」的。
你可以把它想象成一個(gè)模型里住著兩個(gè)「人格」,它們?cè)谶M(jìn)行一場(chǎng)持續(xù)的「左右腦互搏」游戲:
- 「證明者」人格(Prover):它扮演著一個(gè)積極解決問(wèn)題的角色。在完成一道題后,它會(huì)盡力生成詳細(xì)的推理過(guò)程,以說(shuō)服那個(gè)輕量級(jí)的「驗(yàn)證者」網(wǎng)絡(luò),證明自己的答案是正確且可靠的。
- 「欺騙者」人格(Sneaky Persona):它會(huì)故意在推理中植入錯(cuò)誤的結(jié)論,但表面上依然會(huì)偽裝得邏輯嚴(yán)密,目標(biāo)是試圖騙過(guò)同一個(gè)「驗(yàn)證者」。
聽(tīng)起來(lái)是不是很像 GAN(生成對(duì)抗網(wǎng)絡(luò))?
通過(guò)讓大模型在這兩個(gè)角色之間不斷交替,它既能學(xué)會(huì)寫出邏輯更嚴(yán)謹(jǐn)、更難被偽造的解決方案,同時(shí),那個(gè)小規(guī)模的「驗(yàn)證者」模型在反復(fù)的「欺騙」與「驗(yàn)證」中,其識(shí)別錯(cuò)誤、標(biāo)記漏洞的能力也變得越來(lái)越敏銳。這樣做的好處在于,即使未來(lái)模型遠(yuǎn)超人類能力,只要其輸出能被「較弱但可信」的模型驗(yàn)證,就能保持人類對(duì)其的控制與信任。
論文提出的訓(xùn)練方法能讓模型逐漸學(xué)會(huì)產(chǎn)生清晰且結(jié)構(gòu)良好的答案。
去年 8 月《連線》雜志的一篇文章披露,OpenAI 在微調(diào) GPT-4 的代碼助手時(shí),就已經(jīng)用基于模型的「批評(píng)家」在部分場(chǎng)景替代了人類反饋。
文章特別指出,該系統(tǒng)「將被整合到未來(lái)主流模型的 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))流程中」。
有人評(píng)論說(shuō),「證明者 - 驗(yàn)證者」訓(xùn)練方法不僅僅是一個(gè)小優(yōu)化,它可能代表了 AI 發(fā)展的下一個(gè)時(shí)代。我們正在從一個(gè)依賴海量數(shù)據(jù)、靠「堆料」來(lái)提升性能的「scaling 時(shí)代」,轉(zhuǎn)向一個(gè)通過(guò)設(shè)計(jì)更智能的內(nèi)部學(xué)習(xí)機(jī)制、讓 AI 自我完善和進(jìn)化的「架構(gòu)突破」時(shí)代。這或許是我們突破當(dāng)前數(shù)據(jù)瓶頸、實(shí)現(xiàn)更高級(jí)別通用人工智能的關(guān)鍵路徑。
值得一提的是,這篇論文來(lái)自 OpenAI 的超級(jí)對(duì)齊團(tuán)隊(duì)。在論文發(fā)布時(shí),團(tuán)隊(duì)就已經(jīng)分崩離析。去年,機(jī)器之心詳細(xì)報(bào)道過(guò)這篇論文(參見(jiàn)《OpenAI 超級(jí)對(duì)齊團(tuán)隊(duì)遺作:兩個(gè)大模型博弈一番,輸出更好懂了》),感興趣的讀者可以重溫一下。
論文之外,GPT-5 模型也有了一些新消息。
今天一大早,某博主發(fā)現(xiàn) Perplexity 有漏洞訪問(wèn) GPT-5,并且有 GPT-5 和 5 Pro 兩個(gè)版本,限時(shí) 4 小時(shí)。
他展示了自己用 GPT-5 生成的小黃人,動(dòng)態(tài)效果看起來(lái)很絲滑。
他還做了一個(gè)類似 Doom(FPS 游戲)的游戲片段,看起來(lái)也非常還原。
網(wǎng)友紛紛表示「震驚」,認(rèn)為這可能是 AI 生成的「新時(shí)代」。
無(wú)論如何,大家對(duì) GPT-5 的期待已經(jīng)拉滿了!
你覺(jué)得 GPT-5 會(huì)是個(gè)什么樣子?
參考鏈接:
https://x.com/rohanpaul_ai/status/1951400750187209181
https://x.com/chetaslua/status/1951758235272401030
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.