網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全網(wǎng)等GPT-5，超級(jí)對(duì)齊團(tuán)隊(duì)遺作成重要線索，奧特曼發(fā)話驚喜很多

2025-08-04 14:30:49　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

編輯：+0、張倩

最近整個(gè) AI 圈的目光似乎都集中在 GPT-5 上，相關(guān)爆料滿天飛，但模型遲遲不見(jiàn)蹤影。

昨天我們報(bào)道了 The Information 扒出的 GPT-5 長(zhǎng)文內(nèi)幕，今天奧特曼似乎也坐不住，發(fā)了推文表示「驚喜很多，值得等待」。

那么，在等待的過(guò)程中，我們來(lái)看看這次 GPT-5 的「疑似王牌」之一：通用驗(yàn)證器（universal verifier）。

據(jù)知情人士透露，OpenAI 一直在開(kāi)發(fā)一種研究人員稱之為「通用驗(yàn)證器」的東西，這個(gè)東西可能是 GPT-5 中用到的重要技術(shù)。

這個(gè)概念源于 OpenAI 去年發(fā)表的一篇論文。它解決的問(wèn)題是：當(dāng) LLM 僅優(yōu)化答案正確性時(shí)，其推理過(guò)程（如 Chain-of-Thought）變得難以被人類或小型模型理解和驗(yàn)證，導(dǎo)致「可解釋性」下降。但在高風(fēng)險(xiǎn)應(yīng)用中，用戶需要能快速、準(zhǔn)確判斷模型輸出是否正確，而不僅是輸出答案本身。

為此，該論文提出了一套已準(zhǔn)備好投入生產(chǎn)的技術(shù)管線，其核心在于：讓一個(gè)「驗(yàn)證者」小模型來(lái)為「證明者」大模型的推理鏈打分，并將其作為獎(jiǎng)勵(lì)信號(hào)反饋給大模型進(jìn)行策略更新。

論文標(biāo)題：Prover-Verifier Games improve legibility of LLM outputs
論文地址：https://arxiv.org/pdf/2407.13692

論文明確指出，這個(gè)驗(yàn)證者模型足夠小，可以進(jìn)行大規(guī)模部署，并且是「為未來(lái)的 GPT 部署而設(shè)計(jì)」的。

你可以把它想象成一個(gè)模型里住著兩個(gè)「人格」，它們?cè)谶M(jìn)行一場(chǎng)持續(xù)的「左右腦互搏」游戲：

「證明者」人格（Prover）：它扮演著一個(gè)積極解決問(wèn)題的角色。在完成一道題后，它會(huì)盡力生成詳細(xì)的推理過(guò)程，以說(shuō)服那個(gè)輕量級(jí)的「驗(yàn)證者」網(wǎng)絡(luò)，證明自己的答案是正確且可靠的。
「欺騙者」人格（Sneaky Persona）：它會(huì)故意在推理中植入錯(cuò)誤的結(jié)論，但表面上依然會(huì)偽裝得邏輯嚴(yán)密，目標(biāo)是試圖騙過(guò)同一個(gè)「驗(yàn)證者」。

聽(tīng)起來(lái)是不是很像 GAN（生成對(duì)抗網(wǎng)絡(luò)）？

通過(guò)讓大模型在這兩個(gè)角色之間不斷交替，它既能學(xué)會(huì)寫出邏輯更嚴(yán)謹(jǐn)、更難被偽造的解決方案，同時(shí)，那個(gè)小規(guī)模的「驗(yàn)證者」模型在反復(fù)的「欺騙」與「驗(yàn)證」中，其識(shí)別錯(cuò)誤、標(biāo)記漏洞的能力也變得越來(lái)越敏銳。這樣做的好處在于，即使未來(lái)模型遠(yuǎn)超人類能力，只要其輸出能被「較弱但可信」的模型驗(yàn)證，就能保持人類對(duì)其的控制與信任。

論文提出的訓(xùn)練方法能讓模型逐漸學(xué)會(huì)產(chǎn)生清晰且結(jié)構(gòu)良好的答案。

去年 8 月《連線》雜志的一篇文章披露，OpenAI 在微調(diào) GPT-4 的代碼助手時(shí)，就已經(jīng)用基于模型的「批評(píng)家」在部分場(chǎng)景替代了人類反饋。

文章特別指出，該系統(tǒng)「將被整合到未來(lái)主流模型的 RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)）流程中」。

有人評(píng)論說(shuō)，「證明者 - 驗(yàn)證者」訓(xùn)練方法不僅僅是一個(gè)小優(yōu)化，它可能代表了 AI 發(fā)展的下一個(gè)時(shí)代。我們正在從一個(gè)依賴海量數(shù)據(jù)、靠「堆料」來(lái)提升性能的「scaling 時(shí)代」，轉(zhuǎn)向一個(gè)通過(guò)設(shè)計(jì)更智能的內(nèi)部學(xué)習(xí)機(jī)制、讓 AI 自我完善和進(jìn)化的「架構(gòu)突破」時(shí)代。這或許是我們突破當(dāng)前數(shù)據(jù)瓶頸、實(shí)現(xiàn)更高級(jí)別通用人工智能的關(guān)鍵路徑。

值得一提的是，這篇論文來(lái)自 OpenAI 的超級(jí)對(duì)齊團(tuán)隊(duì)。在論文發(fā)布時(shí)，團(tuán)隊(duì)就已經(jīng)分崩離析。去年，機(jī)器之心詳細(xì)報(bào)道過(guò)這篇論文（參見(jiàn)《OpenAI 超級(jí)對(duì)齊團(tuán)隊(duì)遺作：兩個(gè)大模型博弈一番，輸出更好懂了》），感興趣的讀者可以重溫一下。

論文之外，GPT-5 模型也有了一些新消息。

今天一大早，某博主發(fā)現(xiàn) Perplexity 有漏洞訪問(wèn) GPT-5，并且有 GPT-5 和 5 Pro 兩個(gè)版本，限時(shí) 4 小時(shí)。

他展示了自己用 GPT-5 生成的小黃人，動(dòng)態(tài)效果看起來(lái)很絲滑。

他還做了一個(gè)類似 Doom（FPS 游戲）的游戲片段，看起來(lái)也非常還原。

網(wǎng)友紛紛表示「震驚」，認(rèn)為這可能是 AI 生成的「新時(shí)代」。

無(wú)論如何，大家對(duì) GPT-5 的期待已經(jīng)拉滿了！

你覺(jué)得 GPT-5 會(huì)是個(gè)什么樣子？

參考鏈接：

https://x.com/rohanpaul_ai/status/1951400750187209181

https://x.com/chetaslua/status/1951758235272401030

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.