網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

GPT-5≈o3.1！OpenAI首次詳解思考機制：RL+預(yù)訓(xùn)練才是AGI正道

2025-10-20 15:37:13　來源: 量子位

北京舉報

分享至

鷺羽發(fā)自凹非寺
量子位 | 公眾號 QbitAI
在某種程度上，GPT-5可以被視作是o3.1。

該觀點出自O(shè)penAI研究副總裁Jerry Tworek的首次播客采訪，而Jerry其人，正是o1模型的主導(dǎo)者之一。

在他看來，相比GPT-4，GPT-5更像是o3的迭代，而OpenAI接下來要做的，就是再創(chuàng)造一個“o3奇跡”——構(gòu)建能力更強、思考時間更長、能自主與多系統(tǒng)互動的模型。

在長達一小時的訪談中，Jerry Tworek侃侃而談自己對GPT系列模型的思考。

從o1到GPT-5的模型演變歷程講起，介紹OpenAI的模型推理過程、公司內(nèi)部架構(gòu)、強化學習對OpenAI的意義，中間還穿插了他個人進入OpenAI的經(jīng)歷，以及對OpenAI未來走向AGI的想法。

如果向10年前的人展示今天的ChatGPT，他們可能會稱之為AGI。

另外，他也著重肯定了DeepSeek提出的GRPO算法貢獻，推動了美國RL研究。

有趣的是，當他談及自己也是ChatGPT的重度“發(fā)燒友”，每月都會花200美元充值在上面時，網(wǎng)友發(fā)現(xiàn)了華點：

萬萬沒想到，OpenAI自家員工也要為ChatGPT付費。（doge）

不過有一說一，這場訪談的知識密度爆炸，非常值得一看，連他本人在社媒發(fā)帖，也說：

如果你想要深入了解RL，那么這個播客不容錯過。

GPT-5如何思考

主持人Matt Turk首先拋出了一個所有人都很好奇的問題：

當我們和ChatGPT聊天時，它們正在思考些什么？

簡單來說就是，什么是模型的推理。

Jerry Tworek當即一語中的，模型的推理過程類比于人類的思考，本質(zhì)上都是尋找未知答案的過程，期間可能涉及執(zhí)行計算、查找信息或自我學習。

推理過程具體表現(xiàn)在思維鏈上，自從OpenAI發(fā)布o1模型以來，這個概念開始變得廣為人知。

它是將模型的思維過程用人類的語言口語化表述出來，整個過程就是：語言模型在大量人類知識上訓(xùn)練、學習如何像人類一樣思考，然后通過思維鏈“翻譯”回人類。

早期如果想要激發(fā)思維鏈，需要在提示詞中描述“讓我們一步步解決它”，因為如果直接提問，模型可能會推理失敗，但只要讓它分步進行，它就會生成一系列思維鏈，并最終得出結(jié)果。

所以通常情況下，模型在推理中花費的時間越長，結(jié)果往往會更好。

但OpenAI在實際用戶反饋中發(fā)現(xiàn)，一般用戶并不喜歡花費大量時間在等待上，這在一定程度上也影響了他們構(gòu)建模型的決策路線。

現(xiàn)在OpenAI會同時將高推理模型與低推理模型通通都開放給用戶，將模型思考時長的選擇權(quán)交還用戶，同時內(nèi)部嘗試編碼啟發(fā)式方法以找到合適的平衡。

而OpenAI推理模型的伊始還得從o1說起。

這也是OpenAI發(fā)布的第一個正式的推理模型。

不過作為o1的主要負責人，Jerry也相當坦誠地表示，o1主要擅長解決謎題，所以與其說它是真正有用的產(chǎn)品，更像是一次技術(shù)演示。

隨后是o3的出現(xiàn)改變了這種局面，它也代表了AI發(fā)展過程中的結(jié)構(gòu)性轉(zhuǎn)變。

它是真正意義上有用的，能夠熟練使用工具以及各種來源的上下文信息，并在尋求答案的過程中呈現(xiàn)出堅持不懈刨根問底的狀態(tài)。

Jerry本人自己也是從o3開始完全信賴推理模型的。

所以從某種程度上講，GPT-5更像是o3的迭代——o3.1，擁有一脈相承的思考過程。

在之后，OpenAI也會繼續(xù)尋求下一個重大飛躍，即能力更強、思考更優(yōu)，也更自主的推理模型。

加入OpenAI是自然而然的過程

但正是這樣一個主導(dǎo)OpenAI推理模型的關(guān)鍵人物，Jerry Tworek最初進入這個領(lǐng)域卻頗有一種命定感，獨屬于天才的靈光一現(xiàn)。

Jerry將這個過程比喻為一顆水晶的誕生，與生俱來想要從事科學研究的想法，在隨后的學習工作生涯中逐漸明確，然后當OpenAI出現(xiàn)的那一刻，叮咚，時機已到。

而這一切還得從他兒時說起，Jerry在波蘭長大，從小表現(xiàn)出超越同齡人的天賦，包括數(shù)學和科學，用他自己的話來說就是：

它們是自然而然適合我的東西。

18歲的時候想要成為一名數(shù)學家，于是進入華沙大學學習數(shù)學，渴望追求真理，但“叛逆”的他因為厭倦學術(shù)界的死板和嚴苛，放棄了這個理想。

為了養(yǎng)家糊口，他決定成為一名交易員，利用自己的數(shù)學技能謀生，曾在摩根大通的股票衍生品交易部門實習，隨后又離職創(chuàng)立對沖基金。

幾年之后，對交易工作再次感到厭倦的他，陷入了職業(yè)期瓶頸。

直到DeepMind的DQN智能體的出現(xiàn)打破了這一僵局，他被其中的強化學習深深吸引，此前他認為分類器其實并不智能，但DQN展示出學習復(fù)雜行為的能力。

于是在2019年他加入了OpenAI，但最開始他在里面從事的是機器人項目，專注于靈巧操作。而這個項目也正是OpenAI著名的“用機器人解決魔方”項目，是強化學習與仿真實體交互的代表作之一。

隨后就是眾所周知的領(lǐng)導(dǎo)o1項目、推動OpenAI模型能力進步，而目前他的主要工作內(nèi)容是和其他研究人員交流，集思廣益完善研究計劃。

在OpenAI內(nèi)部，據(jù)Jerry所說，工作結(jié)構(gòu)相當獨特，是自上而下與自下而上的結(jié)合。

具體來說就是，公司整體專注于三到四個核心項目，集中精力押注，而研究人員在項目內(nèi)部享有相對自下而上的自由。

整個研究部門總計約600人，但每個人都知道項目的所有內(nèi)容，因為在OpenAI看來，讓研究人員因為無法獲取全部信息而不能做出最佳研究，這個風險遠高于知識產(chǎn)權(quán)泄漏。

而OpenAI之所以能夠快速發(fā)布產(chǎn)品，一年時間就從o1到GPT-5，歸根結(jié)底是因為他們擁有良好的運營結(jié)構(gòu)、巨大的發(fā)展勢頭，以及頂尖人才的高效產(chǎn)出，他們都相信自己所做工作的意義：

AI在歷史上只會被構(gòu)建和部署一次。

另外員工們也會大量使用內(nèi)部工具，Jerry自己就是ChatGPT的深度用戶，每個月都會為其支付費用，另外例如CodeX也被廣泛應(yīng)用在內(nèi)部的代碼編寫中。

RL對OpenAI的關(guān)鍵一擊

對Jerry本人來說，強化學習是引領(lǐng)他走進OpenAI的鑰匙，而放眼看OpenAI整個公司，RL也是多次轉(zhuǎn)折的關(guān)鍵。

今天的語言模型可以被認為是預(yù)訓(xùn)練和強化學習的結(jié)合：先進行預(yù)訓(xùn)練，然后在其之上進行強化學習，二者缺一不可。這也是OpenAI自2019年起的研究計劃核心。

不過要想進一步了解RL在OpenAI的地位，首先要先清楚什么是RL。

Jerry認為，RL類似于訓(xùn)練狗，當狗表現(xiàn)良好時，可以給予“獎勵”（零食或微笑），當狗做錯事時，給予“懲罰”（例如轉(zhuǎn)移注意力、表達不悅情緒）。

RL就是在模型中提供類似作用，如果模型的行為正確就給予積極獎勵，反之行為不正確就給予負面獎勵，其中的關(guān)鍵在于策略和環(huán)境：

策略：指模型的行為，是一個將觀察結(jié)果映射到行動的數(shù)學函數(shù)。
環(huán)境：模型所看到的一切，必須是交互式的，而環(huán)境會根據(jù)模型的行動而演變，比如學習彈吉他時，會根據(jù)撥弦發(fā)出的聲音獲得反饋。RL就是教模型對環(huán)境變化做出反應(yīng)的唯一途徑。

隨后DeepMind的DQN將RL帶到了新的階段——Deep RL，它將神經(jīng)網(wǎng)絡(luò)與強化學習相結(jié)合，誕生出真正有意義的智能體。

Jerry也分享了當年GPT-4剛訓(xùn)練完成的故事，那時內(nèi)部團隊對其表現(xiàn)并不滿意，因為GPT-4在較長的回答中始終缺乏連貫性。

后續(xù)是通過RLHF（基于人類反饋的強化學習）解決了這個問題，即讓人類對模型輸出的內(nèi)容提供反饋，并以此作為獎勵。

也正是因為GPT-4碰到了RLHF，世界才擁有了“ChatGPT時刻”。

最近OpenAI在編程競賽中出乎意料的優(yōu)異表現(xiàn)，Jerry說也是因為研究人員長期使用編程謎題作為測試平臺，來嘗試他們的RL想法。

無心插柳柳成蔭，在他們研究RL的進程中，也為OpenAI帶來了階段性榮譽。

所以只要能夠評估當前結(jié)果并計算反饋信號，RL就能應(yīng)用在任何領(lǐng)域，即使答案不只是簡單的對與錯。

但目前要想規(guī)?；疪L，還是很有難度的，因為RL在實際運行中會出現(xiàn)很多可能出錯的地方，相比預(yù)訓(xùn)練會有更多的瓶頸和故障類型。

它是一個非常精細的過程，類比RL和預(yù)訓(xùn)練，就是制造半導(dǎo)體要比制造鋼鐵要復(fù)雜得多。

另外，Jerry也對DeepSeek團隊提出的全新的強化學習算法GRPO（組相對策略優(yōu)化）表示了認可：

GRPO的開源，讓許多缺乏高級RL研究項目的美國實驗室，可以更快地啟動并訓(xùn)練推理模型。

RL+預(yù)訓(xùn)練才是通往AGI的正確道路

關(guān)于AI的未來，Jerry Tworek也在最后提出了自己的見解。

首先是Agent，Jerry認為AI帶來的積極影響，是可以通過自動化解決人類問題。

模型目前提供答案的速度非常之快，大概需要幾分鐘，而他們內(nèi)部測試顯示，在某些任務(wù)上模型其實可以獨立思考30分鐘、1小時或者更久，所以當前模型遇到的挑戰(zhàn)是如何建立合適的產(chǎn)品來部署長時間的思考過程。

其中由基礎(chǔ)推理驅(qū)動的Agent能夠允許模型更長時間的獨立思考，并解決更為復(fù)雜的任務(wù)，例如編程、旅游預(yù)訂、設(shè)計等，所以AI智能體化是大勢所趨。

模型對齊也是大眾比較關(guān)心的問題之一，也就是引導(dǎo)模型行為符合人類價值觀。

Jerry表示對齊問題本質(zhì)上其實就是一個RL問題，要讓模型深入理解其行為和可能導(dǎo)致的后果，才能讓模型做出正確的選擇。它將是永無止境的，因為對齊的概念將隨著人類文明的演進而不斷發(fā)展。

而如果要通往AGI，當前的預(yù)訓(xùn)練和RL肯定是必不可少的，當然后續(xù)肯定需要添加更多元素一起發(fā)力。

Jerry明確反對當前業(yè)界一些關(guān)于“純RL是通往AGI的唯一途徑”的觀點，他堅信：

RL需要預(yù)訓(xùn)練才能成功，而預(yù)訓(xùn)練也需要RL才能成功，二者缺一不可。

雖然對于AGI，他也很難描述，具體什么時候模型可以在沒有大量外部輸出和人類干預(yù)的情況下，實現(xiàn)自我改進。

但他相信，OpenAI目前走在正確的道路上，未來的變化將會是新的復(fù)雜組件的添加，而絕非完全推翻現(xiàn)有的架構(gòu)。

參考鏈接：
[1]https://x.com/mattturck/status/1978838545008927034
[2]https://www.youtube.com/watch?v=RqWIvvv3SnQ

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.