鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
- 在某種程度上,GPT-5可以被視作是o3.1。
該觀點出自O(shè)penAI研究副總裁Jerry Tworek的首次播客采訪,而Jerry其人,正是o1模型的主導(dǎo)者之一。
在他看來,相比GPT-4,GPT-5更像是o3的迭代,而OpenAI接下來要做的,就是再創(chuàng)造一個“o3奇跡”——構(gòu)建能力更強、思考時間更長、能自主與多系統(tǒng)互動的模型。
在長達一小時的訪談中,Jerry Tworek侃侃而談自己對GPT系列模型的思考。
從o1到GPT-5的模型演變歷程講起,介紹OpenAI的模型推理過程、公司內(nèi)部架構(gòu)、強化學習對OpenAI的意義,中間還穿插了他個人進入OpenAI的經(jīng)歷,以及對OpenAI未來走向AGI的想法。
- 如果向10年前的人展示今天的ChatGPT,他們可能會稱之為AGI。
另外,他也著重肯定了DeepSeek提出的GRPO算法貢獻,推動了美國RL研究。
有趣的是,當他談及自己也是ChatGPT的重度“發(fā)燒友”,每月都會花200美元充值在上面時,網(wǎng)友發(fā)現(xiàn)了華點:
- 萬萬沒想到,OpenAI自家員工也要為ChatGPT付費。(doge)
不過有一說一,這場訪談的知識密度爆炸,非常值得一看,連他本人在社媒發(fā)帖,也說:
- 如果你想要深入了解RL,那么這個播客不容錯過。
GPT-5如何思考
主持人Matt Turk首先拋出了一個所有人都很好奇的問題:
- 當我們和ChatGPT聊天時,它們正在思考些什么?
簡單來說就是,什么是模型的推理。
Jerry Tworek當即一語中的,模型的推理過程類比于人類的思考,本質(zhì)上都是尋找未知答案的過程,期間可能涉及執(zhí)行計算、查找信息或自我學習。
推理過程具體表現(xiàn)在思維鏈上,自從OpenAI發(fā)布o1模型以來,這個概念開始變得廣為人知。
它是將模型的思維過程用人類的語言口語化表述出來,整個過程就是:語言模型在大量人類知識上訓(xùn)練、學習如何像人類一樣思考,然后通過思維鏈“翻譯”回人類。
早期如果想要激發(fā)思維鏈,需要在提示詞中描述“讓我們一步步解決它”,因為如果直接提問,模型可能會推理失敗,但只要讓它分步進行,它就會生成一系列思維鏈,并最終得出結(jié)果。
所以通常情況下,模型在推理中花費的時間越長,結(jié)果往往會更好。
但OpenAI在實際用戶反饋中發(fā)現(xiàn),一般用戶并不喜歡花費大量時間在等待上,這在一定程度上也影響了他們構(gòu)建模型的決策路線。
現(xiàn)在OpenAI會同時將高推理模型與低推理模型通通都開放給用戶,將模型思考時長的選擇權(quán)交還用戶,同時內(nèi)部嘗試編碼啟發(fā)式方法以找到合適的平衡。
而OpenAI推理模型的伊始還得從o1說起。
這也是OpenAI發(fā)布的第一個正式的推理模型。
不過作為o1的主要負責人,Jerry也相當坦誠地表示,o1主要擅長解決謎題,所以與其說它是真正有用的產(chǎn)品,更像是一次技術(shù)演示。
隨后是o3的出現(xiàn)改變了這種局面,它也代表了AI發(fā)展過程中的結(jié)構(gòu)性轉(zhuǎn)變。
它是真正意義上有用的,能夠熟練使用工具以及各種來源的上下文信息,并在尋求答案的過程中呈現(xiàn)出堅持不懈刨根問底的狀態(tài)。
Jerry本人自己也是從o3開始完全信賴推理模型的。
所以從某種程度上講,GPT-5更像是o3的迭代——o3.1,擁有一脈相承的思考過程。
在之后,OpenAI也會繼續(xù)尋求下一個重大飛躍,即能力更強、思考更優(yōu),也更自主的推理模型。
加入OpenAI是自然而然的過程
但正是這樣一個主導(dǎo)OpenAI推理模型的關(guān)鍵人物,Jerry Tworek最初進入這個領(lǐng)域卻頗有一種命定感,獨屬于天才的靈光一現(xiàn)。
Jerry將這個過程比喻為一顆水晶的誕生,與生俱來想要從事科學研究的想法,在隨后的學習工作生涯中逐漸明確,然后當OpenAI出現(xiàn)的那一刻,叮咚,時機已到。
而這一切還得從他兒時說起,Jerry在波蘭長大,從小表現(xiàn)出超越同齡人的天賦,包括數(shù)學和科學,用他自己的話來說就是:
- 它們是自然而然適合我的東西。
18歲的時候想要成為一名數(shù)學家,于是進入華沙大學學習數(shù)學,渴望追求真理,但“叛逆”的他因為厭倦學術(shù)界的死板和嚴苛,放棄了這個理想。
為了養(yǎng)家糊口,他決定成為一名交易員,利用自己的數(shù)學技能謀生,曾在摩根大通的股票衍生品交易部門實習,隨后又離職創(chuàng)立對沖基金。
幾年之后,對交易工作再次感到厭倦的他,陷入了職業(yè)期瓶頸。
直到DeepMind的DQN智能體的出現(xiàn)打破了這一僵局,他被其中的強化學習深深吸引,此前他認為分類器其實并不智能,但DQN展示出學習復(fù)雜行為的能力。
于是在2019年他加入了OpenAI,但最開始他在里面從事的是機器人項目,專注于靈巧操作。而這個項目也正是OpenAI著名的“用機器人解決魔方”項目,是強化學習與仿真實體交互的代表作之一。
隨后就是眾所周知的領(lǐng)導(dǎo)o1項目、推動OpenAI模型能力進步,而目前他的主要工作內(nèi)容是和其他研究人員交流,集思廣益完善研究計劃。
在OpenAI內(nèi)部,據(jù)Jerry所說,工作結(jié)構(gòu)相當獨特,是自上而下與自下而上的結(jié)合。
具體來說就是,公司整體專注于三到四個核心項目,集中精力押注,而研究人員在項目內(nèi)部享有相對自下而上的自由。
整個研究部門總計約600人,但每個人都知道項目的所有內(nèi)容,因為在OpenAI看來,讓研究人員因為無法獲取全部信息而不能做出最佳研究,這個風險遠高于知識產(chǎn)權(quán)泄漏。
而OpenAI之所以能夠快速發(fā)布產(chǎn)品,一年時間就從o1到GPT-5,歸根結(jié)底是因為他們擁有良好的運營結(jié)構(gòu)、巨大的發(fā)展勢頭,以及頂尖人才的高效產(chǎn)出,他們都相信自己所做工作的意義:
- AI在歷史上只會被構(gòu)建和部署一次。
另外員工們也會大量使用內(nèi)部工具,Jerry自己就是ChatGPT的深度用戶,每個月都會為其支付費用,另外例如CodeX也被廣泛應(yīng)用在內(nèi)部的代碼編寫中。
RL對OpenAI的關(guān)鍵一擊
對Jerry本人來說,強化學習是引領(lǐng)他走進OpenAI的鑰匙,而放眼看OpenAI整個公司,RL也是多次轉(zhuǎn)折的關(guān)鍵。
今天的語言模型可以被認為是預(yù)訓(xùn)練和強化學習的結(jié)合:先進行預(yù)訓(xùn)練,然后在其之上進行強化學習,二者缺一不可。這也是OpenAI自2019年起的研究計劃核心。
不過要想進一步了解RL在OpenAI的地位,首先要先清楚什么是RL。
Jerry認為,RL類似于訓(xùn)練狗,當狗表現(xiàn)良好時,可以給予“獎勵”(零食或微笑),當狗做錯事時,給予“懲罰”(例如轉(zhuǎn)移注意力、表達不悅情緒)。
RL就是在模型中提供類似作用,如果模型的行為正確就給予積極獎勵,反之行為不正確就給予負面獎勵,其中的關(guān)鍵在于策略和環(huán)境:
- 策略:指模型的行為,是一個將觀察結(jié)果映射到行動的數(shù)學函數(shù)。
- 環(huán)境:模型所看到的一切,必須是交互式的,而環(huán)境會根據(jù)模型的行動而演變,比如學習彈吉他時,會根據(jù)撥弦發(fā)出的聲音獲得反饋。RL就是教模型對環(huán)境變化做出反應(yīng)的唯一途徑。
隨后DeepMind的DQN將RL帶到了新的階段——Deep RL,它將神經(jīng)網(wǎng)絡(luò)與強化學習相結(jié)合,誕生出真正有意義的智能體。
Jerry也分享了當年GPT-4剛訓(xùn)練完成的故事,那時內(nèi)部團隊對其表現(xiàn)并不滿意,因為GPT-4在較長的回答中始終缺乏連貫性。
后續(xù)是通過RLHF(基于人類反饋的強化學習)解決了這個問題,即讓人類對模型輸出的內(nèi)容提供反饋,并以此作為獎勵。
也正是因為GPT-4碰到了RLHF,世界才擁有了“ChatGPT時刻”。
最近OpenAI在編程競賽中出乎意料的優(yōu)異表現(xiàn),Jerry說也是因為研究人員長期使用編程謎題作為測試平臺,來嘗試他們的RL想法。
無心插柳柳成蔭,在他們研究RL的進程中,也為OpenAI帶來了階段性榮譽。
所以只要能夠評估當前結(jié)果并計算反饋信號,RL就能應(yīng)用在任何領(lǐng)域,即使答案不只是簡單的對與錯。
但目前要想規(guī)?;疪L,還是很有難度的,因為RL在實際運行中會出現(xiàn)很多可能出錯的地方,相比預(yù)訓(xùn)練會有更多的瓶頸和故障類型。
它是一個非常精細的過程,類比RL和預(yù)訓(xùn)練,就是制造半導(dǎo)體要比制造鋼鐵要復(fù)雜得多。
另外,Jerry也對DeepSeek團隊提出的全新的強化學習算法GRPO(組相對策略優(yōu)化)表示了認可:
- GRPO的開源,讓許多缺乏高級RL研究項目的美國實驗室,可以更快地啟動并訓(xùn)練推理模型。
RL+預(yù)訓(xùn)練才是通往AGI的正確道路
關(guān)于AI的未來,Jerry Tworek也在最后提出了自己的見解。
首先是Agent,Jerry認為AI帶來的積極影響,是可以通過自動化解決人類問題。
模型目前提供答案的速度非常之快,大概需要幾分鐘,而他們內(nèi)部測試顯示,在某些任務(wù)上模型其實可以獨立思考30分鐘、1小時或者更久,所以當前模型遇到的挑戰(zhàn)是如何建立合適的產(chǎn)品來部署長時間的思考過程。
其中由基礎(chǔ)推理驅(qū)動的Agent能夠允許模型更長時間的獨立思考,并解決更為復(fù)雜的任務(wù),例如編程、旅游預(yù)訂、設(shè)計等,所以AI智能體化是大勢所趨。
模型對齊也是大眾比較關(guān)心的問題之一,也就是引導(dǎo)模型行為符合人類價值觀。
Jerry表示對齊問題本質(zhì)上其實就是一個RL問題,要讓模型深入理解其行為和可能導(dǎo)致的后果,才能讓模型做出正確的選擇。它將是永無止境的,因為對齊的概念將隨著人類文明的演進而不斷發(fā)展。
而如果要通往AGI,當前的預(yù)訓(xùn)練和RL肯定是必不可少的,當然后續(xù)肯定需要添加更多元素一起發(fā)力。
Jerry明確反對當前業(yè)界一些關(guān)于“純RL是通往AGI的唯一途徑”的觀點,他堅信:
- RL需要預(yù)訓(xùn)練才能成功,而預(yù)訓(xùn)練也需要RL才能成功,二者缺一不可。
雖然對于AGI,他也很難描述,具體什么時候模型可以在沒有大量外部輸出和人類干預(yù)的情況下,實現(xiàn)自我改進。
但他相信,OpenAI目前走在正確的道路上,未來的變化將會是新的復(fù)雜組件的添加,而絕非完全推翻現(xiàn)有的架構(gòu)。
參考鏈接:
[1]https://x.com/mattturck/status/1978838545008927034
[2]https://www.youtube.com/watch?v=RqWIvvv3SnQ
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.