采訪時(shí)間不到1小時(shí),信息密度卻堪稱(chēng)爆炸!
OpenAI首席科學(xué)家Jakub Pachocki和首席研究官Mark Chen開(kāi)啟同臺(tái)爆料模式:
- 氛圍編碼的下一步或許是氛圍研究(Vibe Researching);
- OpenAI的最終目標(biāo)是實(shí)現(xiàn)自動(dòng)化研究員;
- 現(xiàn)有評(píng)估指標(biāo)正趨近飽和,下一個(gè)里程碑將涉及實(shí)際的發(fā)現(xiàn)和在經(jīng)濟(jì)相關(guān)事物上取得實(shí)際進(jìn)展;
- 成功的秘訣在于保護(hù)基礎(chǔ)研究,避免被短期產(chǎn)品競(jìng)爭(zhēng)所牽制;
在a16z的這場(chǎng)最新采訪中,二人不僅深入探討了GPT-5如何引入長(zhǎng)遠(yuǎn)推理、如何在基準(zhǔn)飽和后衡量進(jìn)度,以及為什么強(qiáng)化學(xué)習(xí)不斷讓?xiě)岩烧撜吒械襟@訝,還系統(tǒng)性闡述了OpenAI的用人標(biāo)準(zhǔn)、未來(lái)路線圖以及算力分配這些重要問(wèn)題。
一句話,凡是你對(duì)OpenAI感到好奇的問(wèn)題,他倆幾乎都談到了~
- (網(wǎng)友1):深入又有趣!
- (網(wǎng)友2):聽(tīng)起來(lái)像一支有著清晰愿景的強(qiáng)大團(tuán)隊(duì)。
話不多說(shuō),訪談重點(diǎn)這就奉上——
GPT-5:將推理與Agentic行為引入主流
采訪第一趴主要關(guān)于GPT-5。
Mark Chen表示,GPT-5是OpenAI試圖將推理能力帶入主流的一種嘗試。
在此之前,公司有GPT系列(主打即時(shí)響應(yīng))和o系列(主打推理)兩類(lèi)模型。從策略上講,他們不希望用戶被“我應(yīng)該使用哪種模式”所困擾,所以把未來(lái)重心放在了越來(lái)越多的推理和Agents上。
- 我們認(rèn)為,GPT-5是朝著默認(rèn)提供推理和更多Agentic行為邁出的一步。
他還一再?gòu)?qiáng)調(diào),雖然相比o3和以前的其他模型,GPT-5在很多方面都有改進(jìn),但這款模型最主要的意義還是在于將推理模式帶給更多人。
緊接著,主持人又問(wèn)到了評(píng)估趨于飽和的問(wèn)題,對(duì)此Jakub Pachocki也做了一番回答。
他一開(kāi)口就直接承認(rèn),我們過(guò)去幾年中一直使用的這些評(píng)估確實(shí)已經(jīng)非常接近飽和。
具體而言,早期(從GPT-2到GPT-4)的訓(xùn)練依賴(lài)大規(guī)模預(yù)訓(xùn)練數(shù)據(jù),并通過(guò)評(píng)估測(cè)試模型的泛化能力;但如今隨著針對(duì)嚴(yán)肅推理的強(qiáng)化學(xué)習(xí)出現(xiàn),可以讓模型在特定領(lǐng)域深度訓(xùn)練成專(zhuān)家,從而在某些評(píng)估中表現(xiàn)突出(卻不一定具備良好泛化性)。因此,當(dāng)前缺乏更合適的評(píng)估體系。
他表示,未來(lái)OpenAI將重點(diǎn)關(guān)注模型是否能夠發(fā)現(xiàn)新事物,并在具有經(jīng)濟(jì)相關(guān)性的領(lǐng)域取得實(shí)際進(jìn)展。
OpenAI的宏大目標(biāo):實(shí)現(xiàn)自動(dòng)化研究員
順著發(fā)現(xiàn)新事物這個(gè)話題,二人又分別回答了“在GPT-5發(fā)布之前,哪種能力最讓你感到驚訝?”這個(gè)問(wèn)題。
Mark Chen分享道,印象最深的是模型能夠推動(dòng)非常困難的前沿科學(xué)研究。
他曾和一些物理學(xué)家、數(shù)學(xué)家朋友們共同體驗(yàn)?zāi)P?,結(jié)果大家發(fā)現(xiàn)模型能夠解答一些新的、非常復(fù)雜的問(wèn)題。
- 這對(duì)他們來(lái)說(shuō)有點(diǎn)像靈光一閃的時(shí)刻,它能夠自動(dòng)化解決可能需要他們的學(xué)生花費(fèi)數(shù)月時(shí)間的工作。
而Jakub Pachocki則表示,o3的出現(xiàn)真正讓他眼前一亮。尤其是在處理數(shù)學(xué)公式或推理時(shí),它確實(shí)達(dá)到了一個(gè)“相當(dāng)值得信賴(lài)”的水平。
至于未來(lái),Jakub透露OpenAI的一個(gè)大目標(biāo)是培養(yǎng)一個(gè)自動(dòng)化研究員,這個(gè)研究員能自動(dòng)發(fā)現(xiàn)新想法。
初步想法是,先自動(dòng)化自家內(nèi)部的研究工作,然后再考慮自動(dòng)化其他科學(xué)領(lǐng)域的進(jìn)展。
并且他提到了一個(gè)衡量這方面進(jìn)展的“好方法”——觀察這些模型實(shí)際上可以進(jìn)行推理和取得進(jìn)展的時(shí)間跨度。
- 隨著我們達(dá)到近乎精通高中競(jìng)賽的水平,現(xiàn)在的推理水平達(dá)到了大約1~5小時(shí)。
接下來(lái)OpenAI會(huì)專(zhuān)注于延長(zhǎng)這個(gè)時(shí)間跨度,無(wú)論是在模型的長(zhǎng)期規(guī)劃能力方面,還是在保持記憶方面。
對(duì)此Mark Chen也call back了一下評(píng)估的問(wèn)題:
- 這就是為什么我們對(duì)衡量模型自主運(yùn)行時(shí)間長(zhǎng)度的評(píng)估很感興趣的原因。
強(qiáng)化學(xué)習(xí)遠(yuǎn)未達(dá)到瓶頸,“不要將當(dāng)下的狀態(tài)視為終局”
接下來(lái)話題跳轉(zhuǎn)到強(qiáng)化學(xué)習(xí)(RL)。
每當(dāng)OpenAI發(fā)布模型新版本之后,很多人都會(huì)懷疑強(qiáng)化學(xué)習(xí)會(huì)達(dá)到瓶頸,但不知何故,RL依舊“生命力頑強(qiáng)”。
所以,為什么RL運(yùn)作得如此出色?RL有什么讓人感到驚訝的地方嗎?
面對(duì)這一連串提問(wèn),Jakub Pachocki首先解釋了RL能運(yùn)作良好的幾點(diǎn)原因:
- RL的通用性與強(qiáng)大性:RL本身是一種非常通用的方法,它是一個(gè)極其強(qiáng)大的東西,建立在深度學(xué)習(xí)這一“令人難以置信的通用學(xué)習(xí)方法”之上。一旦RL系統(tǒng)開(kāi)始運(yùn)作,研究人員就可以探索很多想法。
- 錨定現(xiàn)實(shí)世界:長(zhǎng)期以來(lái),OpenAI努力解決的問(wèn)題是如何將這些模型錨定到現(xiàn)實(shí)世界,即“環(huán)境是什么”。
- 與語(yǔ)言模型的結(jié)合:語(yǔ)言模型突破的出現(xiàn)是關(guān)鍵轉(zhuǎn)折點(diǎn)。通過(guò)擴(kuò)展深度學(xué)習(xí)來(lái)建模自然語(yǔ)言,OpenAI能夠創(chuàng)建出對(duì)人類(lèi)語(yǔ)言具有“令人難以置信的細(xì)微理解”的模型。
Jakub Pachocki認(rèn)為,過(guò)去幾年是OpenAI研究中最令人興奮的時(shí)期,因?yàn)樗麄儼l(fā)現(xiàn)了如此多的新方向和有希望的想法,并且這些想法似乎都在奏效。
在談到獎(jiǎng)勵(lì)模型(Reward Model)時(shí),他預(yù)計(jì)獎(jiǎng)勵(lì)模型的發(fā)展速度會(huì)非??欤⑶椅磥?lái)會(huì)變得更簡(jiǎn)單,就像幾年前大家討論如何構(gòu)建合適的微調(diào)數(shù)據(jù)集一樣。
與此同時(shí),他指出這一演變還遠(yuǎn)未結(jié)束,OpenAI正在逐步向更接近人類(lèi)學(xué)習(xí)的方向邁進(jìn),而當(dāng)前的RL仍無(wú)法完全做到這一點(diǎn)。
他特別強(qiáng)調(diào),理解RL的關(guān)鍵思維模式是不要把當(dāng)下的狀態(tài)視為終局,要保持靈活,因?yàn)橄嚓P(guān)的工具和方法論還會(huì)持續(xù)快速迭代和演變。
氛圍編碼之后:氛圍研究
對(duì)于當(dāng)下大熱的AI編程,主持人也cue到了OpenAI本月發(fā)布的GPT-5-codex,這是一個(gè)專(zhuān)門(mén)針對(duì)編程進(jìn)行優(yōu)化的模型。
Mark Chen表示,在這項(xiàng)工作上他們投入了大量精力來(lái)調(diào)整預(yù)設(shè),以更好地匹配程序員對(duì)等待解決方案時(shí)間長(zhǎng)度的預(yù)期。
- 上一代編程模型的問(wèn)題在于,花在解決最困難問(wèn)題上的時(shí)間太少,而花在解決簡(jiǎn)單問(wèn)題上的時(shí)間太多。
并且為了測(cè)試模型能力,他們選擇了去參加編程競(jìng)賽。
Jakub Pachocki認(rèn)為,編程競(jìng)賽提供了一個(gè)很好的、封裝的測(cè)試,可以衡量模型在受限環(huán)境和時(shí)間范圍內(nèi)提出新想法的能力。
不過(guò),Jakub自述作為一位歷史上極其不情愿使用任何工具(甚至只使用Vim)的“老派”程序員,使用GPT-5最新的編碼工具讓他覺(jué)得“這不是(以前的)方式了”。
他現(xiàn)在意識(shí)到,模型可以在15分鐘內(nèi)幾乎完美地完成30個(gè)文件的重構(gòu),因此“你必須使用它”。
他形容這種新的編碼方式目前仍有點(diǎn)處于“恐怖谷”(uncanny valley)階段,因?yàn)樗m然解決了許多問(wèn)題,但“仍然有點(diǎn)像……不如一個(gè)同事那么好”,并表示OpenAI的首要任務(wù)是擺脫那個(gè)恐怖谷。
而Mark Chen則將模型當(dāng)前達(dá)到的水平和圍棋選手李世石面對(duì)AlphaGo時(shí)的經(jīng)歷聯(lián)系起來(lái),他直言:
- 從解決八年級(jí)數(shù)學(xué)問(wèn)題到一年后在編碼競(jìng)賽中達(dá)到他們自己的表現(xiàn)水平,這種進(jìn)展是瘋狂的。
他坦言,他們確實(shí)感受到了李世石所經(jīng)歷的部分情緒,并思考這些模型“有什么是它們做不到的”。
Mark Chen觀察到,這種進(jìn)步已經(jīng)改變了編碼的默認(rèn)方式。他引用最近與高中生的對(duì)話,指出現(xiàn)在的年輕人認(rèn)為默認(rèn)的編碼方式是“憑感覺(jué)編碼”(vibe coding),而自己從頭開(kāi)始編寫(xiě)所有編碼機(jī)制反而成為一個(gè)奇怪的概念。
他最后總結(jié)道,氛圍編碼之后或許就是氛圍研究(vibe researching),即憑感覺(jué)研究。
OpenAI招人:并非尋找“最出圈”的人
具體回歸到人上,二人也分享了他們最看重的研究特質(zhì)。
Jakub Pachocki認(rèn)為,堅(jiān)持不懈是關(guān)鍵。
研究的本質(zhì)是探索未知,很多嘗試都會(huì)失敗,因此必須做好失敗和從失敗中學(xué)習(xí)的準(zhǔn)備。同時(shí),要有清晰的假設(shè),并且對(duì)進(jìn)展保持極度誠(chéng)實(shí),不能為了證明結(jié)果而自欺欺人。
他強(qiáng)調(diào),對(duì)自己的想法保持信心很重要,但更重要的是知道什么時(shí)候它有效,什么時(shí)候無(wú)效,從而調(diào)整方向。
Mark Chen補(bǔ)充說(shuō),研究沒(méi)有捷徑,需要經(jīng)驗(yàn)來(lái)學(xué)會(huì)如何選擇合適的問(wèn)題。問(wèn)題太難容易受挫,太簡(jiǎn)單又缺乏滿足感。研究過(guò)程常常伴隨大量失敗,需要學(xué)會(huì)什么時(shí)候堅(jiān)持,什么時(shí)候轉(zhuǎn)向。
他指出,“趣味性”來(lái)自閱讀好論文、交流和經(jīng)驗(yàn)積累。
而關(guān)于如何留住人才,Mark Chen表示,OpenAI的優(yōu)勢(shì)在于他們專(zhuān)注于基礎(chǔ)研究,而不是簡(jiǎn)單模仿競(jìng)爭(zhēng)對(duì)手。他們有清晰的研究目標(biāo),創(chuàng)新氛圍鼓舞了研究員,同時(shí)公司也注重文化建設(shè)和人才培養(yǎng)。
Jakub則指出,他們尋找的不是最“出圈”的人,而是曾經(jīng)解決過(guò)難題的人,具備扎實(shí)技術(shù)功底并愿意迎難而上的人,哪怕之前的領(lǐng)域不是深度學(xué)習(xí)。
- 我們不會(huì)純粹尋找誰(shuí)做了最引人注目的工作,或者誰(shuí)在社交媒體上最引人注目(小扎:報(bào)我名得了~)
在團(tuán)隊(duì)文化方面,Jakub強(qiáng)調(diào)要保護(hù)基礎(chǔ)研究,不要被產(chǎn)品競(jìng)爭(zhēng)的節(jié)奏帶偏,研究員需要空間去思考未來(lái)一兩年的重大問(wèn)題。
總之,OpenAI的長(zhǎng)期目標(biāo)是打造“自動(dòng)化研究員”,因此不同研究方向會(huì)圍繞這一目標(biāo)逐漸融合。按Mark Chen的話來(lái)說(shuō)就是,粗線條上需要規(guī)定方向,但細(xì)節(jié)上保持開(kāi)放。
如果有10%的額外資源,會(huì)投向計(jì)算
如果你有10%的額外資源,你會(huì)把它投入到計(jì)算、數(shù)據(jù)整理還是人員方面?
面對(duì)最后一個(gè)關(guān)鍵問(wèn)題,Mark Chen明確表示,計(jì)算資源是合理答案。
- (笑)沒(méi)有研究人員會(huì)覺(jué)得自己有足夠的算力。
Jakub補(bǔ)充說(shuō),必須明確優(yōu)先級(jí),否則可能在所有方向都只能做第二名。他強(qiáng)調(diào)計(jì)算仍是決定性因素,幾年前大家認(rèn)為會(huì)轉(zhuǎn)向“數(shù)據(jù)受限”,但事實(shí)證明今天依舊處在強(qiáng)烈的計(jì)算限制下。
在算力有限的情況下,如今所有主流廠商幾乎都會(huì)面臨產(chǎn)品發(fā)布和研究哪一個(gè)優(yōu)先的問(wèn)題。
對(duì)此,Jakub強(qiáng)調(diào)OpenAI的研究路線主要基于長(zhǎng)期信念,而非短期市場(chǎng)反饋。并且當(dāng)談到未來(lái)哪些先驗(yàn)會(huì)保持不變,他認(rèn)為除了計(jì)算,還要考慮能源等物理約束。他預(yù)測(cè)機(jī)器人技術(shù)會(huì)在不久的將來(lái)成為主要焦點(diǎn)。
Okk,至此采訪內(nèi)容告一段落,你怎么看二人提到的上述觀點(diǎn)?
訪談地址:
https://www.youtube.com/watch?v=KSgPNVmZ8jQ
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.