不久前,《麻省理工科技評(píng)論》曾對(duì) OpenAI 的兩位核心研究主管——首席科學(xué)家 Jakub Pachocki 和首席研究官 Mark Chen 進(jìn)行了一次獨(dú)家專訪,深入探討了他們?nèi)绾喂タ送评砟P痛?lián)知識(shí)難題等重要話題。而最近,他們又做客 a16Z 的播客欄目,與 a16z 普通合伙人 Aden Mita 和 Sarah Wang 又與他們進(jìn)行了一次深度對(duì)談,
在這次最新的對(duì)話中,他們?cè)敿?xì)闡述了 OpenAI 在后 GPT-5 時(shí)代的研究方向與組織理念,并首次系統(tǒng)性地提出了一個(gè)宏大的遠(yuǎn)期目標(biāo):構(gòu)建一個(gè)“自動(dòng)化的研究者”(Automated Researcher),即一個(gè)能夠自主發(fā)現(xiàn)新知識(shí)、推動(dòng)科學(xué)進(jìn)步的 AI 系統(tǒng)。
(來(lái)源:Youtube)
GPT-5 的設(shè)計(jì)理念:從即時(shí)響應(yīng)到內(nèi)置推理
訪談從復(fù)盤 GPT-5 的開發(fā)理念開始。在 OpenAI 的構(gòu)想中,GPT-5 的核心任務(wù)是解決此前模型體系中的一個(gè)內(nèi)在矛盾,從而將“推理”能力更無(wú)縫地提供給廣大用戶。
在 GPT-5 之前,OpenAI 主要有兩條模型路線:一是大家熟知的 GPT 系列(2, 3, 4),它們是“即時(shí)響應(yīng)模型”,能快速給出回答;其次則是推理模型 o 系列,該系列模型會(huì)進(jìn)行長(zhǎng)時(shí)間的深度思考,以求生成質(zhì)量最高的答案。這種分離給用戶帶來(lái)了選擇上的困惑。
“我們不希望用戶為應(yīng)該使用哪種模式而感到困惑,”Mark Chen 說(shuō)道,“我們做了大量研究,去識(shí)別針對(duì)任何特定提示所需的正確思考量,并將這種痛苦從用戶那里帶走。因此,我們認(rèn)為未來(lái)在于越來(lái)越多地關(guān)注智能體(agents),而 GPT-5 是朝著默認(rèn)交付推理能力和更具智能體行為(agentic behavior)的一步?!?/p>
訪談隨后提到,隨著模型的快速發(fā)展,過(guò)去數(shù)年沿用的評(píng)估基準(zhǔn)也進(jìn)入了瓶頸期。Yaka Pohotsky 坦言,許多沿用多年的評(píng)估基準(zhǔn)正接近飽和。“對(duì)于其中很多指標(biāo),從 96% 提升到 98% 并不一定是世界上最重要的事情。”他認(rèn)為,過(guò)去那種單一的“預(yù)訓(xùn)練-泛化評(píng)估”模式已不再完全適用。隨著強(qiáng)化學(xué)習(xí)等新訓(xùn)練方法的引入,模型可以在特定領(lǐng)域表現(xiàn)出極強(qiáng)的專業(yè)能力,但這并不直接等同于全面的泛化能力。Yaka Pohotsky 表示:“在這個(gè)世界上,我們確實(shí)認(rèn)為自己正處于一種優(yōu)秀評(píng)估方法的‘赤字’狀態(tài)?!?/p>
那么,新的衡量標(biāo)準(zhǔn)是什么?在 Yaka Pohotsky 看來(lái),未來(lái)的評(píng)估重心應(yīng)該轉(zhuǎn)向模型發(fā)現(xiàn)新事物的實(shí)際能力。“們關(guān)注的重點(diǎn)是模型能夠發(fā)現(xiàn)新事物的實(shí)際標(biāo)志。對(duì)我來(lái)說(shuō),今年最激動(dòng)人心的線索和實(shí)際進(jìn)展的跡象,是我們的模型在數(shù)學(xué)和編程競(jìng)賽中的表現(xiàn)?!?/p>
“下一組的評(píng)估和里程碑,將涉及在那些本質(zhì)上有意義的事物上實(shí)現(xiàn)真正的發(fā)現(xiàn)和實(shí)際的推動(dòng)?!盰aka Pohotsky 總結(jié)道。這也為 OpenAI 的未來(lái)研究定下了基調(diào):從追求分?jǐn)?shù)轉(zhuǎn)向追求真實(shí)的、有價(jià)值的科學(xué)發(fā)現(xiàn)。
下一個(gè)五年:構(gòu)建“自動(dòng)化研究員”
在訪談中,Yaka Pohotsky 明確指出,OpenAI 未來(lái)一到五年的核心目標(biāo)是構(gòu)建一個(gè)“自動(dòng)化研究員”(automated researcher),即實(shí)現(xiàn)新思想發(fā)現(xiàn)的自動(dòng)化。這不僅包括自動(dòng)化機(jī)器學(xué)習(xí)研究這類帶有自我指涉意味的工作,也涵蓋了推動(dòng)其他科學(xué)領(lǐng)域的進(jìn)步。衡量這一進(jìn)展的關(guān)鍵指標(biāo)在于模型能夠進(jìn)行推理和取得進(jìn)展的時(shí)間跨度。目前,模型在高中水平的競(jìng)賽中已經(jīng)接近大師級(jí),推理時(shí)長(zhǎng)可達(dá)一到五小時(shí)。團(tuán)隊(duì)未來(lái)的重點(diǎn)是進(jìn)一步擴(kuò)展這一時(shí)間跨度,提升模型在超長(zhǎng)任務(wù)中的規(guī)劃與記憶能力。
隨著模型能力的提升,如何平衡其穩(wěn)定性與深度又成為了一個(gè)新的難題。當(dāng)模型執(zhí)行的步驟越多,出錯(cuò)的概率也隨之增加。Yaka Pohotsky 認(rèn)為,維持深度的能力本質(zhì)上是在長(zhǎng)時(shí)程中保持一致性的問(wèn)題,這與推理能力密切相關(guān)。推理是模型能夠在長(zhǎng)時(shí)間跨度內(nèi)穩(wěn)定運(yùn)行的核心,它賦予了智能體(agents)在面對(duì)失敗和反饋時(shí)不斷嘗試新方法的魯棒性。Mark Chen 將此過(guò)程比作解決一個(gè)復(fù)雜的數(shù)學(xué)題:你嘗試一種方法,失敗了,然后必須分析錯(cuò)誤,構(gòu)思新路徑。這種在長(zhǎng)時(shí)間內(nèi)持續(xù)迭代的能力,正是研究的核心。
而這種能力正逐漸從數(shù)學(xué)、科學(xué)等擁有明確對(duì)錯(cuò)的“可驗(yàn)證”領(lǐng)域,延伸到更開放、更模糊的領(lǐng)域。Yaka Pohotsky 認(rèn)為,當(dāng)研究的時(shí)間尺度從小時(shí)拉長(zhǎng)到數(shù)月甚至數(shù)年時(shí),問(wèn)題的邊界會(huì)變得模糊。即使是證明一個(gè)定義明確的數(shù)學(xué)猜想,也需要思考應(yīng)該引入哪些其他科學(xué)領(lǐng)域的知識(shí),這本身就是一個(gè)開放式的問(wèn)題。研究的本質(zhì),就是提出正確的問(wèn)題。
強(qiáng)化學(xué)習(xí)的持續(xù)突破與獎(jiǎng)勵(lì)模型的演進(jìn)
在實(shí)現(xiàn)“自動(dòng)化研究者”的路徑上,強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)和編程是兩個(gè)至關(guān)重要的技術(shù)驅(qū)動(dòng)力。
訪談中,主持人提出了一個(gè)行業(yè)內(nèi)的普遍疑問(wèn):為什么強(qiáng)化學(xué)習(xí)似乎總能不斷帶來(lái)驚喜,持續(xù)突破人們對(duì)其潛力的預(yù)期?Yaka Pohotsky 認(rèn)為,關(guān)鍵在于 RL 與大規(guī)模預(yù)訓(xùn)練模型的成功結(jié)合?!邦A(yù)訓(xùn)練為我們提供了一個(gè)極其穩(wěn)健、豐富的環(huán)境,即對(duì)人類語(yǔ)言的理解。一旦你擁有了這個(gè)基礎(chǔ),你就擁有了在這種環(huán)境中執(zhí)行各種不同想法和目標(biāo)的能力?!彼忉尩?,語(yǔ)言模型的突破為 RL 提供了一個(gè)與真實(shí)世界緊密相連的、近乎無(wú)限的試驗(yàn)場(chǎng),解決了過(guò)去長(zhǎng)期困擾研究者的“環(huán)境”構(gòu)建難題。
另一個(gè)關(guān)鍵領(lǐng)域是編程。訪談當(dāng)天恰逢 GPT-5 Codex 發(fā)布,Mark Chen 介紹了新版 Codex 的目標(biāo):將推理模型中的“原始智能”轉(zhuǎn)化為“在真實(shí)世界編程中非常有用”的工具。真實(shí)世界的編程充滿了混亂和復(fù)雜性,新的 Codex 致力于處理更困難的環(huán)境,并關(guān)注編碼中的“軟性”層面,例如代碼風(fēng)格、模型的積極性與懶惰程度等。
圖丨Codex(來(lái)源:OpenAI)
作為前編程競(jìng)賽選手,Yaka Pohotsky 和 Mark 都對(duì) AI 在該領(lǐng)域的能力演進(jìn)感觸頗深。Yaka Pohotsky 表示,他曾是一個(gè)抗拒使用工具的“老派”程序員,但 GPT-5 的最新能力讓他感到“好吧,這不再是過(guò)去的方式了”,因?yàn)楝F(xiàn)在它可以在 15 分鐘內(nèi)完美地完成一個(gè)涉及 30 個(gè)文件的代碼重構(gòu)。
這種技術(shù)變革正在重塑編程的定義。對(duì)于年輕一代的程序員來(lái)說(shuō),“vibe coding”(氛圍編程)已經(jīng)成為默認(rèn)的編程方式。他們可能只是為了完整性,才會(huì)偶爾從頭開始手動(dòng)編寫所有代碼。對(duì)他們而言,不借助 AI 進(jìn)行編碼,反而是一個(gè)奇怪的概念。而這種跟著感覺(jué)走的編碼方式,或許很快就會(huì)演變?yōu)椤胺諊芯俊保╲ibe researching)。
那么,什么樣的人才能成為一名優(yōu)秀的研究員?Yaka Pohotsky 認(rèn)為,“堅(jiān)持”(persistence)是核心特質(zhì)。研究的本質(zhì)是創(chuàng)造未知,是探索大概率會(huì)失敗的路徑,并準(zhǔn)備好從失敗中學(xué)習(xí)。這需要研究者能夠提出清晰的假設(shè),并對(duì)自己誠(chéng)實(shí),在想法可行時(shí)堅(jiān)持,在不可行時(shí)及時(shí)調(diào)整。Mark Chen 補(bǔ)充說(shuō),經(jīng)驗(yàn)在這里扮演著不可或缺的角色。通過(guò)經(jīng)驗(yàn),研究員能學(xué)會(huì)如何選擇合適的研究課題——既不太難,也不太簡(jiǎn)單。研究在很大程度上,也是一場(chǎng)與自己情緒的博弈。你需要知道何時(shí)該堅(jiān)持,何時(shí)該轉(zhuǎn)換方向。而培養(yǎng)這種“有趣性”的直覺(jué),則需要通過(guò)大量閱讀優(yōu)秀論文、與同事交流,并將他們的經(jīng)驗(yàn)內(nèi)化為自己的方法論。
Yaka Pohotsky 強(qiáng)調(diào),選擇你真正關(guān)心且認(rèn)為重要的問(wèn)題至關(guān)重要。他所敬佩的許多研究者都勇于挑戰(zhàn)那些被廣泛認(rèn)為難以解決的“硬骨頭”問(wèn)題,并不斷追問(wèn)“為什么它不可行”以及“真正的障礙是什么”。這種對(duì)重要問(wèn)題的執(zhí)著,是支撐研究者堅(jiān)持?jǐn)?shù)年的動(dòng)力來(lái)源。
OpenAI 的組織與文化:在不確定性中尋找方向
作為頂尖研究機(jī)構(gòu)的領(lǐng)導(dǎo)者,如何留住最優(yōu)秀的人才,并建立一個(gè)有韌性的組織?Mark Chen 認(rèn)為,OpenAI 最大的優(yōu)勢(shì)在于其業(yè)務(wù)核心是從事“基礎(chǔ)研究”(fundamental research)。并且勇于在技術(shù)前沿進(jìn)行創(chuàng)新,而非模仿。這種使命感激勵(lì)著團(tuán)隊(duì)成員,讓他們能夠在一個(gè)充滿活力的文化中共同成長(zhǎng)。此外,建立良好的研究文化和人才培養(yǎng)渠道也至關(guān)重要。OpenAI 歷史上一直致力于吸引最頂尖和最具創(chuàng)新力的人才,并已建立了深厚的人才儲(chǔ)備。
Yaka Pohotsky 表示,他們尋找的是那些曾在任何領(lǐng)域解決過(guò)難題的人。許多成功的 AI 研究員最初的背景可能是物理學(xué)、計(jì)算機(jī)科學(xué)理論甚至金融。強(qiáng)大的技術(shù)基礎(chǔ),加上敢于挑戰(zhàn)宏大問(wèn)題的雄心和毅力,是他們最為看重的品質(zhì),而非其在社交媒體上的知名度。
研究員本身也呈現(xiàn)出多樣化的形態(tài)。有些研究員極具創(chuàng)造力,擅長(zhǎng)產(chǎn)生新想法;另一些則非常高效,能圍繞一個(gè)想法進(jìn)行嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)和探索。一個(gè)成功的組織,需要能夠容納并激發(fā)不同風(fēng)格和品味的研究人才。
為了保護(hù)基礎(chǔ)研究,OpenAI 努力確保研究人員不會(huì)被各種產(chǎn)品方向的需求所干擾,給予他們充足的空間和時(shí)間去探索未來(lái)一到兩年的重大研究問(wèn)題。盡管公司內(nèi)部存在著多個(gè)看似獨(dú)立的研究方向,例如擴(kuò)散模型和代碼推理,但長(zhǎng)遠(yuǎn)來(lái)看,這些探索最終會(huì)匯集到“自動(dòng)化研究員”這一核心目標(biāo)上。Yaka Pohotsky 表示,雖然長(zhǎng)期目標(biāo)清晰,但這并不意味著他們對(duì)具體的技術(shù)路徑有所限定,探索和學(xué)習(xí)本身就是過(guò)程的一部分。
訪談最后,當(dāng)被問(wèn)及如果擁有更多資源會(huì)投向何處時(shí),兩位都毫不猶豫地選擇了“計(jì)算”(compute)。Jakub Pachocki 并不認(rèn)可業(yè)界關(guān)于“AI 領(lǐng)域?qū)乃懔s束轉(zhuǎn)向數(shù)據(jù)約束”的說(shuō)法。他認(rèn)為從長(zhǎng)期的觀察來(lái)看,“我們能做多少事就是計(jì)算力”,并且“我不認(rèn)為這會(huì)改變”。Mark Chen 也表示:“任何說(shuō)這話的人都應(yīng)該來(lái)我的崗位上待一個(gè)周末。沒(méi)有人會(huì)說(shuō)‘我有我需要的所有計(jì)算力’,對(duì)吧?”。在他們看來(lái),計(jì)算力的約束仍然是 AI 前沿研究中一個(gè)長(zhǎng)期存在的,難以動(dòng)搖的“常量”。
參考資料:
1.https://www.youtube.com/watch?v=KSgPNVmZ8jQ
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.