編譯 | Tina
9 月 16 日,OpenAI 正式推出一款新模型 GPT-5-Codex ,這是一個(gè)經(jīng)過微調(diào)的 GPT-5 變體,專門為其各種 AI 輔助編程工具而設(shè)計(jì)。該公司表示,新模型 GPT-5-Codex 的“思考”時(shí)間比之前的模型更加動(dòng)態(tài),完成一項(xiàng)編碼任務(wù)所需的時(shí)間從幾秒到七個(gè)小時(shí)不等。因此,它在代理編碼基準(zhǔn)測試中表現(xiàn)更佳。
GPT-5-Codex 的發(fā)布,為近來“編碼代理”(Coding Agents)領(lǐng)域或許最劇烈的一波氛圍轉(zhuǎn)折畫上了句號(hào)。
過去一年多里,從去年 6 月的 Claude 3.5 Sonnet、到 2 月的 3.7 Sonnet 與 Claude Code,再到 5 月的 Claude 4,Anthropic 在編碼場景幾乎是一騎絕塵,牢牢占據(jù)主導(dǎo)地位。期間公司營收一路飆升至 50 億美元(其中 10% 來自 Claude Code),市值沖到 1830 億美元,單單增加了 1220 億美元市值。
這一切顯然點(diǎn)燃了 OpenAI 的斗志。要知道,早在 2021 年,OpenAI 就發(fā)布了最初的 Codex,催生了 GitHub Copilot——全球第一個(gè) AI 編程工具(如今仍有 182 位開發(fā)者在持續(xù)貢獻(xiàn));GPT-3 還啟發(fā)了 Debuild,預(yù)示了后來所有的 vibe coding 創(chuàng)業(yè)潮。此后,OpenAI 也在 o1 和 GPT-4.1 中重新把編碼能力放回優(yōu)先級。
GPT-5-Codex 在 SWE-bench 上的得分是 74.5%,幾乎與 GPT-5 thinking 在 477 子集上的 74.9% 持平。那么,是什么讓 GPT-5 的整體口碑迎來大逆轉(zhuǎn)?
原因之一是:Codex 團(tuán)隊(duì)真的“在猛干活”。
其一是“多面統(tǒng)一”的代理。Greg 在今天的一個(gè)播客中提到:
“年初我們設(shè)定了一個(gè)公司目標(biāo):年底前做出一個(gè)代理式軟件工程師。要弄清楚這到底意味著什么,如何實(shí)現(xiàn),如何整合所有機(jī)會(huì)與算力,這是 OpenAI 許多人一起承擔(dān)的一項(xiàng)巨大任務(wù)?!?/blockquote>最初的代理式 SWE 外殼叫做 10X,運(yùn)行在終端里。如今,隨著新 Codex CLI、“ChatGPT Codex”(現(xiàn)改名 Codex Cloud)、IDE 擴(kuò)展(2.5 周安裝量突破 80 萬),以及 GitHub 代碼審查機(jī)器人,OpenAI 已經(jīng)形成了一整套覆蓋各種需求的交互界面。
其二是更優(yōu)的后訓(xùn)練特性。OpenAI 一貫強(qiáng)調(diào)研究與產(chǎn)品的緊密結(jié)合。今天的播客里也提到了幾個(gè)重要特性,最重要的莫過于“長時(shí)間運(yùn)行的代理任務(wù)”上的重大改進(jìn)。
Thibault Sottiaux 說:
“這個(gè)模型展現(xiàn)出一種能力:能堅(jiān)持更久,具備復(fù)雜重構(gòu)任務(wù)所需的‘韌勁’。 但同時(shí),對于簡單任務(wù),它響應(yīng)得非常快,不用多想就能給出答案。這讓它成為一個(gè)很好的合作者——你可以提問、定位代碼、規(guī)劃方案;而一旦放手,它就能長時(shí)間連續(xù)工作。 我們在內(nèi)部見過它連續(xù)工作 7 小時(shí)完成復(fù)雜重構(gòu),這是此前從未有過的。我們也在代碼質(zhì)量上投入了巨大精力,它正是針對 Codex 用戶的實(shí)際需求進(jìn)行了優(yōu)化?!?/blockquote>這種經(jīng)過巧妙運(yùn)用的“韌勁”,正是讓 GPT-5-Codex 成為一個(gè)更全面、更實(shí)用的代理式編程模型的關(guān)鍵。它不只是針對最難的問題進(jìn)行優(yōu)化,然后逼得用戶在較簡單任務(wù)上切換到“更笨”的模型。
我們翻譯了本次播客訪談的完整內(nèi)容,帶你深入了解 OpenAI 團(tuán)隊(duì)如何打造 GPT-5-Codex,以及它背后的技術(shù)與故事。
1 為何編程是 AGI 研究的特殊例外
Andrew Mayne:今天我們要聊 Codex。我其實(shí)從最早版本開始就用過它,那時(shí)候我還在這里工作。現(xiàn)在你們有了新版本,我整個(gè)周末都在玩,非常震撼,真的沒想到短短幾年內(nèi)這項(xiàng)技術(shù)能進(jìn)步到這個(gè)程度。我很想知道當(dāng)初的起源故事:一開始怎么會(huì)想到用語言模型來寫代碼的?
Greg Brockman:我記得在 GPT-3 時(shí)代,第一次看到這種跡象:給一個(gè) docstring,或者一個(gè) Python 函數(shù)的定義,模型就能把代碼補(bǔ)全。當(dāng)你第一次看到這個(gè)的時(shí)候,就知道這東西一定能成,而且會(huì)很大。當(dāng)時(shí)我們還談過一些理想化的目標(biāo),比如說想象一下,如果語言模型能寫出一千行連貫的代碼,那就太驚人了。這就是我們當(dāng)時(shí)的大目標(biāo)。而現(xiàn)在,這個(gè)目標(biāo)早已被實(shí)現(xiàn)并超越了。其實(shí)我們現(xiàn)在已經(jīng)習(xí)慣了,都不覺得稀奇。但在研發(fā)過程中,你往往只看到模型的漏洞和缺陷。偶爾退一步去看,就會(huì)發(fā)現(xiàn)技術(shù)真的走了很遠(yuǎn)。
Thibault Sottiaux:是啊,令人難以置信的是我們?nèi)祟惗嗝戳?xí)慣于這種持續(xù)的改進(jìn),它很快就變成了日常工具。每天都在用,然后回想一下,一個(gè)月前還根本不可能做到的事情,現(xiàn)在卻已經(jīng)習(xí)以為常。這真的挺令人著迷,人類對新事物的適應(yīng)速度是如此之快。
Greg Brockman:不過我們一直有個(gè)困境,就是到底要不要在某個(gè)領(lǐng)域深耕。因?yàn)槲覀兊氖姑?AGI,通用智能。所以從直覺上說,我們是想把所有能力一視同仁地提升。但編程一直是個(gè)例外。
我們針對編程有完全不同的研究計(jì)劃,專注在編程數(shù)據(jù)、代碼指標(biāo),以及模型在代碼任務(wù)上的表現(xiàn)。后來我們也開始在其他領(lǐng)域嘗試這種方法。但對編程來說,我們一直都給予了特別的關(guān)注。
比如 GPT-4,我們最終推出了一個(gè)全能型的大模型,但其實(shí)我們也訓(xùn)練過 Codex 模型,還做過偏向 Python 的模型。在 2021 年左右,我們真的很努力地想把代碼能力推到極限。當(dāng)時(shí)我們做的 Codex 演示,或許就是今天所謂 Vibe coding 的最早雛形。
我還記得當(dāng)時(shí)構(gòu)建的交互界面讓我突然意識(shí)到:普通語言模型的交互非常簡單,就是補(bǔ)全一句話,或者接個(gè)對話。但代碼不同,代碼是要“活”的,要執(zhí)行,要和工具連接。這時(shí)你就會(huì)發(fā)現(xiàn),所謂的“交互外殼”(harness)本身,和智能模型本身一樣重要,它決定了模型能不能真正用得起來。從那一刻起我們就明白了這一點(diǎn)。
今年我們用上了更強(qiáng)的模型,就不僅僅是去參加編程比賽、追求原始能力,而是要讓它真的好用。于是我們在訓(xùn)練中引入多樣化的環(huán)境,把模型和真實(shí)開發(fā)場景接起來,再配合合適的交互外殼。這也是 Thibault 和他的團(tuán)隊(duì)特別努力推進(jìn)的方向。
Andrew Mayne:你能不能把 “harness” 用更簡單的方式解釋一下?
Thibault Sottiaux:其實(shí)很簡單。模型本身只是一個(gè)輸入—輸出系統(tǒng)。所謂 harness,就是把它和其他基礎(chǔ)設(shè)施集成起來,讓它能真正作用于環(huán)境。這包括工具、循環(huán)方式,比如我們說的“agent loop”(代理循環(huán))。單看起來其實(shí)很簡單,但當(dāng)你把這些部分真正端到端地結(jié)合起來訓(xùn)練時(shí),你會(huì)看到一些很神奇的行為——模型能替你行動(dòng)、創(chuàng)造,成為真正的合作者。你可以把它類比成:大腦是模型,而 harness 就是身體。
Andrew Mayne:沒錯(cuò),很有意思。想想 GPT-3 的時(shí)代,我們還得寫帶注釋的代碼,比如在 Python 函數(shù)前加 # 注釋,告訴模型這函數(shù)是干什么的。而現(xiàn)在的模型已經(jīng)能很自然、直覺地寫代碼了。你剛才提到過通用模型和編程專用模型的區(qū)別——這是因?yàn)橛脩粜枨蠛艽?,還是你們自己想要這樣去用?
Greg Brockman:兩者都有。比如在 2022 年,我們和 GitHub 合作推出了 Copilot。當(dāng)時(shí)第一次真正感受到了 AI 進(jìn)入編程工作流的感覺:它能加速你。但那時(shí)也有很多問題,比如界面設(shè)計(jì)該怎么做:要不要像 Ghost text 一樣自動(dòng)補(bǔ)全,還是要提供一個(gè)下拉菜單給不同選項(xiàng)?不過有一點(diǎn)很明確:延遲本身就是產(chǎn)品特性。自動(dòng)補(bǔ)全的延遲門檻是 1500 毫秒,超過這個(gè)時(shí)間就沒人愿意等了,再聰明也沒用。所以當(dāng)時(shí)的共識(shí)就是:在延遲限制內(nèi),用上最聰明的模型。但后來有了 GPT-4,它更聰明,但無法滿足延遲要求。這時(shí)候怎么辦?我們發(fā)現(xiàn)答案是:換 harness,換界面。你必須讓交互方式和模型能力共同演化。
速度快又聰明的模型當(dāng)然好,但就算是更聰明卻慢一些的模型,也絕對值得,因?yàn)橹悄軒淼幕貓?bào)在長期一定會(huì)顯現(xiàn)。
Andrew Mayne:當(dāng)年做 GitHub Copilot 的時(shí)候,我確實(shí)沒能理解這個(gè)點(diǎn)。那時(shí)覺得只要模型能補(bǔ)全就行了,沒意識(shí)到 harness 和工具的作用能帶來這么大的差別?,F(xiàn)在有了 CLI,比如 Codex CLI,我可以在命令行里用它,還有 VS Code 插件,甚至可以直接部署到網(wǎng)頁上。我當(dāng)時(shí)并不完全理解這些價(jià)值。你們自己是怎么用這些東西的?在哪些地方感覺最有用?
Thibault Sottiaux:回到一開始的觀察:很多開發(fā)者在用 ChatGPT 調(diào)試非常復(fù)雜的問題。他們會(huì)不斷嘗試把更多上下文塞進(jìn)去:代碼片段、堆棧追蹤,然后貼給模型求助。隨著交互越來越復(fù)雜,我們突然意識(shí)到:與其讓用戶主導(dǎo)交互,不如讓模型自己去找上下文、自己推理和調(diào)試,這樣用戶就能坐看模型干活。這個(gè)思路的轉(zhuǎn)變,讓我們開始更認(rèn)真地思考 harness,并賦予模型自主行動(dòng)的能力。
2 CLI、IDE 與終端:不同工具的適用場景
Greg Brockman:我們當(dāng)時(shí)也在嘗試不同的形態(tài)。年初時(shí)我們做過幾種不同實(shí)現(xiàn):比如異步的 agent harness,也做過本地體驗(yàn)。
Thibault Sottiaux:我們還在終端里跑過原型。后來覺得這還不夠“AGI 味兒”,我們想讓它能規(guī)模化、遠(yuǎn)程運(yùn)行。你合上筆記本,它還能繼續(xù)干活,你甚至可以用手機(jī)遠(yuǎn)程跟進(jìn)。這感覺太酷了,所以我們就往那方向推進(jìn)。但其實(shí)在終端里的版本是完全能用的,OpenAI 內(nèi)部很多人也在高效使用。那個(gè)工具當(dāng)時(shí)叫 “10X”,因?yàn)樗娴淖屔a(chǎn)力提升了 10 倍。但最后我們沒把它作為產(chǎn)品發(fā)布,因?yàn)楦杏X還不夠打磨完善。
于是我們嘗試更多形態(tài),先重點(diǎn)做異步。現(xiàn)在我們又回過頭,把 agent 帶回到終端和 IDE。最終的目標(biāo)是把它變成你身邊的一個(gè)協(xié)作者,并且嵌入到你已經(jīng)在用的開發(fā)工具里。
Greg Brockman:我們還做過其他嘗試,比如遠(yuǎn)程守護(hù)進(jìn)程連接本地 agent,這樣能兩者兼得。其實(shí)我們發(fā)現(xiàn),這里幾乎是一個(gè)“形態(tài)矩陣”,可以異步、可以本地同步、也可以混合。問題在于我們到底該把重心放在什么地方:是做成通用的、能適配各種環(huán)境的外部化工具,還是先專注在內(nèi)部環(huán)境,把內(nèi)部工程師的體驗(yàn)做到極致?我們當(dāng)然都想做。但如果自己都用不好,又怎么可能讓全世界都用得好呢?這就是我們的挑戰(zhàn),要找準(zhǔn)聚焦點(diǎn),讓工程努力產(chǎn)生最大價(jià)值。
今年我們確立的一個(gè)公司目標(biāo)就是:年底前做出一個(gè)“代理式軟件工程師”。這意味著什么?怎么實(shí)現(xiàn)?怎么把資源和算力投入其中?這是一個(gè)龐大的工程,很多人都在為此努力。
Andrew Mayne:你剛提到 “10X” 這個(gè)內(nèi)部工具,它看起來非常有用,但你們最終沒有對外發(fā)布。這類決策一定很難吧?什么時(shí)候應(yīng)該公開,什么時(shí)候不該?像云端代碼現(xiàn)在非常強(qiáng)大,我猜也是類似的故事——先內(nèi)部使用,然后再對外部署。那接下來你們是怎么判斷重點(diǎn)放在哪里的?比如能在云端跑、能做類 agent 的任務(wù),我走開它就繼續(xù)干。但對我來說,這種新形態(tài)太新了,很難完全理解。有時(shí)這些東西需要先沉淀一段時(shí)間,人們才會(huì)慢慢發(fā)現(xiàn)價(jià)值。你們內(nèi)部有人有類似的“啊哈時(shí)刻”嗎?
Greg Brockman:當(dāng)然有。我覺得我們已經(jīng)能大致勾勒未來的樣子了:未來你肯定會(huì)想要一個(gè)擁有自己電腦的 AI,它能調(diào)用一批代理并行完成任務(wù)。你早上起來,喝著咖啡,順手給它點(diǎn)反饋,比如“這個(gè)結(jié)果不對”或者“流程需要這樣改”。但模型還沒聰明到讓這種交互成為日常。所以現(xiàn)在,模型依然需要在你的終端、在你的編輯器里,貼近你原本的工作方式來幫忙。這就是當(dāng)下。
對我們來說,現(xiàn)在和未來是交織的:一方面要把 AI 帶入代碼審查、主動(dòng)幫你生成有用的內(nèi)容;另一方面,更多的 PR 也帶來新挑戰(zhàn),比如你要如何篩選出真正值得合并的?這些機(jī)會(huì)都擺在眼前,我們也看到 OpenAI 內(nèi)部的開發(fā)模式、代碼庫結(jié)構(gòu)都開始因而發(fā)生變化。
Thibault Sottiaux:是的,背后有兩個(gè)關(guān)鍵點(diǎn)。第一,基礎(chǔ)設(shè)施真的很難。我們當(dāng)然希望所有代碼、任務(wù)、包都能完美容器化,這樣就能規(guī)?;\(yùn)行。但現(xiàn)實(shí)是,很多人都有復(fù)雜的環(huán)境配置,只能在他們自己的筆記本上跑。
我們希望能夠利用(用戶現(xiàn)有的環(huán)境),在用戶所在之處與他們“會(huì)合”,這樣他們就不必為了 Codex 去做特定配置。這樣就能給大家一個(gè)非常容易上手的入口,讓你直接體驗(yàn)到一個(gè)強(qiáng)大的編碼代理能為你做什么。
同時(shí),這也讓我們可以去試驗(yàn)“正確的交互界面”應(yīng)該是什么樣子的。六個(gè)月前,我們還沒在玩這些類型的工具。一切都非常新,而且在快速演進(jìn)。
我們必須持續(xù)在這方面迭代和創(chuàng)新——到底什么是合適的界面、怎樣才是和這些代理協(xié)作的正確方式。老實(shí)說,我們還沒覺得已經(jīng)把它打磨到位了,這還會(huì)繼續(xù)演進(jìn)。但把它做成零配置、開箱即用、極易上手,就能讓更多人從中受益、愿意去嘗試。對我們來說,這還能帶來反饋,幫助我們持續(xù)創(chuàng)新——這非常重要。
Greg Brockman:我記得年初我和我們的一位工程師聊天,他非常出色。他說,ChatGPT 有一個(gè)集成,可以自動(dòng)看到終端里的上下文。他說這是顛覆性的,因?yàn)樗辉傩枰獜?fù)制粘貼錯(cuò)誤信息了。他可以立刻問:“嘿,問題出在哪?”然后它就能告訴他,效果非常好。你會(huì)意識(shí)到,這是我們做的一個(gè)集成本身帶來的巨大改變,并不只是因?yàn)槟P透斆鳌?/p>
我覺得很容易被其中某一個(gè)維度吸引,只盯著它,問“到底哪個(gè)更重要?”但答案是:兩者都重要?;叵胛覀冊?2020 年最初發(fā)布 API 時(shí),我一直是這么想的:一個(gè) AI 的“可取性”有兩個(gè)維度。一是智能,可以把它看作一個(gè)軸向;二是便利性,你可以把它理解為延遲、成本,或者它可用的集成能力。
這兩者之間存在一個(gè)“可接受區(qū)域”。比如說,如果一個(gè)模型非常非常聰明,但要運(yùn)行一個(gè)月才能出結(jié)果——你可能還是會(huì)用,如果它能產(chǎn)出極其有價(jià)值的代碼,或者某種疾病的解藥之類的成果,那也值得。相反,如果模型并不那么智能、能力有限,那你可能只想用它做自動(dòng)補(bǔ)全。這時(shí)它就必須極其方便——幾乎不給你帶來任何認(rèn)知負(fù)擔(dān)地給出建議,類似這種。
而我們現(xiàn)在所處的位置,當(dāng)然是在這個(gè)譜系上的某個(gè)點(diǎn)。我們有更聰明的模型,它們沒有自動(dòng)補(bǔ)全那么方便,但又比“等一個(gè)月才出答案”要方便得多。所以我們的挑戰(zhàn)之一,就是搞清楚:什么時(shí)候該投資把“便利性”往左拉(更低延遲、更低成本、更好集成),什么時(shí)候該投資把“智能”往上推。這是一個(gè)巨大的設(shè)計(jì)空間,也正是它有趣的地方。
Andrew Mayne:是啊。我不知道你還記不記得,我在 2020 年做了一個(gè)在發(fā)布會(huì)上上過推薦的應(yīng)用,叫 AI Channels。當(dāng)時(shí)的挑戰(zhàn)是,GPT-3 應(yīng)用的能力很強(qiáng),但我得寫六百字的提示詞才能讓它干活。以每千 token 六美分的價(jià)格、再加上延遲,我當(dāng)時(shí)覺得:這還不是適合它的世界。后來有了 GPT-3.5 和 GPT-4,你就一下子看到了那些能力。我很難說清楚為什么,但你能感受到一切都配合起來了。你剛剛也提到過,讓模型能在你工作的地方看見上下文這件事。我記得我當(dāng)時(shí)把內(nèi)容從 ChatGPT 里復(fù)制粘貼到工作區(qū),就像走進(jìn)超市卻拒絕拿購物車,抱著所有東西走到收銀臺(tái)——極其低效。一旦你把東西放到帶輪子的車上,就順暢多了。我覺得我們現(xiàn)在正看到各種這樣的“解鎖”。
而我現(xiàn)在面臨的問題是:我坐下來要干活時(shí),我該進(jìn) CLI 嗎?用 VS Code 插件?還是用 Cursor?抑或是別的工具?你們是怎么做選擇的?
Thibault Sottiaux:就現(xiàn)在而言,我們?nèi)蕴幵趯?shí)驗(yàn)階段,嘗試不同的方式讓你去和代理互動(dòng),并把它帶到你已經(jīng)高效的地方。比如,Codex 現(xiàn)在已經(jīng)進(jìn)入了 GitHub。你可以 @Codex,它就會(huì)替你干活。如果你寫“@Codex,修這個(gè) bug”或“把測試挪到這里”,它就會(huì)跑起來,在我們數(shù)據(jù)中心自己的“小筆記本”(獨(dú)立計(jì)算資源)上去執(zhí)行這些任務(wù),你不需要操心。
但如果你是在一個(gè)文件夾里和文件打交道,那你就會(huì)面臨一個(gè)選擇:是在 IDE 里干,還是在終端里干?
我們觀察到,資深用戶在終端里發(fā)展出了非常復(fù)雜的工作流;而當(dāng)你實(shí)打?qū)嵉靥幚砟硞€(gè)文件或項(xiàng)目時(shí),你更偏好在 IDE 里做,因?yàn)榻缑娓拢耗憧梢猿蜂N、更直觀看到編輯,不會(huì)只是從屏幕上“刷刷地滾過去”。
同時(shí),終端又是一個(gè)很棒的“vibe coding”工具:如果你并不那么在意產(chǎn)出的具體代碼本身,你可以就地生成一個(gè)小應(yīng)用。那更像是把關(guān)注點(diǎn)放在互動(dòng)與結(jié)果上,而不是具體代碼文本。總之這還是一個(gè)“看你要做什么”的問題,但現(xiàn)在確實(shí)還是實(shí)驗(yàn)階段,我們在嘗試不同的方式,我想這還會(huì)持續(xù)一段時(shí)間。
Greg Brockman:我完全同意。我也認(rèn)為,我們未來的方向會(huì)是把這些東西做得更加一體化。大家本來就會(huì)用多種工具:終端、瀏覽器、GitHub 網(wǎng)頁界面、本地機(jī)器上的倉庫……每個(gè)工具都有大家“何時(shí)該用它”的經(jīng)驗(yàn)法則。因?yàn)槲覀冞€在實(shí)驗(yàn)階段,所以這些東西看起來會(huì)彼此割裂、差異很大,你好像得去學(xué)一套新技能,理解每個(gè)工具的“可供性”(affordances)。
在我們迭代時(shí),重要的是要認(rèn)真思考它們彼此之間如何契合。你已經(jīng)能看出一些趨勢了:比如 Codex 的 IDE 擴(kuò)展可以運(yùn)行遠(yuǎn)程的 Codex 任務(wù)。我想,我們最終的愿景是:應(yīng)該有一個(gè) AI,既能使用它自己的電腦、自己的集群,也能“看著你的肩膀”在本地幫你。這兩者不該是割裂的。
Thibault Sottiaux:對,我們把它想成一個(gè)“單一的編碼實(shí)體”,始終在那兒幫助你、和你協(xié)作。就像我和 Greg 合作——有時(shí)我們在 Slack 上聊,有時(shí)當(dāng)面交流……有時(shí)我們通過 GitHub 評審互動(dòng)。和其他人類合作者互動(dòng)時(shí),這一切都很自然。我們對 Codex 的設(shè)想也是這樣:一個(gè)具有代理特性的實(shí)體,真正意義上在你實(shí)現(xiàn)目標(biāo)時(shí)為你“加速”。
3 代理記憶的局限
Andrew Mayne:那我們來聊聊一些使用方式,比如 agents.md。你能解釋一下嗎?
Thibault Sottiaux:好的。agents.md 是一組你可以提供給 Codex 的指令文件,它和你的代碼放在一起。這樣 Codex 就能多一點(diǎn)上下文,知道怎樣更好地在代碼庫里導(dǎo)航并完成任務(wù)。
我們發(fā)現(xiàn)有兩類內(nèi)容放在 agents.md 里特別有用:第一,類似“壓縮”的東西——對于代理來說,直接讀 codex.md(原文如此)會(huì)更高效一些,而不必把整個(gè)代碼庫都探索一遍;第二,是那些在代碼庫本身并不明確表達(dá)的“偏好”,例如:測試其實(shí)應(yīng)該放到這里,或者“我喜歡以某種特定方式來做事”。這兩類東西——偏好,以及如何高效在代碼庫中導(dǎo)航的說明——都是非常適合寫進(jìn) agents.md 的。
Greg Brockman:這里有一個(gè)很根本的問題:你如何把“你想要什么、你的偏好是什么”傳達(dá)給一個(gè)“無上下文”的代理,同時(shí)替它節(jié)省掉一些人類上手時(shí)需要的“熱身”過程?我們對人是這么做的——寫 readme.md。而 agents.md 只是一個(gè)約定俗成的文件名,告訴代理“應(yīng)該去看它”。
但這也反映了一個(gè)“時(shí)間點(diǎn)上的現(xiàn)實(shí)”:當(dāng)前的代理記憶能力并不好。比如你第十次運(yùn)行代理,它真的從前九次給你解決難題的經(jīng)歷里獲益了嗎?所以我們確實(shí)有研究要做:怎樣讓它擁有記憶?怎樣讓一個(gè)代理真正去探索你的代碼庫、深刻理解它,然后把這些知識(shí)利用起來?這只是眾多例子中的一個(gè),但我們已經(jīng)能看到在這些方向上有很多“觸手可及”的研究成果在前方等著我們。
4 遷移與審查
Andrew Mayne:現(xiàn)在競爭格局非常激烈。曾經(jīng)有一段時(shí)間,OpenAI 對很多人來說幾乎是橫空出世——突然就有了 GPT-3,然后是 GPT-4?,F(xiàn)在 Anthropic 在做很棒的模型,谷歌的 Gemini 也很強(qiáng)。你們怎么看待這個(gè)版圖?你們覺得自己的位置在哪里?
Greg Brockman:我認(rèn)為還有很多進(jìn)步空間。我更少去關(guān)注競爭,而是更多去關(guān)注潛力。因?yàn)槲覀冊?2015 年創(chuàng)辦 OpenAI 時(shí),就認(rèn)為 AGI 會(huì)比人們預(yù)期更早到來。我們只是希望在這一進(jìn)程中能發(fā)揮積極作用。而這意味著什么、如何把它落實(shí)到實(shí)際執(zhí)行,一直是我們要思考的核心任務(wù)。
所以當(dāng)我們開始摸索如何構(gòu)建真正有用、能幫助人們的模型時(shí),把它真正帶到人們手中就成了至關(guān)重要的事。你可以看看我們一路上做出的選擇,比如推出 ChatGPT,并且提供廣泛的免費(fèi)使用。這是出于我們的使命——我們希望 AI 是人人可得、能惠及所有人。
在我看來,最重要的是保持這種指數(shù)級的進(jìn)步,并且不斷思考如何以積極、有用的方式帶給大家。比如現(xiàn)在,我們有了 GPT-4 這一類預(yù)訓(xùn)練模型,再疊加強(qiáng)化學(xué)習(xí),使其更可靠、更智能。想象一下:如果你只是“讀過互聯(lián)網(wǎng)”,只是觀察過人類思維的碎片,然后第一次嘗試寫代碼,你可能會(huì)很糟糕。但如果你能親手去解一些棘手的編程問題,有 Python 解釋器,有和人類一樣的工具,那么你就能變得更加健壯和精煉。
現(xiàn)在我們讓這些部分組合在一起,但必須繼續(xù)推向下一層級。很明顯,比如大規(guī)模重構(gòu)代碼庫——目前還沒人真正攻克。但這沒有什么根本上的障礙。一旦解決,我覺得這會(huì)是企業(yè)級的“殺手級應(yīng)用”。
想象一下,如果代碼遷移的成本降低一半,那么可能會(huì)讓遷移的數(shù)量增加十倍。再比如 COBOL,如今仍有大量系統(tǒng)困在 COBOL 里,可是已經(jīng)沒有新的 COBOL 程序員在培養(yǎng)了。這只會(huì)成為全世界的風(fēng)險(xiǎn)與負(fù)擔(dān)。唯一的出路就是構(gòu)建能夠真正應(yīng)對這種問題的系統(tǒng)。這是一個(gè)巨大的開放空間。指數(shù)曲線會(huì)繼續(xù)下去,而我們必須跟上。
Andrew Mayne:我今天最喜歡的一個(gè)小插曲,是看到 OpenAI 發(fā)了一條推文,教大家如何在 CLI 中把 completions API 切換到 responses API。
Thibault Sottiaux:這是一個(gè)非常好的用法。我預(yù)計(jì)未來會(huì)有更多類似的場景——你給 Codex 特別的指令,讓它可靠地執(zhí)行重構(gòu),然后它就自己跑完。這太棒了。遷移真的是最糟心的事之一。沒人愿意做遷移。沒人想從一個(gè)庫切換到另一個(gè)庫,還要保證一切正常。如果我們能把大部分工作自動(dòng)化,那會(huì)是一項(xiàng)非常美妙的貢獻(xiàn)。
Greg Brockman:我覺得還有很多其他方向。比如安全補(bǔ)丁,這會(huì)很快變得重要,我們現(xiàn)在也很重視。另外,AI 還能生成新工具。想想 Unix 工具集的重要性——如果 AI 能為你構(gòu)建工具,甚至為自己構(gòu)建工具,就能搭建起一個(gè)復(fù)雜度與實(shí)用性不斷提升的階梯,推動(dòng)效率飛輪持續(xù)運(yùn)轉(zhuǎn)。未來的 AI 不僅能寫代碼,還能執(zhí)行自己的代碼,管理服務(wù),甚至做 SRE(站點(diǎn)可靠性工程)類的工作。這些都在地平線上,已經(jīng)在開始發(fā)生,但還沒到我們理想中的狀態(tài)。
Thibault Sottiaux:我們在 OpenAI 內(nèi)部解決的一個(gè)大問題是代碼審查。
我們發(fā)現(xiàn),隨著代碼量增長,瓶頸在于團(tuán)隊(duì)要處理的審查任務(wù)太多。于是我們專門打造了一個(gè)高信號(hào)的 Codex 模式,能對 PR(合并請求)進(jìn)行深入審查,理解開發(fā)者的設(shè)計(jì)意圖,再去驗(yàn)證代碼是否實(shí)現(xiàn)了這個(gè)意圖。它還能逐層深入,檢查依賴關(guān)系,思考契約邏輯,指出一些即使是最優(yōu)秀的審查員也要花上數(shù)小時(shí)才能發(fā)現(xiàn)的問題。
我們先在內(nèi)部上線,效果非常成功。當(dāng)它掛掉時(shí),大家甚至很不滿,因?yàn)橛X得失去了安全網(wǎng)。它極大加速了團(tuán)隊(duì),包括 Codex 團(tuán)隊(duì)本身。就在我們發(fā)布 IDE 擴(kuò)展的前一晚,我的一位頂尖工程師提交了 25 個(gè) PR。我們自動(dòng)發(fā)現(xiàn)了不少 bug——Codex 找出了許多問題。第二天我們發(fā)布的 IDE 擴(kuò)展幾乎沒有 bug,速度快得驚人。
Greg Brockman:很有意思的是,關(guān)于代碼審查工具,人們一開始都很緊張。因?yàn)檫^去我們試過的所有自動(dòng)審查實(shí)驗(yàn),結(jié)果都是“噪音”——你收到一封來自機(jī)器的郵件,只覺得煩人,然后選擇忽略。但現(xiàn)在我們看到完全相反的結(jié)果。
這說明,當(dāng)能力低于某個(gè)閾值時(shí),它就是凈負(fù)擔(dān);可一旦超過閾值,人們就會(huì)主動(dòng)需要它,甚至失去了還會(huì)很不滿。我們的觀察是:如果某個(gè) AI 功能現(xiàn)在只是“有點(diǎn)用”,那么一年后它就會(huì)變得極其可靠、成為任務(wù)關(guān)鍵。這正是代碼審查的發(fā)展方向。
Thibault Sottiaux:代碼審查還有個(gè)很有意思的地方,就是要把人類一起帶上,讓它成為合作者。我們思考了很多,怎樣才能讓審查結(jié)果讓你愿意去讀,甚至覺得有收獲——哪怕它偶爾錯(cuò)了。你能理解它的推理邏輯。而事實(shí)上,它超過九成的情況是正確的。就算你是代碼作者或?qū)彶檎?,也常常能從中學(xué)到東西。
Greg Brockman:回到我們之前說的“進(jìn)步速度”。想想 GPT-3 和 GPT-4,當(dāng)時(shí)我們還很關(guān)注“雙倍確認(rèn)”的問題:AI 說錯(cuò)了,你指出來,它卻會(huì)和你爭論。
Andrew Mayne:對,它會(huì)堅(jiān)持說自己對。
Greg Brockman:是啊。但我們現(xiàn)在早已遠(yuǎn)離那個(gè)階段了。當(dāng)然,在極少數(shù)邊緣情況里還會(huì)發(fā)生,就像人類也會(huì)。但令人驚嘆的是,我們已經(jīng)到了這樣一個(gè)水平:即使它沒有完全抓住重點(diǎn),它也能指出有價(jià)值的東西,提出合理的思路。我每次看完這些代碼審查,都會(huì)覺得:“嗯,這說得對,我應(yīng)該考慮一下?!?/p>
5 GPT-5 Codex 的“七小時(shí)奇跡”
Andrew Mayne:說說我們?yōu)槭裁丛摓?GPT-5 Codex 感到興奮?
Thibault Sottiaux:GPT-5 Codex 是 GPT-5 的一個(gè)版本,我們針對 Codex 做了優(yōu)化。剛才我們提到過 harness(交互外殼),它就是針對 harness 優(yōu)化的。我們把它視作一個(gè)緊密結(jié)合模型與工具的單一代理,因此更可靠。
其中一個(gè)顯著特點(diǎn)是,它能堅(jiān)持更長時(shí)間,具備處理復(fù)雜重構(gòu)任務(wù)所需的“韌勁”。同時(shí),對于簡單任務(wù),它響應(yīng)得更快,不用深思熟慮就能直接答復(fù)。
它是一個(gè)很好的合作者:你可以問它關(guān)于代碼的問題,讓它幫你找出需要修改的部分,或者幫你理解與規(guī)劃。而一旦你放手讓它去做某個(gè)任務(wù),它能長時(shí)間堅(jiān)持。
我們在內(nèi)部看到它最長連續(xù)工作 7 小時(shí),完成非常復(fù)雜的重構(gòu),以前沒見過其他模型做到這一點(diǎn)。我們也在代碼質(zhì)量上下了很大功夫。它就是為人們在 Codex 中的使用場景做了最優(yōu)優(yōu)化。
Andrew Mayne:當(dāng)你說它能堅(jiān)持七小時(shí),不只是不斷把上下文塞回去,而是它真的在做決策、判斷重要性并往前推進(jìn)?
Thibault Sottiaux:是的。想象一個(gè)特別棘手的重構(gòu)。我們都經(jīng)歷過:代碼庫已經(jīng)無法維護(hù)了,你必須做一些修改才能繼續(xù)前進(jìn)。這時(shí)你做個(gè)計(jì)劃,然后交給 GPT-5 Codex,它就會(huì)一步步解決所有問題,讓測試能跑通,最終完成整個(gè)重構(gòu)。這就是我們看到它連續(xù)工作七小時(shí)完成的事例。
Greg Brockman:讓我驚嘆的是,這些模型的核心智能已經(jīng)如此強(qiáng)大。三到六個(gè)月前,它們就已經(jīng)比我更擅長在內(nèi)部代碼庫里找到特定功能了。而這需要相當(dāng)復(fù)雜的能力。
Andrew Mayne:那你是不是該“讓位”了?比如說:“Greg,對不起了……”
Greg Brockman:(笑)但事實(shí)是,我能去做更多別的事。我想讓人們認(rèn)識(shí)我,不是因?yàn)槲視?huì)在代碼庫里找功能點(diǎn)。這不是我定義自己工程價(jià)值的方式。我更想花時(shí)間去思考架構(gòu),去決定要跑多少個(gè)代理、分配到哪些任務(wù)。這就是我認(rèn)為的核心價(jià)值:AI 能接管那些枯燥瑣碎的部分,也能在有趣的部分成為合作伙伴。
我可以選擇如何分配我的精力。我是個(gè)死忠 Emacs 用戶,但我也用 VS Code、Cursor、Windsurf 這些工具,一方面是為了嘗試,另一方面也是喜歡工具的多樣性。但要把我從終端里拽出來很難。不過現(xiàn)在我們已經(jīng)到了那個(gè)臨界點(diǎn):當(dāng)我在重構(gòu)時(shí),我會(huì)想“我為什么要自己打這些東西?為什么要去回憶某個(gè)語法?”這都是機(jī)械的事情。我希望有個(gè)實(shí)習(xí)生幫我干,而現(xiàn)在我在終端里就有了這么個(gè)實(shí)習(xí)生。我覺得這真的很了不起。
Andrew Mayne:那我們來聊聊未來吧。你們怎么看?代理化的未來里,最讓人興奮的是什么?我們將如何使用這些系統(tǒng)?
Thibault Sottiaux:我們非常確信,未來的形態(tài)會(huì)是:在云端有大量代理組成的群體,由人類、團(tuán)隊(duì)、組織來監(jiān)督和引導(dǎo),創(chuàng)造巨大的經(jīng)濟(jì)價(jià)值。往后幾年,這就是畫面:數(shù)百萬代理在公司和組織的數(shù)據(jù)中心里做有用的工作。
問題在于:我們?nèi)绾我徊讲阶叩侥抢??如何找到合適的形態(tài)、正確的交互模式?其中一個(gè)必須解決的重大問題就是安全、保障和對齊。代理必須能做有用的工作,但必須以安全的方式。你始終要作為操作者、作為人類保持掌控。這就是為什么在 Codex CLI 里,代理默認(rèn)在沙箱中運(yùn)行,它不能隨意修改你電腦上的文件。我們會(huì)持續(xù)投入很多努力,讓環(huán)境安全,理解何時(shí)需要人類介入和批準(zhǔn)某些操作,并逐步賦予更多權(quán)限。你的代理會(huì)有一組你允許它使用的權(quán)限,必要時(shí)還能在你的許可下“升級”,執(zhí)行那些更高風(fēng)險(xiǎn)的操作。
Thibault Sottiaux:所以,要搞清楚整個(gè)系統(tǒng),然后把它變成多代理(multi-agent),讓個(gè)人、團(tuán)隊(duì)、組織都能去引導(dǎo),并且與組織整體目標(biāo)保持一致——這就是我認(rèn)為的發(fā)展方向。雖然有點(diǎn)抽象,但我覺得非常令人興奮。
Greg Brockman:是的,我完全同意。我覺得在更細(xì)的層面上,有很多技術(shù)問題需要解決。比如 Thibault 提到的“可擴(kuò)展監(jiān)督”問題——人類該如何管理那些不斷產(chǎn)出大量代碼的代理?你大概不會(huì)想去讀每一行代碼。事實(shí)上,現(xiàn)在大多數(shù)人也不會(huì)逐行看這些系統(tǒng)產(chǎn)出的代碼。那么如何維持信任?如何確保 AI 產(chǎn)出的東西確實(shí)是正確的?
我認(rèn)為這里有一些技術(shù)途徑。我們從 2017 年起就在思考這些問題,當(dāng)時(shí)我們首次發(fā)表了一些策略,探討如何讓人類或較弱的 AI 去監(jiān)督更強(qiáng)的 AI,并通過這種方式逐步建立起信任和監(jiān)督,確保即使在它們執(zhí)行高難度、重要任務(wù)時(shí),我們依然能掌握方向盤。這是一個(gè)非常重要的問題,而在開發(fā)更強(qiáng)大的編碼代理時(shí),它也有著非常實(shí)際的體現(xiàn)。
但我認(rèn)為還有一些容易被忽略的維度。每到一個(gè) AI 能力層級,人們就容易過擬合,覺得“啊,這就是 AI,將來也就是這樣”。但我們還沒有真正看到的是——AI 解決那些真正全新、困難的問題。現(xiàn)在大家想到的更多是“我需要重構(gòu)代碼”,你至少知道大致是什么樣子,AI 會(huì)幫你完成很多工作,節(jié)省大量時(shí)間。但如果是那些根本無法用其他手段解決的問題呢?
我想到的不僅是編程領(lǐng)域,還包括醫(yī)學(xué),比如研發(fā)新藥;材料科學(xué),比如創(chuàng)造出具有全新特性的材料。我認(rèn)為很快就會(huì)出現(xiàn)能夠解鎖這些應(yīng)用的新能力。對我來說,一個(gè)重要的里程碑將是:當(dāng) AI 產(chǎn)出的成果本身極具價(jià)值和意義,不是因?yàn)樗阋?,也不是因?yàn)樗?AI 產(chǎn)出的,而是因?yàn)樗褪且豁?xiàng)突破性的成果。即便不是 AI 獨(dú)立完成,而是在人類協(xié)作下,AI 扮演了關(guān)鍵角色。
我們已經(jīng)開始看到一些跡象。例如在生命科學(xué)領(lǐng)域,研究人員會(huì)讓 o3 提出五個(gè)實(shí)驗(yàn)方案,他們嘗試之后,四個(gè)失敗,一個(gè)成功。而反饋是:結(jié)果大約相當(dāng)于一個(gè)三、四年級博士生的水平,這簡直令人驚訝——而這還是在 o3 時(shí)代。到了 GPT-5 和 GPT-5 Pro,我們看到的情況完全不同??蒲腥藛T會(huì)說:“好,這是真正在做新穎研究?!庇袝r(shí)它并不是獨(dú)立解決重大理論,而是與人類合作,把能力延伸到人類單獨(dú)無法達(dá)到的地方。對我來說,這正是我們必須持續(xù)推進(jìn)并做對的關(guān)鍵。
6 未來的軟件工程
Andrew Mayne:我和人們談未來時(shí)常遇到一個(gè)挑戰(zhàn):大家想象未來,總是把它看作是“披著閃亮外殼的現(xiàn)在”,比如有機(jī)器人,或者機(jī)器人寫所有的代碼。但你們剛剛提到,有些事是你喜歡做的,有些事是你不愿做的。那 2030 年會(huì)是什么樣子?五年前是 GPT-3,那五年后呢?
Thibault Sottiaux:六個(gè)月前我們甚至都沒有這些工具,所以要準(zhǔn)確想象五年后的樣子真的很難。但有一點(diǎn)很重要:那些作為關(guān)鍵基礎(chǔ)設(shè)施、支撐整個(gè)社會(huì)運(yùn)行的代碼,我們需要持續(xù)去理解,并擁有工具去理解。這也是我們重視代碼審查的原因——代碼審查應(yīng)當(dāng)幫助你理解代碼,成為一個(gè)隊(duì)友,幫助你深入別人寫的代碼,甚至包括 AI 寫的代碼。
Greg Brockman:實(shí)際上我會(huì)說,我們已經(jīng)存在一個(gè)問題:外面有很多代碼并不安全。這種情況時(shí)常發(fā)生。我記得大約 12 年前的 Heartbleed 漏洞,那是互聯(lián)網(wǎng)廣泛使用的核心軟件中的一個(gè)嚴(yán)重漏洞。而且你會(huì)意識(shí)到,這不是個(gè)別現(xiàn)象,類似的漏洞還有很多,只是沒人發(fā)現(xiàn)。
Andrew Mayne:對啊,還有那么多 NPM 包,很多都被放著,可能有人往里塞了惡意代碼。
Greg Brockman:沒錯(cuò)。以往一直是攻防貓鼠游戲:攻擊者越來越高級,防御者也越來越強(qiáng)。而有了 AI,你會(huì)想:到底哪一方會(huì)更有優(yōu)勢?可能它會(huì)加速這種貓鼠循環(huán)。但我覺得也有希望通過 AI 解鎖全新的防御能力。比如形式化驗(yàn)證(formal verification),這可能就是防御的“終局”。讓我興奮的是:不只是延續(xù)這種無休止的競賽,而是能帶來更高的穩(wěn)定性和可理解性。我認(rèn)為在其他方面也會(huì)有類似機(jī)會(huì),讓我們以全新的方式理解系統(tǒng)?,F(xiàn)在很多傳統(tǒng)軟件系統(tǒng)幾乎已經(jīng)逼近人類理解的邊界了。
Thibault Sottiaux:我們構(gòu)建 Codex 的原因之一,就是改善基礎(chǔ)設(shè)施和現(xiàn)有代碼,而不是單純增加世界上的代碼量。這一點(diǎn)非常重要。Codex 能幫助發(fā)現(xiàn) bug,幫助重構(gòu),幫助找到更優(yōu)雅、更高效的實(shí)現(xiàn)方式——達(dá)到同樣的目標(biāo),甚至更通用,而不是制造出 1 億行沒人能看懂的代碼。讓我興奮的是,Codex 能幫助團(tuán)隊(duì)和個(gè)人寫出更好的代碼,成為更優(yōu)秀的軟件工程師,最終創(chuàng)造出更簡潔卻能完成更多事情的系統(tǒng)。
Greg Brockman:我覺得 2030 年的一個(gè)重要圖景是:我們將生活在一個(gè)“物質(zhì)極大豐富”的世界。AI 會(huì)讓創(chuàng)造任何你想要的東西,比你想象中容易得多——這可能不僅在數(shù)字世界,在物理世界里也會(huì)如此。
但同時(shí),這將是一個(gè)“算力極度稀缺”的世界。我們在 OpenAI 內(nèi)部已經(jīng)感受到一點(diǎn):不同研究項(xiàng)目為了算力爭搶,研究成敗常常取決于算力分配,這種情況的嚴(yán)重性難以言表。
我認(rèn)為未來也會(huì)如此:你的創(chuàng)造力不僅受想象力限制,還會(huì)受限于算力。因此我們常常思考:怎樣增加世界上的算力供應(yīng)?我們既要提高智能水平,也要提升智能的可用性。而這歸根到底是一個(gè)物理基礎(chǔ)設(shè)施問題,而不僅僅是軟件問題。
Thibault Sottiaux:我覺得 GPT-5 很驚人的是,我們能把它作為免費(fèi)、Plus 以及 Pro 套餐的一部分提供。比如說,你訂閱 Plus,就能用 Codex,也能用 GPT-5,就是大家用的同一個(gè)版本。而且它在這種方式下也非常高效。
Andrew Mayne:讓我印象深刻的是:我覺得這個(gè)模型功能更強(qiáng)大,但價(jià)格和之前一樣,甚至更低。這讓我大吃一驚。
Greg Brockman:是的。我們在提升智能的同時(shí),價(jià)格也在大幅下降。這其實(shí)很容易被忽略,但真的很瘋狂。比如我們對 o3 做過 80% 的降價(jià)?;叵?GPT-3 的時(shí)代,還是每千 token 六美分。
Andrew Mayne:對,最近有篇報(bào)道在抱怨,說“推理模型”更貴了。但他們沒把推理模型和過去六七個(gè)月的新推理模型相比,也沒看到它們效率提高了多少。
Greg Brockman:沒錯(cuò)。而且這種趨勢會(huì)持續(xù)。說到算力稀缺,我覺得有一個(gè)跡象很明顯:現(xiàn)在大家在談上百萬 GPU 的集群。但未來可能很快就會(huì)變成:每個(gè)人都需要有一個(gè)專屬 GPU 來運(yùn)行他們的代理。這樣算下來,我們可能需要接近 100 億個(gè) GPU。我們距離那個(gè)目標(biāo)還差幾個(gè)數(shù)量級。所以我們的工作之一,就是想辦法增加算力供應(yīng),讓它真實(shí)存在,同時(shí)在當(dāng)前有限的算力下盡可能榨出最大價(jià)值。這既是效率問題,也是智能提升問題。但很明確,要把它真正實(shí)現(xiàn)出來,需要大量的工作與建設(shè)。
Thibault Sottiaux:還有一點(diǎn)有趣的是,代理與 GPU 的關(guān)系。如果 GPU 靠近用戶會(huì)帶來巨大好處。因?yàn)楫?dāng)代理執(zhí)行時(shí),它可能在幾分鐘里調(diào)用兩百次工具,每一次都需要 GPU 和你的筆記本往返執(zhí)行。如果 GPU 離你更近,延遲就會(huì)大幅降低,整個(gè)交互和運(yùn)行過程都會(huì)更順暢。
Andrew Mayne:我們時(shí)常被問到關(guān)于未來和勞動(dòng)力的問題:學(xué)不學(xué)編程?
Thibault Sottiaux:我覺得現(xiàn)在是學(xué)習(xí)編程的絕佳時(shí)機(jī)。
Greg Brockman:我同意。一定要學(xué)編程,但更要學(xué)會(huì)使用 AI。這才是最重要的。
Thibault Sottiaux:用 Codex 學(xué)一門新語言非常有趣。我們團(tuán)隊(duì)里有不少人之前不懂 Rust,但我們決定用 Rust 來寫核心 harness。結(jié)果他們借助 Codex 提問、探索陌生的代碼庫,很快就掌握了,還取得了很棒的成果。當(dāng)然,我們也有經(jīng)驗(yàn)豐富的 Rust 工程師來指導(dǎo),確保質(zhì)量。但總的來說,現(xiàn)在真的是學(xué)習(xí)編程的好時(shí)機(jī)。
Greg Brockman:我記得自己最初學(xué)編程時(shí)用的是 W3Schools 的教程,學(xué) PHP、JavaScript、HTML、CSS。我當(dāng)時(shí)在寫第一個(gè)應(yīng)用時(shí),想實(shí)現(xiàn)數(shù)據(jù)序列化,但甚至不知道“序列化”這個(gè)詞。我就自己設(shè)計(jì)了一種特殊字符序列作為分隔符。但如果數(shù)據(jù)里本身就包含這個(gè)序列呢?那就慘了(笑)。這種問題,教程里不會(huì)提醒你。但 Codex 在代碼審查時(shí)就會(huì)告訴你:“嘿,有 JSON 序列化庫,用這個(gè)就行?!彼晕矣X得編程的門檻會(huì)越來越低,你不用重新發(fā)明輪子,它還能替你提出你自己都沒想到的問題,并給你答案。這就是為什么我覺得現(xiàn)在是最適合動(dòng)手創(chuàng)造的時(shí)代。
Andrew Mayne:我也常常通過看它怎么解題學(xué)到很多,發(fā)現(xiàn)新的庫、新的方法。我有時(shí)會(huì)給它很瘋狂的任務(wù),比如:只用一千行代碼寫一個(gè)語言模型,它會(huì)怎么做?有時(shí)它會(huì)失敗,但你能看到它嘗試的方向,然后會(huì)發(fā)現(xiàn):“啊,原來還有這種辦法。”
Thibault Sottiaux:我注意到,那些最會(huì)用 AI 編程的人,往往有堅(jiān)實(shí)的軟件工程基礎(chǔ)。他們設(shè)計(jì)了合理的架構(gòu),搭好了代碼框架,再讓 AI 來幫忙,這樣就能跑得更遠(yuǎn)。如果對代碼本身一無所知,你就無法走到這一步。
Andrew Mayne:自從你們上線 GPT-5、能用 Codex 部署以來,使用情況如何?
Thibault Sottiaux:使用量爆炸式增長??傮w增長超過 10 倍,原本就在用的用戶也用得更多了,場景更復(fù)雜,時(shí)間更長。我們現(xiàn)在把它納入 Plus 和 Pro 套餐里,額度也很大,這也推動(dòng)了成功。
Greg Brockman:我覺得“氛圍”也在轉(zhuǎn)變。人們開始意識(shí)到,GPT-5 要怎么用才最合適。我們有自己一套交互外殼和工具的組合方式。一旦用戶理解了這種方式,他們的效率就會(huì)極快提升。
Andrew Mayne:非常感謝兩位今天來聊這些。最后還有什么想說的嗎?
Greg Brockman:謝謝邀請!我們對接下來的發(fā)展非常興奮。還有很多東西要去構(gòu)建。指數(shù)級進(jìn)步還在繼續(xù)。而讓這些工具變得人人可用、真正有用,正是我們的使命。
Thibault Sottiaux:是的,謝謝邀請!我也特別興奮。Codex 不斷進(jìn)步,我們的研發(fā)速度也在加快,每天都在做更好的 Codex。就我個(gè)人而言,我現(xiàn)在花在和 Codex 對話上的時(shí)間可能比大多數(shù)人都多。這讓我真切地感受到 AGI 的存在,也希望更多人能從中受益。
https://www.youtube.com/watch?v=OXOypK7_90c
會(huì)議推薦
10 月 23 - 25 日,QCon 上海站即將召開,限時(shí) 9 折優(yōu)惠,單張門票立省 680 元,詳情可聯(lián)系票務(wù)經(jīng)理 18514549229 咨詢。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.