OpenAI波蘭雙雄：GPT不是偶然！再憶奧特曼被逐當(dāng)天實(shí)況

2025-08-15 11:31:22　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：KingHZ

【新智元導(dǎo)讀】OpenAI宮變之日，奧特曼突遭解雇，兩位關(guān)鍵人物Jakub Pachocki與Szymon Sidor挺身而出、力助奧特曼翻盤！而隨著AI能力的不斷增強(qiáng)，OpenAI波蘭雙雄對技術(shù)進(jìn)步與安全問題的雙重關(guān)注，將引領(lǐng)AI走向更有意義的發(fā)展。

OpenAI早期，據(jù)說午餐時(shí)大家太緊張，以至于不敢說話，現(xiàn)在的氛圍輕松許多。

甚至OpenAI早期有個(gè)「波蘭幫」，比如聯(lián)合創(chuàng)始人Wojciech Zaremba（下圖左），后來在編程競賽擊敗ChatGPT的信息學(xué)奧賽金牌選手Przemys?aw Debiak（下圖右）。

還有兩位黃金級搭檔Jakub Pachocki和Szymon Sidor：

現(xiàn)首席科學(xué)家Jakub Pachocki，奧特曼稱贊為「我們這一代最杰出的頭腦之一」；

OpenAI技術(shù)Fellow、前者的高中同學(xué)Szymon Sidor。

最近，在《Before AGI》播客節(jié)目中，兩人一起回憶了OpenAI的崢嶸歲月。

兩位還和MIT教授、OpenAI前小組負(fù)責(zé)人Aleksander M?dry討論了ChatGPT時(shí)代、推理模型、可擴(kuò)展的安全。

這對OpenAI「雙子星」分享了他們的合作模式：

Jakub通常會在辦公室或公寓里走來走去，陷入深度思考，探索如何理解某個(gè)現(xiàn)象；而Szymon則更傾向于立刻動手，采集數(shù)據(jù)，試試各種實(shí)驗(yàn)。

有時(shí)候，解決問題最難的地方，其實(shí)「要相信它真的能被解決」。而Szymon擁有一種樂觀、果斷的氣質(zhì)，他總是愿意動手干、愿意去采集數(shù)據(jù)。

而這次節(jié)目中，最珍貴的是OpenAI「宮變」當(dāng)日的個(gè)人回憶。

OpenAI宮變當(dāng)日

2023年11月17日中午，OpenAI董事會突然宣布罷免奧特曼的CEO職位。

當(dāng)時(shí)，午飯時(shí)間Szymon Sidor突然看到了這個(gè)消息，他第一反應(yīng)是去找Jakub。

Szymon Sidor直接打斷了正埋頭跟別人討論研究問題的Jakub。

Jakub馬上走出大樓，直接給奧特曼打電話，詢問發(fā)生了什么？

這個(gè)決定太突然了，也沒有任何事先解釋或預(yù)警。

接下來的幾天，大家都處于混亂中，試圖搞清楚：董事會為什么會做出這種決定？它對我們未來意味著什么？

順便插入一句，在奧特曼被解雇后，Jakub Pachocki、Szymon Sidor和Aleksander M?dry隨即追隨奧特曼，一起辭職。

回過頭看，這件事最重要的教訓(xùn)是：治理結(jié)構(gòu)真的很重要。

我們花了接近十年時(shí)間建設(shè)的OpenAI，居然可以因?yàn)橐淮沃卫頉Q策而差點(diǎn)完全偏離軌道。

如果治理沒有提前規(guī)劃清楚，哪怕你技術(shù)再領(lǐng)先，也很脆弱。

雖然在設(shè)立機(jī)構(gòu)結(jié)構(gòu)時(shí)已經(jīng)很認(rèn)真了，但后來證明，OpenAI仍然低估了它真正的重要性。

在公司剛起步時(shí)做出的決定，即便當(dāng)下看起來無關(guān)緊要，將來也可能影響深遠(yuǎn)。

高中已相識

OpenAI再聚首

他們在波蘭高中相識，因?yàn)闊釔劬幊虆⒓油凰?jì)算機(jī)夏令營。

在到美國留學(xué)后，兩人友情升溫，分別求學(xué)于哈佛、MIT、CMU；2017年，再于OpenAI 重聚，成為橫跨算法、系統(tǒng)、推理研究的最佳搭檔。

倆人加入OpenAI的契機(jī)都因?yàn)锳lphaGo的沖擊。

從高中起，Jakub Pachocki就非常沉迷于探索「計(jì)算機(jī)能力的極限」。

加入OpenAI前，他認(rèn)為要實(shí)現(xiàn)具有推理能力的AI，條件并不成熟。

但AlphaGo的成功讓他意識到：AI的潛力遠(yuǎn)超原先的判斷，原來我們真的已經(jīng)進(jìn)入一個(gè)新AI階段了。

從那一刻起，他就知道：是時(shí)候行動了。

早在OpenAI成立前，聯(lián)合創(chuàng)始人Wojciech Zaremba就試圖拉Jakub入坑深度學(xué)習(xí)。當(dāng)時(shí)OpenAI還有其他熟人，而且面試也很順利，所以Jakub在8年前下定決心加入OpenAI，順利入職。

Szymon Sidor則起步于機(jī)器人系統(tǒng)，最初的興趣竟源于電影《鋼鐵俠》。

他申請過美國一堆大學(xué)的機(jī)器人項(xiàng)目，最后因?yàn)橛⒄Z考試，只有MIT沒有拒絕他。

雖然被錄取了，但他對機(jī)器人逐漸感到失望，甚至一度想退學(xué)。唯一讓他堅(jiān)持下來的是：他開始對深度學(xué)習(xí)感興趣，全情投入AI前沿。后來又接觸了強(qiáng)化學(xué)習(xí)（RL）。

AlphaGo更是堅(jiān)定了他要做AI的決心。

Szymon原本想去DeepMind，但面試時(shí)被一堆理論機(jī)器學(xué)習(xí)問題給刷下來了。而OpenAI更「工程務(wù)實(shí)」，加上朋友們都去，就一門心思奔OpenAI而去。

不過，最初他對「短期就能實(shí)現(xiàn)AGI」的時(shí)間線完全不信。

ChatGPT并非臨時(shí)起意

雖然現(xiàn)在的氛圍明顯更輕松了，但我還是覺得早期那種「笨拙」的感覺有一種特別的魅力。

當(dāng)時(shí)大家說話都很慎重，一句句地在腦子里排練，最后說出來的通常都非常深刻，有時(shí)甚至挺有意思的。

在OpenAI, Jakub參與的第一個(gè)大項(xiàng)目是Dota 2。他們直接Scaling現(xiàn)有R算法，無腦放大最后竟然奏效了！

他們花了兩年，主要是解決工程瓶頸，而不是算法瓶頸。

Szymon則介紹了OpenAI早期的「集體冒名頂替綜合征」：

午飯時(shí)大家安靜如雞，每個(gè)人都在腦子里把要說的話排練十遍，然后才開口。

現(xiàn)在回頭看，那種「尷尬」也體現(xiàn)在技術(shù)路線：OpenAI東戳一下、西試一下，遲遲找不到聚焦點(diǎn)，直到GPT范式出現(xiàn)。

外界常說關(guān)于GPT的誕生，是Alec「偶然」發(fā)現(xiàn)。

真相是，Ilya和Alec早就盯上語言模型。

真正的跳躍是2017年的《情感神經(jīng)元》論文。

當(dāng)時(shí)，還沒有沒Transformer，但他們發(fā)現(xiàn)：只要用大量影評無監(jiān)督訓(xùn)練，模型就能自發(fā)學(xué)會「正面/負(fù)面」情感概念。

那一刻大家意識到：原來不用語法規(guī)則，只靠數(shù)據(jù)也能捕捉到語義。此后，Alec持續(xù)在語言模型上深耕，最終發(fā)明了GPT。

Alec Radford：GPT開山論文作者，AI領(lǐng)域最強(qiáng)本科生之一

這個(gè)實(shí)驗(yàn)顛覆了大家對語言建模的看法：此前大家還停留在「基于語法規(guī)則」的思路上。而這個(gè)結(jié)果表明，模型可以完全靠數(shù)據(jù)就學(xué)出語義。

不過，大部分OpenAI的研究員是在修bug。

OpenAI研究員

每天都在找bug

深度學(xué)習(xí)獨(dú)特之處在于：我們既完全掌控代碼與架構(gòu)，卻又無法徹底理解網(wǎng)絡(luò)內(nèi)部的優(yōu)化機(jī)制。于是哪怕一個(gè)小小的實(shí)現(xiàn)錯(cuò)誤，模型也會「強(qiáng)行學(xué)出來」，導(dǎo)致結(jié)果看起來還行，實(shí)則偏差很大。

像研究自然現(xiàn)象一樣，兩人設(shè)計(jì)實(shí)驗(yàn)：每一步都得驗(yàn)證「是不是我們以為的那樣」。

比如，他們在訓(xùn)練深度強(qiáng)學(xué)習(xí)算法DQN時(shí)，由于將游戲畫面轉(zhuǎn)成灰度圖，錯(cuò)誤地校準(zhǔn)了綠色通道的系數(shù)，結(jié)果游戲中的魚「消失」了，導(dǎo)致模型性能顯著下降。

比如，之前他們發(fā)現(xiàn)網(wǎng)絡(luò)偶爾會莫名其妙地「數(shù)值爆炸」。有一天他倆決定死磕，把每一個(gè)標(biāo)量都打印出來，最后發(fā)現(xiàn)是某個(gè)梯度裁剪閾值在極端batch下失效。

從此之后，OpenAI招了一批「debug狂魔」，專門啃這種幽靈bug。

向推理模型的范式轉(zhuǎn)移

如果說GPT-3展現(xiàn)的是「語言生成能力」，那過去兩年，Jakub和Shimon領(lǐng)導(dǎo)團(tuán)隊(duì)，正在推動「推理能力」。

他們的目標(biāo)不是讓模型模仿人類的解題步驟，而是教模型學(xué)會用它自己的方式來思考。

這是「Chain of Thought」（思維鏈）范式的本質(zhì)突破 —— 不再只是預(yù)測「人類怎么說」，而是嘗試生成「它自己該怎么想」。

雖然推理模型的實(shí)用性在提升，但離最終目標(biāo)還有距離。

預(yù)計(jì)未來幾年進(jìn)展會更快。

鋸齒智能：不斷定義的AGI

在過去，「AGI」是理想主義者口中的「智能奇點(diǎn)」。、

2017年，OpenAI對AGI的描述：「一個(gè)能完成絕大多數(shù)經(jīng)濟(jì)價(jià)值任務(wù)的AI」。

看似是可衡量的技術(shù)目標(biāo)，其實(shí)是一種情緒目標(biāo)。

而現(xiàn)在，他們更傾向于把它視為：

一組不斷出現(xiàn)的新能力；
一條從「能聊天」到「能做科研」的技術(shù)演進(jìn)路徑。

Jakub提出，「能自主進(jìn)行科學(xué)研究的系統(tǒng)」是他心中最像AGI的形態(tài)，而這種能力將在未來幾年內(nèi)出現(xiàn)。

如果AGI定義為「引發(fā)大規(guī)模經(jīng)濟(jì)轉(zhuǎn)型的AI」，那么它很快就要來了。

AGI 不僅是技術(shù)目標(biāo)，也是一種情緒目標(biāo)，是一直追逐的星辰大海。

而「自動研究員」正是我們這個(gè)推理方向的核心終點(diǎn)。

當(dāng)然，越接近這個(gè)終點(diǎn)，「對齊問題」也就變得越重要。

未來

他們強(qiáng)調(diào)，對齊問題（AI Alignment）不僅是「技術(shù)問題」，更是「哲學(xué)難題」。

隨著模型越來越復(fù)雜，規(guī)則、監(jiān)督、懲罰這套體系將逐步失效。

他們舉了一個(gè)現(xiàn)實(shí)例子：社交媒體推薦系統(tǒng)。

AI不斷優(yōu)化「用戶參與感」，結(jié)果可能導(dǎo)致信息繭房、社會撕裂 —— 即便一開始的目標(biāo)聽起來沒毛病。

我們?nèi)绾未_保模型真正做的是我們希望它做的事？這是一個(gè)巨大的挑戰(zhàn)。

而在那之前，其實(shí)還有一個(gè)更緊迫的問題：如果一套極具研發(fā)能力的系統(tǒng)可以由少數(shù)人掌控，它能自己發(fā)明新技術(shù)……

那它對治理結(jié)構(gòu)和權(quán)力平衡的影響，將是空前的。

最意外的是：原本懷疑「AI安全可行性」的Szymon，現(xiàn)在對安全問題最樂觀。

我們現(xiàn)在必須同時(shí)解決「能力」與「安全」，否則連有用的產(chǎn)品都做不出來。

他們用謹(jǐn)慎與熱忱提醒我們：

真正的AI進(jìn)步，不只是「智能」，而是「讓世界更美好」。

參考資料：

https://x.com/aleks_madry/status/1950934417591181430

https://www.youtube.com/watch?v=LauSf7HoxwM

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.