新智元報(bào)道
編輯:KingHZ
【新智元導(dǎo)讀】OpenAI宮變之日,奧特曼突遭解雇,兩位關(guān)鍵人物Jakub Pachocki與Szymon Sidor挺身而出、力助奧特曼翻盤!而隨著AI能力的不斷增強(qiáng),OpenAI波蘭雙雄對技術(shù)進(jìn)步與安全問題的雙重關(guān)注,將引領(lǐng)AI走向更有意義的發(fā)展。
OpenAI早期,據(jù)說午餐時(shí)大家太緊張,以至于不敢說話,現(xiàn)在的氛圍輕松許多。
甚至OpenAI早期有個(gè)「波蘭幫」,比如聯(lián)合創(chuàng)始人Wojciech Zaremba(下圖左),后來在編程競賽擊敗ChatGPT的信息學(xué)奧賽金牌選手Przemys?aw Debiak(下圖右)。
還有兩位黃金級搭檔Jakub Pachocki和Szymon Sidor:
現(xiàn)首席科學(xué)家Jakub Pachocki,奧特曼稱贊為「我們這一代最杰出的頭腦之一」;
OpenAI技術(shù)Fellow、前者的高中同學(xué)Szymon Sidor。
最近,在《Before AGI》播客節(jié)目中,兩人一起回憶了OpenAI的崢嶸歲月。
兩位還和MIT教授、OpenAI前小組負(fù)責(zé)人Aleksander M?dry討論了ChatGPT時(shí)代、推理模型、可擴(kuò)展的安全。
這對OpenAI「雙子星」分享了他們的合作模式:
Jakub通常會在辦公室或公寓里走來走去,陷入深度思考,探索如何理解某個(gè)現(xiàn)象;而Szymon則更傾向于立刻動手,采集數(shù)據(jù),試試各種實(shí)驗(yàn)。
有時(shí)候,解決問題最難的地方,其實(shí)「要相信它真的能被解決」。而Szymon擁有一種樂觀、果斷的氣質(zhì),他總是愿意動手干、愿意去采集數(shù)據(jù)。
而這次節(jié)目中,最珍貴的是OpenAI「宮變」當(dāng)日的個(gè)人回憶。
OpenAI宮變當(dāng)日
2023年11月17日中午,OpenAI董事會突然宣布罷免奧特曼的CEO職位。
當(dāng)時(shí),午飯時(shí)間Szymon Sidor突然看到了這個(gè)消息,他第一反應(yīng)是去找Jakub。
Szymon Sidor直接打斷了正埋頭跟別人討論研究問題的Jakub。
Jakub馬上走出大樓,直接給奧特曼打電話,詢問發(fā)生了什么?
這個(gè)決定太突然了,也沒有任何事先解釋或預(yù)警。
接下來的幾天,大家都處于混亂中,試圖搞清楚:董事會為什么會做出這種決定?它對我們未來意味著什么?
順便插入一句,在奧特曼被解雇后,Jakub Pachocki、Szymon Sidor和Aleksander M?dry隨即追隨奧特曼,一起辭職。
回過頭看,這件事最重要的教訓(xùn)是:治理結(jié)構(gòu)真的很重要。
我們花了接近十年時(shí)間建設(shè)的OpenAI,居然可以因?yàn)橐淮沃卫頉Q策而差點(diǎn)完全偏離軌道。
如果治理沒有提前規(guī)劃清楚,哪怕你技術(shù)再領(lǐng)先,也很脆弱。
雖然在設(shè)立機(jī)構(gòu)結(jié)構(gòu)時(shí)已經(jīng)很認(rèn)真了,但后來證明,OpenAI仍然低估了它真正的重要性。
在公司剛起步時(shí)做出的決定,即便當(dāng)下看起來無關(guān)緊要,將來也可能影響深遠(yuǎn)。
高中已相識
OpenAI再聚首
他們在波蘭高中相識,因?yàn)闊釔劬幊虆⒓油凰?jì)算機(jī)夏令營。
在到美國留學(xué)后,兩人友情升溫,分別求學(xué)于哈佛、MIT、CMU;2017年,再于OpenAI 重聚,成為橫跨算法、系統(tǒng)、推理研究的最佳搭檔。
倆人加入OpenAI的契機(jī)都因?yàn)锳lphaGo的沖擊。
從高中起,Jakub Pachocki就非常沉迷于探索「計(jì)算機(jī)能力的極限」。
加入OpenAI前,他認(rèn)為要實(shí)現(xiàn)具有推理能力的AI,條件并不成熟。
但AlphaGo的成功讓他意識到:AI的潛力遠(yuǎn)超原先的判斷,原來我們真的已經(jīng)進(jìn)入一個(gè)新AI階段了。
從那一刻起,他就知道:是時(shí)候行動了。
早在OpenAI成立前,聯(lián)合創(chuàng)始人Wojciech Zaremba就試圖拉Jakub入坑深度學(xué)習(xí)。當(dāng)時(shí)OpenAI還有其他熟人,而且面試也很順利,所以Jakub在8年前下定決心加入OpenAI,順利入職。
Szymon Sidor則起步于機(jī)器人系統(tǒng),最初的興趣竟源于電影《鋼鐵俠》。
他申請過美國一堆大學(xué)的機(jī)器人項(xiàng)目,最后因?yàn)橛⒄Z考試,只有MIT沒有拒絕他。
雖然被錄取了,但他對機(jī)器人逐漸感到失望,甚至一度想退學(xué)。唯一讓他堅(jiān)持下來的是:他開始對深度學(xué)習(xí)感興趣,全情投入AI前沿。后來又接觸了強(qiáng)化學(xué)習(xí)(RL)。
AlphaGo更是堅(jiān)定了他要做AI的決心。
Szymon原本想去DeepMind,但面試時(shí)被一堆理論機(jī)器學(xué)習(xí)問題給刷下來了。而OpenAI更「工程務(wù)實(shí)」,加上朋友們都去,就一門心思奔OpenAI而去。
不過,最初他對「短期就能實(shí)現(xiàn)AGI」的時(shí)間線完全不信。
ChatGPT并非臨時(shí)起意
雖然現(xiàn)在的氛圍明顯更輕松了,但我還是覺得早期那種「笨拙」的感覺有一種特別的魅力。
當(dāng)時(shí)大家說話都很慎重,一句句地在腦子里排練,最后說出來的通常都非常深刻,有時(shí)甚至挺有意思的。
在OpenAI, Jakub參與的第一個(gè)大項(xiàng)目是Dota 2。他們直接Scaling現(xiàn)有R算法,無腦放大最后竟然奏效了!
他們花了兩年,主要是解決工程瓶頸,而不是算法瓶頸。
Szymon則介紹了OpenAI早期的「集體冒名頂替綜合征」:
午飯時(shí)大家安靜如雞,每個(gè)人都在腦子里把要說的話排練十遍,然后才開口。
現(xiàn)在回頭看,那種「尷尬」也體現(xiàn)在技術(shù)路線:OpenAI東戳一下、西試一下,遲遲找不到聚焦點(diǎn),直到GPT范式出現(xiàn)。
外界常說關(guān)于GPT的誕生,是Alec「偶然」發(fā)現(xiàn)。
真相是,Ilya和Alec早就盯上語言模型。
真正的跳躍是2017年的《情感神經(jīng)元》論文。
當(dāng)時(shí),還沒有沒Transformer,但他們發(fā)現(xiàn):只要用大量影評無監(jiān)督訓(xùn)練,模型就能自發(fā)學(xué)會「正面/負(fù)面」情感概念。
那一刻大家意識到:原來不用語法規(guī)則,只靠數(shù)據(jù)也能捕捉到語義。此后,Alec持續(xù)在語言模型上深耕,最終發(fā)明了GPT。
Alec Radford:GPT開山論文作者,AI領(lǐng)域最強(qiáng)本科生之一
這個(gè)實(shí)驗(yàn)顛覆了大家對語言建模的看法:此前大家還停留在「基于語法規(guī)則」的思路上。而這個(gè)結(jié)果表明,模型可以完全靠數(shù)據(jù)就學(xué)出語義。
不過,大部分OpenAI的研究員是在修bug。
OpenAI研究員
每天都在找bug
深度學(xué)習(xí)獨(dú)特之處在于:我們既完全掌控代碼與架構(gòu),卻又無法徹底理解網(wǎng)絡(luò)內(nèi)部的優(yōu)化機(jī)制。于是哪怕一個(gè)小小的實(shí)現(xiàn)錯(cuò)誤,模型也會「強(qiáng)行學(xué)出來」,導(dǎo)致結(jié)果看起來還行,實(shí)則偏差很大。
像研究自然現(xiàn)象一樣,兩人設(shè)計(jì)實(shí)驗(yàn):每一步都得驗(yàn)證「是不是我們以為的那樣」。
比如,他們在訓(xùn)練深度強(qiáng)學(xué)習(xí)算法DQN時(shí),由于將游戲畫面轉(zhuǎn)成灰度圖,錯(cuò)誤地校準(zhǔn)了綠色通道的系數(shù),結(jié)果游戲中的魚「消失」了,導(dǎo)致模型性能顯著下降。
比如,之前他們發(fā)現(xiàn)網(wǎng)絡(luò)偶爾會莫名其妙地「數(shù)值爆炸」。有一天他倆決定死磕,把每一個(gè)標(biāo)量都打印出來,最后發(fā)現(xiàn)是某個(gè)梯度裁剪閾值在極端batch下失效。
從此之后,OpenAI招了一批「debug狂魔」,專門啃這種幽靈bug。
向推理模型的范式轉(zhuǎn)移
如果說GPT-3展現(xiàn)的是「語言生成能力」,那過去兩年,Jakub和Shimon領(lǐng)導(dǎo)團(tuán)隊(duì),正在推動「推理能力」。
他們的目標(biāo)不是讓模型模仿人類的解題步驟,而是教模型學(xué)會用它自己的方式來思考。
這是「Chain of Thought」(思維鏈)范式的本質(zhì)突破 —— 不再只是預(yù)測「人類怎么說」,而是嘗試生成「它自己該怎么想」。
雖然推理模型的實(shí)用性在提升,但離最終目標(biāo)還有距離。
預(yù)計(jì)未來幾年進(jìn)展會更快。
鋸齒智能:不斷定義的AGI
在過去,「AGI」是理想主義者口中的「智能奇點(diǎn)」。、
2017年,OpenAI對AGI的描述:「一個(gè)能完成絕大多數(shù)經(jīng)濟(jì)價(jià)值任務(wù)的AI」。
看似是可衡量的技術(shù)目標(biāo),其實(shí)是一種情緒目標(biāo)。
而現(xiàn)在,他們更傾向于把它視為:
一組不斷出現(xiàn)的新能力;
一條從「能聊天」到「能做科研」的技術(shù)演進(jìn)路徑。
Jakub提出,「能自主進(jìn)行科學(xué)研究的系統(tǒng)」是他心中最像AGI的形態(tài),而這種能力將在未來幾年內(nèi)出現(xiàn)。
如果AGI定義為「引發(fā)大規(guī)模經(jīng)濟(jì)轉(zhuǎn)型的AI」,那么它很快就要來了。
AGI 不僅是技術(shù)目標(biāo),也是一種情緒目標(biāo),是一直追逐的星辰大海。
而「自動研究員」正是我們這個(gè)推理方向的核心終點(diǎn)。
當(dāng)然,越接近這個(gè)終點(diǎn),「對齊問題」也就變得越重要。
未來
他們強(qiáng)調(diào),對齊問題(AI Alignment)不僅是「技術(shù)問題」,更是「哲學(xué)難題」。
隨著模型越來越復(fù)雜,規(guī)則、監(jiān)督、懲罰這套體系將逐步失效。
他們舉了一個(gè)現(xiàn)實(shí)例子:社交媒體推薦系統(tǒng)。
AI不斷優(yōu)化「用戶參與感」,結(jié)果可能導(dǎo)致信息繭房、社會撕裂 —— 即便一開始的目標(biāo)聽起來沒毛病。
我們?nèi)绾未_保模型真正做的是我們希望它做的事?這是一個(gè)巨大的挑戰(zhàn)。
而在那之前,其實(shí)還有一個(gè)更緊迫的問題: 如果一套極具研發(fā)能力的系統(tǒng)可以由少數(shù)人掌控,它能自己發(fā)明新技術(shù)……
那它對治理結(jié)構(gòu)和權(quán)力平衡的影響,將是空前的。
最意外的是:原本懷疑「AI安全可行性」的Szymon,現(xiàn)在對安全問題最樂觀。
我們現(xiàn)在必須同時(shí)解決「能力」與「安全」,否則連有用的產(chǎn)品都做不出來。
他們用謹(jǐn)慎與熱忱提醒我們:
真正的AI進(jìn)步,不只是「智能」,而是「讓世界更美好」。
參考資料:
https://x.com/aleks_madry/status/1950934417591181430
https://www.youtube.com/watch?v=LauSf7HoxwM
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.