新智元報(bào)道
編輯:KingHZ 桃子
【新智元導(dǎo)讀】剛剛,AI界傳奇Jeff Dean深度訪談重磅放出!作為谷歌大腦奠基人、TensorFlow與TPU背后的關(guān)鍵推手,他親述了這場(chǎng)神經(jīng)網(wǎng)絡(luò)革命的非凡歷程。
剛剛,「現(xiàn)代互聯(lián)網(wǎng)架構(gòu)之父」Jeff Dean的最新對(duì)談流出。
這位AI領(lǐng)域的傳奇,是Google Brain的奠基者,也是推動(dòng)神經(jīng)網(wǎng)絡(luò)走向規(guī)?;年P(guān)鍵人物。
從讓神經(jīng)網(wǎng)絡(luò)「看懂貓」的重大突破,到TensorFlow與TPU的誕生,他的故事幾乎是一部AI發(fā)展史。
在最新一期「登月播客」(The Moonshot podcast)深度訪談中,Jeff Dean回顧了個(gè)人成長(zhǎng)經(jīng)歷、Google Brain的早期故事,以及他對(duì)AI未來(lái)的思考。
節(jié)目中,他揭秘了他本人所知的一些細(xì)節(jié)和趣事:
· 小時(shí)候,Jeff Dean打印了400頁(yè)源碼自學(xué)。
· 90年代,他提出「數(shù)據(jù)并行/模型并行」概念時(shí),還沒(méi)這些術(shù)語(yǔ)。
· Google Brain的最初靈感,竟然是在谷歌的微型茶水間與吳恩達(dá)的一次閑聊中誕生。
· 「平均貓」圖像的誕生,被Jeff比作「在大腦里找到了觸發(fā)祖母記憶的神經(jīng)元」。
· 他把AI模型比作「蘇格拉底式伙伴」,能陪伴推理、辯論,而不是單向工具。
· 對(duì)未來(lái)的隱喻:「一億老師,一個(gè)學(xué)生」,人類不斷教AI模型,所有人都能受益。
超級(jí)工程師,早已看好神經(jīng)網(wǎng)絡(luò)
Jeff是工程超級(jí)英雄口中的「工程超級(jí)英雄」,很少有人像Jeff Dean這樣的單個(gè)工程師,贏得人們?nèi)绱硕嗟难瞿健?/p>
主持人的第一個(gè)問(wèn)題是:Jeff Dean是如何成為工程師的?
Jeff Dean認(rèn)為他有一個(gè)不同尋常的童年。因?yàn)榻?jīng)常搬家,在12年里他換了11所學(xué)校。
在很小的時(shí)候,他喜歡用樂(lè)高積木搭建東西,每次搬家總要帶上他的樂(lè)高套裝。
當(dāng)九歲的時(shí)候,他住在夏威夷。
Jeff的父親是一名醫(yī)生,但他總是對(duì)計(jì)算機(jī)如何用于改善公共衛(wèi)生感興趣。當(dāng)時(shí)如果想用計(jì)算機(jī),他只能去健康部門(mén)地下室的機(jī)房,把需求交給所謂的「主機(jī)大神」,然后等他們幫你實(shí)現(xiàn),速度非常慢。
在雜志上,Jeff的爸爸看到一則廣告,買(mǎi)下了DIY計(jì)算機(jī)套件。那是一臺(tái)Intel 8080的早期機(jī)型(大概比Apple II還要早一兩年)。
最初,這臺(tái)電腦就是一個(gè)閃爍燈和開(kāi)關(guān)的盒子,后來(lái)他們給它加了鍵盤(pán),可以一次輸入多個(gè)比特。再后來(lái),他們安裝了一個(gè)BASIC解釋器。Jeff Dean買(mǎi)了一本《101個(gè)BASIC語(yǔ)言小游戲》的書(shū),可以把程序一行一行敲進(jìn)去,然后玩,還能自己修改。
這就是他第一次接觸編程。
后來(lái),Jeff一家搬到明尼蘇達(dá)州。全州的中學(xué)和高中都能接入同一個(gè)計(jì)算機(jī)系統(tǒng),上面有聊天室,還有交互式冒險(xiǎn)游戲。
這就像「互聯(lián)網(wǎng)的前身」,比互聯(lián)網(wǎng)普及早了15~20年。
當(dāng)時(shí),Jeff大概13、14歲,他在玩兒的一款多人在線的游戲源碼開(kāi)源了。
Jeff偷偷用了一臺(tái)激光打印機(jī),把400頁(yè)源代碼全都打印了出來(lái),想把這款多人主機(jī)游戲移植到UCSD Pascal系統(tǒng)上。
這個(gè)過(guò)程讓他學(xué)到了很多關(guān)于并發(fā)編程的知識(shí)。
這是Jeff Dean第一次編寫(xiě)出并不簡(jiǎn)單的軟件。
大概是91年,人工智能第一次抓住了Jeff Dean想象力。
具體而言,是使用lisp代碼進(jìn)行遺傳編程。
而在明尼蘇達(dá)大學(xué)本科的最后一年,Jeff Dean第一次真正接觸了人工智能。
當(dāng)時(shí),他上了一門(mén)并行與分布式編程課,其中講到神經(jīng)網(wǎng)絡(luò),因?yàn)樗鼈儽举|(zhì)上非常適合并行計(jì)算。
那是1990年,當(dāng)時(shí)神經(jīng)網(wǎng)絡(luò)剛好有一波熱潮。它們能解決一些傳統(tǒng)方法搞不定的小問(wèn)題。
當(dāng)時(shí)「三層神經(jīng)網(wǎng)絡(luò)」就算是「深度」了,而現(xiàn)在有上百層。
他嘗試用并行的方法來(lái)訓(xùn)練更大的神經(jīng)網(wǎng)絡(luò),把32個(gè)處理器連在一起。但后來(lái)發(fā)現(xiàn),需要的算力是100萬(wàn)倍,32個(gè)遠(yuǎn)遠(yuǎn)不夠。
論文鏈接:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view
雖然實(shí)驗(yàn)規(guī)模有限,但這就是他和神經(jīng)網(wǎng)絡(luò)的第一次深度接觸,讓他覺(jué)得這條路很對(duì)。
即便到了90年代末,神經(jīng)網(wǎng)絡(luò)在AI領(lǐng)域已經(jīng)完全「過(guò)時(shí)」了。之后,很多人放棄了「神經(jīng)網(wǎng)絡(luò)」研究。
但Jeff Dean并沒(méi)有完全放棄。當(dāng)時(shí)整個(gè)AI領(lǐng)域都轉(zhuǎn)移了關(guān)注點(diǎn),他就去嘗試別的事情了。
畢業(yè)后,他加入了Digital Equipment Corporation在Palo Alto的研究實(shí)驗(yàn)室。
數(shù)字設(shè)備公司Digital Equipment Corporation,簡(jiǎn)稱DEC,商標(biāo)迪吉多Digital,是成立于1957年的一家美國(guó)電腦公司,發(fā)明了PDP系列迷你計(jì)算機(jī)、Alpha微處理器,后于1998年被康柏電腦收購(gòu)
后來(lái),他加入谷歌,多次在不同領(lǐng)域「從頭再來(lái)」:
搜索與信息檢索系統(tǒng)、大規(guī)模存儲(chǔ)系統(tǒng)(Bigtable、Spanner)、機(jī)器學(xué)習(xí)醫(yī)療應(yīng)用,最后才進(jìn)入Google Brain。
谷歌大腦秘辛:一次茶水間閑聊
在職業(yè)生涯里,Jeff Dean最特別的一點(diǎn)是:一次又一次地「從零開(kāi)始」。
這種做法激勵(lì)了很多工程師,證明了「影響力」不等于「手下的人數(shù)」,而是推動(dòng)事情發(fā)生的能力。
就像把雪球推到山坡上,讓它滾得足夠快、足夠大,然后再去找下一個(gè)雪球。Jeff Dean喜歡這種方式。
然后在Spanner項(xiàng)目逐漸穩(wěn)定后,他開(kāi)始尋找下一個(gè)挑戰(zhàn),遇到了吳恩達(dá)。
在谷歌的茶水間偶然碰面,吳恩達(dá)告訴Jeff Dean:「在語(yǔ)音和視覺(jué)上,斯坦福的學(xué)生用神經(jīng)網(wǎng)絡(luò)得到了很有前景的結(jié)果?!?/p>
Jeff一聽(tīng)就來(lái)了興趣,說(shuō):「我喜歡神經(jīng)網(wǎng)絡(luò),我們來(lái)訓(xùn)練超大規(guī)模的吧?!?/p>
這就是Google Brain的開(kāi)端,他們想看看是否能夠真正擴(kuò)大神經(jīng)網(wǎng)絡(luò),因?yàn)槭褂肎PU訓(xùn)練神經(jīng)網(wǎng)絡(luò),已經(jīng)取得良好的結(jié)果。
Jeff Dean決定建立分布式神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng),從而訓(xùn)練非常大的網(wǎng)絡(luò)。最后,谷歌使用了2000臺(tái)計(jì)算機(jī),16000個(gè)核心,然后說(shuō)看看到底能訓(xùn)練什么。
漸漸地,越來(lái)越多的人開(kāi)始參與這個(gè)項(xiàng)目。
谷歌在視覺(jué)任務(wù)訓(xùn)練了大型無(wú)監(jiān)督模型,為語(yǔ)音訓(xùn)練了大量的監(jiān)督模型,與搜索和廣告等谷歌部門(mén)合作做了很多事情。
最終,有了數(shù)百個(gè)團(tuán)隊(duì)使用基于早期框架的神經(jīng)網(wǎng)絡(luò)。
紐約時(shí)報(bào)報(bào)道了這一成就,刊登了那只貓的照片,有點(diǎn)像谷歌大腦的「啊哈時(shí)刻」。
因?yàn)樗麄兪褂玫氖菬o(wú)監(jiān)督算法。
他們把特定神經(jīng)元真正興奮的東西平均起來(lái),創(chuàng)造最有吸引力的輸入模式。這就是創(chuàng)造這只貓形象的經(jīng)過(guò),稱之為「平均貓」。
在Imagenet數(shù)據(jù)集,谷歌微調(diào)了這個(gè)無(wú)監(jiān)督模型,在Imagenet 20000個(gè)類別上獲得了60%的相對(duì)錯(cuò)誤率降低(relative error rate reduction)。
同時(shí),他們使用監(jiān)督訓(xùn)練模型,在800臺(tái)機(jī)器上訓(xùn)練五天,基本上降低了語(yǔ)音系統(tǒng)30%的錯(cuò)誤率。這一改進(jìn)相當(dāng)于過(guò)去20年的語(yǔ)音研究的全部進(jìn)展。
因此,谷歌決定用神經(jīng)網(wǎng)絡(luò)進(jìn)行早期聲學(xué)建模。這也是谷歌定制機(jī)器學(xué)習(xí)硬件TPU的起源。
注意力機(jī)制三部曲
之后不久,谷歌大腦團(tuán)隊(duì)取得了更大的突破,就是注意力機(jī)制(attention)。
Jeff Dean認(rèn)為有三個(gè)突破。
第一個(gè)是在理解語(yǔ)言方面,詞或短語(yǔ)的分布式表示(distributed representation)。
這樣不像用字符「New York City」來(lái)表示紐約市,取而代之的是高維空間中的向量。
紐約市傾向于出現(xiàn)的固有含義和上下文,所以可能會(huì)有一個(gè)一千維的向量來(lái)表示它,另一個(gè)一千維的向量來(lái)表示番茄(Tomato)。
而實(shí)現(xiàn)的算法非常簡(jiǎn)單,叫做word2vec(詞向量),基本上可以基于試圖預(yù)測(cè)附近的詞是什么來(lái)訓(xùn)練這些向量。
論文鏈接:https://arxiv.org/abs/1301.3781
接下來(lái),Oriol Vinyals, Ilya Sutskever和Quoc Le開(kāi)發(fā)了一個(gè)叫做序列到序列(sequence to sequence)的模型,它使用LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))。
論文鏈接:https://arxiv.org/abs/1409.3215
LSTM有點(diǎn)像是一個(gè)以向量作為狀態(tài)的東西,然后它處理一堆詞或標(biāo)記(tokens),每次它稍微更新它的狀態(tài)。所以它可以沿著一個(gè)序列掃描,并在一個(gè)基于向量的表示中記住它看到的所有東西。
它是系統(tǒng)運(yùn)行基礎(chǔ)上的短期記憶。
結(jié)果證明這是建模機(jī)器翻譯的一個(gè)非常好的方法。
最后,才是注意力機(jī)制,由Noam Shazeer等八人在Transformer中提出的注意力機(jī)制。
這個(gè)機(jī)制的想法是,與其試圖在每個(gè)單詞處更新單個(gè)向量,不如記住所有的向量。
所以,注意力機(jī)制是這篇非常開(kāi)創(chuàng)性的論文的名字,他們?cè)谄渲虚_(kāi)發(fā)了這種基于transformer的注意力機(jī)制,這個(gè)機(jī)制在序列長(zhǎng)度上是n平方的,但產(chǎn)生了驚人的結(jié)果。
LLM突破觸及門(mén)檻,自動(dòng)化閉環(huán)顛覆人類
一直以來(lái),LLM神經(jīng)網(wǎng)絡(luò)運(yùn)作機(jī)制很難被人理解,成為一個(gè)無(wú)法破譯的「黑箱」。
而如今,隨著參數(shù)規(guī)模越來(lái)越龐大,人們無(wú)法像理解代碼一樣去理解LLM。
研究人員更像是在做「神經(jīng)科學(xué)」研究:觀察數(shù)字大腦的運(yùn)作方式,然后試著推理背后的機(jī)制。
人類理解模型的想法,未來(lái)會(huì)怎么發(fā)展?
Jeff Dean對(duì)此表示,研究這一領(lǐng)域的人,把它稱之為「可解釋性」。所謂可解釋性,就是能不能搞清楚LLM到底在做什么,以及它為什么會(huì)這么做?
這確實(shí)有點(diǎn)像「神經(jīng)科學(xué)」,但相較于研究人類神經(jīng)元,LLM畢竟是數(shù)字化產(chǎn)物,相對(duì)來(lái)說(shuō)探測(cè)比較容易。
很多時(shí)候,人們會(huì)嘗試做一些直觀的可視化,比如展示一個(gè)70層模型里,第17層在某個(gè)輸入下的情況。
這當(dāng)然有用,但它還是一種比較靜態(tài)的視角。
他認(rèn)為,可解釋性未來(lái)可能的發(fā)展一個(gè)方向——如果人類想知道LLM為何做了某種決定,直接問(wèn)它,然后模型會(huì)給出回答。
主持人表示,自己也不喜歡AGI術(shù)語(yǔ),若是不提及這一概念,在某個(gè)時(shí)候,計(jì)算機(jī)會(huì)比人類取得更快的突破。
未來(lái),我們需要更多的技術(shù)突破,還是只需要幾年的時(shí)間和幾十倍的算力?
Jeff Dean表示,自己避開(kāi)AGI不談的原因,是因?yàn)樵S多人對(duì)它的定義完全不同,并且問(wèn)題的難度相差數(shù)萬(wàn)億倍。
就比如,LLM在大多數(shù)任務(wù)上,要比普通人的表現(xiàn)更強(qiáng)。
要知道,當(dāng)前在非物理任務(wù)上,它們已經(jīng)達(dá)到了這個(gè)水平,因?yàn)榇蠖鄶?shù)人并不擅長(zhǎng),自己以前從未做過(guò)的隨機(jī)任務(wù)。在某些任務(wù)中,LLM還未達(dá)到人類專家的水平。
不過(guò),他堅(jiān)定地表示,「在某些特定領(lǐng)域,LLM自我突破已經(jīng)觸及門(mén)檻」。
前提是,它能夠形成一個(gè)完全自動(dòng)化閉環(huán)——自動(dòng)生成想法、進(jìn)行測(cè)試、獲取反饋以驗(yàn)證想法的有效性,并且能龐大的解決方案空間中進(jìn)行探索。
Jeff Dean還特別提到,強(qiáng)化學(xué)習(xí)算法和大規(guī)模計(jì)算搜索,已證明在這種環(huán)境中極其有效。
在眾多科學(xué)、工程等領(lǐng)域,自動(dòng)化搜索與計(jì)算能力必將加速發(fā)展進(jìn)程。
這對(duì)于未來(lái)5年、10年,甚至15-20年內(nèi),人類能力的提升至關(guān)重要。
未來(lái)五年規(guī)劃
當(dāng)問(wèn)及未來(lái)五年個(gè)人規(guī)劃時(shí),Jeff Dean稱,自己會(huì)多花些時(shí)間去思考,打造出更加強(qiáng)大、更具成本效益的模型,最終部署后服務(wù)數(shù)十億人。
眾所周知,谷歌DeepMind目前最強(qiáng)大的模型——Gemini 2.5 Pro,在計(jì)算成本上非常高昂,他希望建造一個(gè)更優(yōu)的系統(tǒng)。
Jeff Dean透露,自己正在醞釀一些新的想法,可能會(huì)成功,也可能不會(huì)成功,但朝著某個(gè)方向努力總會(huì)有奇妙之處。
參考資料:
https://www.youtube.com/watch?v=OEuh89BWRL4
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.