夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LSTM之父向何愷明開炮:我學(xué)生才是殘差學(xué)習(xí)奠基人

0
分享至

鷺羽 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

何愷明殘差學(xué)習(xí)奠基人的身份,也被“挑戰(zhàn)”了。

為什么要說(shuō)“也”?因?yàn)榘l(fā)起討論的,又雙叒是我們熟悉的Jürgen Schmidhuber——LSTM之父。

不過(guò)這一次,他不是要把功勞攬到自己身上,而是替LSTM的另一位作者Sepp Hochreiter發(fā)聲:

殘差學(xué)習(xí)這把改變深度學(xué)習(xí)格局的 “鑰匙”,其實(shí)早在30年前就已經(jīng)誕生——Sepp Hochreiter在1991年就在使用循環(huán)殘差連接解決梯度消失問(wèn)題。



有一說(shuō)一,Jürgen爭(zhēng)title也不是第一次了,作為深度學(xué)習(xí)的先驅(qū)者,Jürgen自認(rèn)為自己的早期貢獻(xiàn)被人為忽視了。

ResNet發(fā)布的同年,深度學(xué)習(xí)三巨頭BengioHintonLeCun在Nature上聯(lián)合發(fā)表有關(guān)DL的綜述論文,其中大量引用他們?nèi)说淖陨沓晒?,卻對(duì)Jürgen等人只字不提。

隨即他們展開了長(zhǎng)達(dá)多年的爭(zhēng)論,尤其是在18年的圖靈獎(jiǎng)結(jié)果公布后,Jürgen更是洋洋灑灑寫了篇援引200多條文獻(xiàn)的小作文反擊。

之后在GAN的原創(chuàng)爭(zhēng)議上,雙方也是爭(zhēng)執(zhí)不休,要知道GAN的提出者正是Bengio的得意門生。

而如今有關(guān)殘差學(xué)習(xí)的創(chuàng)始之爭(zhēng),也是因?yàn)镴ürgen自認(rèn)為將殘差學(xué)習(xí)這一成果的發(fā)現(xiàn)完全歸因于何愷明團(tuán)隊(duì)有失偏頗。

不過(guò)正如網(wǎng)友所說(shuō):

  • 從Hochreiter到ResNet,光芒隨時(shí)間遞歸延續(xù)。陰影是被模糊的歸屬,但真理始終不變:1991年的種子閃耀著每一層。



30年前的第一次提出

Jürgen Schmidhube這次要講的故事始于1991年。

當(dāng)時(shí)還是Jürgen學(xué)生的Sepp Hochreiter,正在著手撰寫自己的博士論文,也正是在這篇論文里,他首次系統(tǒng)性分析了RNN的梯度消失問(wèn)題,并提出用循環(huán)殘差連接解決。



循環(huán)殘差連接的核心思想相當(dāng)簡(jiǎn)單:一個(gè)具有恒等激活函數(shù)的神經(jīng)單元自連接,且權(quán)重固定為1.0,使其在每個(gè)時(shí)間步中僅將輸入疊加到先前狀態(tài),該單元只作為增量積分器存在。

于是誤差信號(hào)就能在反向傳播中保持恒定,不會(huì)消失或爆炸。

不過(guò)與此前任意實(shí)數(shù)權(quán)重的自連接不同,只有權(quán)重嚴(yán)格為1.0,才能完全避免梯度問(wèn)題。

接近1.0的近似值雖然可以接受,但衰減速度會(huì)隨時(shí)間加快,例如0.99的權(quán)重下誤差信號(hào)會(huì)在100個(gè)時(shí)間步后減少到原來(lái)的37%(0.991??≈37%),0.9的權(quán)重則只有原來(lái)的0.0027%(0.91??≈0.0027%)。

但盡管如此,這也為后來(lái)的深度學(xué)習(xí)殘差思想奠定了理論基礎(chǔ)。



直到1997年,Jürgen和Hochreiter共同提出了著名的LSTM,在該理論的基礎(chǔ)上實(shí)現(xiàn)了進(jìn)一步的擴(kuò)展。

LSTM的核心單元是權(quán)重為1.0的循環(huán)殘差連接,也就是恒定誤差輪盤(CECs),這一機(jī)制保證了誤差可在數(shù)百乃至數(shù)千時(shí)間步中保持不衰減,使LSTM能有效捕捉輸入與輸出之間的長(zhǎng)時(shí)間滯后,對(duì)語(yǔ)音、語(yǔ)言等任務(wù)至關(guān)重要。

另外這篇LSTM論文也是20世紀(jì)引用次數(shù)最多的人工智能論文

1999年,LSTM演變出新的形態(tài)vanilla LSTM,在原來(lái)的基礎(chǔ)上加入了初始值為1.0的遺忘門,使其具備可控的殘差連接,既能保持長(zhǎng)時(shí)依賴,又能在需要時(shí)重置記憶。

雖然這樣做會(huì)重新引入一定的梯度消失,不過(guò)整體仍然處于可控狀態(tài)。

到2005年,通過(guò)時(shí)間反向傳播(BPTT)算法,LSTM可以展開為深度前饋神經(jīng)網(wǎng)絡(luò)(FNN),讓每個(gè)輸入序列的時(shí)間步都對(duì)應(yīng)一個(gè)虛擬層,從而大幅增加了網(wǎng)絡(luò)深度,可以處理更長(zhǎng)時(shí)間滯后。
而無(wú)論是循環(huán)還是前饋,殘差連接始終依賴權(quán)重固定為1.0。

接下來(lái)就是眾所周知的2015年,首先在同年5月,需要優(yōu)先提及Highway網(wǎng)絡(luò)的貢獻(xiàn)。



此前,基于反向傳播的前饋神經(jīng)網(wǎng)絡(luò)的深度有限,只有20到30層,直到Highway網(wǎng)絡(luò)的出現(xiàn),才首次成功訓(xùn)練出上百層的深度前饋網(wǎng)絡(luò),比過(guò)去要深10倍以上。

其核心是將LSTM的門控殘差思想從循環(huán)神經(jīng)網(wǎng)絡(luò)引入前饋網(wǎng)絡(luò),每層輸出為g(x)x+t(x)h(x),其中x是來(lái)自前一層的數(shù)據(jù),g、t、h表示帶實(shí)值的非線性可微函數(shù)。

關(guān)鍵的殘差部分g(x)x初始化為1.0,讓Highway網(wǎng)絡(luò)既能保持類似ResNet的純殘差連接,又能根據(jù)任務(wù)需要,以依賴上下文的方式自適應(yīng)調(diào)整殘差流,從而大幅提升深度可訓(xùn)練性。



最后再到12月,ResNet在ImageNet競(jìng)賽中大獲成功,徹底將殘差學(xué)習(xí)帶入大眾視線。

ResNet在殘差部分設(shè)計(jì)上,與展開的LSTM以及初始化的Highway網(wǎng)絡(luò)相似,如果將Highway網(wǎng)絡(luò)的門恒定設(shè)置為1.0,就可以得到純殘差網(wǎng)絡(luò)ResNet,而它們本質(zhì)上都是1997年的LSTM前饋?zhàn)凅w。

ResNet的殘差連接允許誤差在深層網(wǎng)絡(luò)中穩(wěn)定傳播,使網(wǎng)絡(luò)能夠訓(xùn)練數(shù)百層,但Jürgen也指出,ResNet論文中并沒有明確說(shuō)明它實(shí)際上就是開部門控的Highway網(wǎng)絡(luò),二者之間存在相似的標(biāo)準(zhǔn)殘差連接。



總結(jié)就是,LSTM與Highway網(wǎng)絡(luò)分別奠定了循環(huán)和前饋網(wǎng)絡(luò)的深度訓(xùn)練基礎(chǔ),ResNet則將這一原理成功應(yīng)用于前饋網(wǎng)絡(luò),延續(xù)了自1991年Hochreiter首創(chuàng)的殘差思想。

One More Thing

不過(guò),這種說(shuō)法目前僅代表Jürgen Schmidhuber的個(gè)人觀點(diǎn)。(疊甲doge)

因?yàn)檫@已經(jīng)不是他第一次對(duì)著名神經(jīng)網(wǎng)絡(luò)的起源提出質(zhì)疑。

早在2021年,他就公開表示,LSTM、ResNet、AlexNet、VGG Net、GAN以及Transformer,都是受到了他實(shí)驗(yàn)室成果的啟發(fā)



例如他認(rèn)為AlexNet和VGG Net采用了他們的DanNet;GAN是對(duì)他在1990年提出的Adversarial Curiosity原則的應(yīng)用;Transformer的變體,即線性Transformer,是對(duì)他提出的快速權(quán)重存儲(chǔ)系統(tǒng)的延伸。

但除了無(wú)可爭(zhēng)議的LSTM歸屬,其他幾項(xiàng)至今都沒有得到普遍認(rèn)可。

甚至衍生出這樣一種說(shuō)法:“Schmidhuber is all you need.”




[1]https://x.com/SchmidhuberAI/status/1972300268550369631
[2]https://people.idsia.ch/~juergen/who-invented-residual-neural-networks.html
[3]https://mp.weixin.qq.com/s/XkGs9rsSlI4D6oNv52pfOw

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鐘南山院士提醒:過(guò)了70歲,體檢主要查這4項(xiàng)就夠了,別亂查!

鐘南山院士提醒:過(guò)了70歲,體檢主要查這4項(xiàng)就夠了,別亂查!

小舟談歷史
2025-10-21 09:21:29
大疆“自殺式”降價(jià)背后:寧可不賺錢,也要壟斷手機(jī)巨頭的跨界

大疆“自殺式”降價(jià)背后:寧可不賺錢,也要壟斷手機(jī)巨頭的跨界

軍機(jī)Talk
2025-10-21 11:03:15
鄭麗文做出第一波人事任命,兩人受到重用,朱立倫宣布一件大事

鄭麗文做出第一波人事任命,兩人受到重用,朱立倫宣布一件大事

DS北風(fēng)
2025-10-22 16:02:04
誰(shuí)更著急?巴西大豆價(jià)飆上天,中國(guó)立即全面停購(gòu),美大豆糧倉(cāng)撐爆

誰(shuí)更著急?巴西大豆價(jià)飆上天,中國(guó)立即全面停購(gòu),美大豆糧倉(cāng)撐爆

探源歷史
2025-10-22 14:19:29
火箭vs雷霆裁判報(bào)告:漏吹杜蘭特暫停技犯 阿門投籃被犯規(guī)也漏判

火箭vs雷霆裁判報(bào)告:漏吹杜蘭特暫停技犯 阿門投籃被犯規(guī)也漏判

羅說(shuō)NBA
2025-10-23 05:51:21
小伙到廣州一豬腳飯店吃免費(fèi)“2號(hào)餐”,突然跪地道謝,老板娘:以后要吃飯就直接過(guò)來(lái)

小伙到廣州一豬腳飯店吃免費(fèi)“2號(hào)餐”,突然跪地道謝,老板娘:以后要吃飯就直接過(guò)來(lái)

極目新聞
2025-10-22 21:36:12
軟如面條!艾頓首秀攻防慘淡 800萬(wàn)也不值?

軟如面條!艾頓首秀攻防慘淡 800萬(wàn)也不值?

體壇周報(bào)
2025-10-22 16:18:12
畢麗娜:費(fèi)翔母親,傳言是大陸特工,17歲赴臺(tái),兩任丈夫身份特殊

畢麗娜:費(fèi)翔母親,傳言是大陸特工,17歲赴臺(tái),兩任丈夫身份特殊

阿胡
2025-10-20 11:24:06
離大譜!一球員倒地后翻滾,有條狗跑過(guò)來(lái)復(fù)刻其動(dòng)作,內(nèi)馬爾躺槍

離大譜!一球員倒地后翻滾,有條狗跑過(guò)來(lái)復(fù)刻其動(dòng)作,內(nèi)馬爾躺槍

風(fēng)過(guò)鄉(xiāng)
2025-10-22 19:16:57
闞清子曬婚后豪宅,家里有電梯,愛馬仕盒子擺一墻,給貓用LV手袋

闞清子曬婚后豪宅,家里有電梯,愛馬仕盒子擺一墻,給貓用LV手袋

墨印齋
2025-10-21 17:36:30
華人五大世界級(jí)科學(xué)家,錢老第三,華羅庚未上榜,楊振寧讓人意外

華人五大世界級(jí)科學(xué)家,錢老第三,華羅庚未上榜,楊振寧讓人意外

法老不說(shuō)教
2025-10-22 14:20:22
妹子“把胸放桌上休息”被拍走紅!女菩薩們不服發(fā)照片PK:最后這波贏麻了

妹子“把胸放桌上休息”被拍走紅!女菩薩們不服發(fā)照片PK:最后這波贏麻了

經(jīng)典段子
2025-10-11 22:34:42
你聽過(guò)最離譜的事是什么?網(wǎng)友:抱著她,她和老公打電話

你聽過(guò)最離譜的事是什么?網(wǎng)友:抱著她,她和老公打電話

帶你感受人間冷暖
2025-08-31 17:45:25
楊振寧一生最大的遺憾:年薪萬(wàn)刀未救小舅子,杜致仁用安眠藥結(jié)束生命

楊振寧一生最大的遺憾:年薪萬(wàn)刀未救小舅子,杜致仁用安眠藥結(jié)束生命

星辰夜語(yǔ)
2025-10-22 14:14:12
吃降壓藥的人,身體若有5個(gè)表現(xiàn),可能是缺鉀了!趕緊補(bǔ)充

吃降壓藥的人,身體若有5個(gè)表現(xiàn),可能是缺鉀了!趕緊補(bǔ)充

章幃戶外
2025-10-21 17:29:42
哥哥去世后,嫂子以死相逼,讓我與她結(jié)合,最后的結(jié)局出乎意料!

哥哥去世后,嫂子以死相逼,讓我與她結(jié)合,最后的結(jié)局出乎意料!

人間百態(tài)大全
2025-10-22 06:40:03
唐宋以前連棉被都沒有,零下幾十度的寒冬,古人是怎么扛過(guò)來(lái)的?

唐宋以前連棉被都沒有,零下幾十度的寒冬,古人是怎么扛過(guò)來(lái)的?

博覽歷史
2025-10-16 21:42:01
若我們這代人不收復(fù)臺(tái)灣,下代人統(tǒng)一時(shí),或會(huì)直接將臺(tái)灣打成廢墟

若我們這代人不收復(fù)臺(tái)灣,下代人統(tǒng)一時(shí),或會(huì)直接將臺(tái)灣打成廢墟

老謝談史
2025-10-22 19:05:27
豐田章男:雷克薩斯不抄襲任何車企,6輪MPV時(shí)代要來(lái)了!

豐田章男:雷克薩斯不抄襲任何車企,6輪MPV時(shí)代要來(lái)了!

米粒說(shuō)車唯一呀
2025-10-22 16:12:53
湖北神農(nóng)架一女孩因內(nèi)急跑去樹林,卻看到驚險(xiǎn)一幕

湖北神農(nóng)架一女孩因內(nèi)急跑去樹林,卻看到驚險(xiǎn)一幕

熱風(fēng)追逐者
2025-10-22 10:46:53
2025-10-23 07:04:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11548文章數(shù) 176309關(guān)注度
往期回顧 全部

科技要聞

鴻蒙6發(fā)布,今日公測(cè),支持與蘋果設(shè)備互傳

頭條要聞

美媒稱美國(guó)允許烏對(duì)俄使用遠(yuǎn)程導(dǎo)彈 特朗普回應(yīng)

頭條要聞

美媒稱美國(guó)允許烏對(duì)俄使用遠(yuǎn)程導(dǎo)彈 特朗普回應(yīng)

體育要聞

雷霆雙加時(shí)險(xiǎn)勝火箭 SGA35+5申京39+11

娛樂(lè)要聞

又嫁錯(cuò)人?賈靜雯2600萬(wàn)換女兒撫養(yǎng)權(quán)

財(cái)經(jīng)要聞

信也科技擔(dān)保模式之謎 擔(dān)保費(fèi)率達(dá)17.5%

汽車要聞

低調(diào)務(wù)實(shí)的零跑,在高端市場(chǎng)也“支棱”了

態(tài)度原創(chuàng)

教育
本地
親子
旅游
軍事航空

教育要聞

男孩子性教育,到底應(yīng)該怎么做?

本地新聞

云游中國(guó)|一腳踏入萬(wàn)州,才懂煙火江城的真意

親子要聞

這是今年咨詢我的寶媽中,最嚴(yán)重的一件事!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

普京指揮俄軍戰(zhàn)略核力量綜合演習(xí)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 国产午夜福利在线机视频| 真人裸交一进一出高潮| 成全电影大全免费观看在线播放视频| 国产GV猛男GV无码男同软件 | 中国女人内谢69XXXXX首页| 狠狠色噜噜狠狠狠777米奇888| 国产999精品2卡3卡4卡| 欧美丰满熟妇性xxxx| y1111111少妇无码| 成 人色 网 站| 伊人激情av一区二区三区| 日本中文字幕乱伦电影| 国产69精品久久久久乱码| 金发美女大战黑巨茎| 好了av第四综合无码久久| 中国老太婆bb无套内射| 精品一区二区三区国产在线观看| MM1313亚洲精品无码| 精品综合久久久久久888蜜芽| 欧美一区二区三区四区爽伊人| 天美麻花果冻视频大全英文版| 91精品人妻酒店综合大胆无码| 人人要干视频| 精品国产无码专区一区二区在线不卡 | 操老熟女免费视频| 久久天堂av综合色无码专区| 丁香婷婷五月| 18禁白丝喷水视频www视频| 久久人人妻人人做人人玩精品| www.夜夜操.com| 人人干人人看人人| 女人高潮精品一区| 国产成人乱色视频网站| 蜜臀av色欲无码人妻精品天美| 欧美亚洲tv| 波多野吉衣33分钟无码| 色综合天天视频在线观看| 欧美神马午夜伦理一区二区三区| 久久久99精品成人片中文字幕| 国产精品久久久久久亚洲色欲| 超碰免费人人操|