鷺羽 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
何愷明殘差學(xué)習(xí)奠基人的身份,也被“挑戰(zhàn)”了。
為什么要說(shuō)“也”?因?yàn)榘l(fā)起討論的,又雙叒是我們熟悉的Jürgen Schmidhuber——LSTM之父。
不過(guò)這一次,他不是要把功勞攬到自己身上,而是替LSTM的另一位作者Sepp Hochreiter發(fā)聲:
殘差學(xué)習(xí)這把改變深度學(xué)習(xí)格局的 “鑰匙”,其實(shí)早在30年前就已經(jīng)誕生——Sepp Hochreiter在1991年就在使用循環(huán)殘差連接解決梯度消失問(wèn)題。
有一說(shuō)一,Jürgen爭(zhēng)title也不是第一次了,作為深度學(xué)習(xí)的先驅(qū)者,Jürgen自認(rèn)為自己的早期貢獻(xiàn)被人為忽視了。
ResNet發(fā)布的同年,深度學(xué)習(xí)三巨頭BengioHintonLeCun在Nature上聯(lián)合發(fā)表有關(guān)DL的綜述論文,其中大量引用他們?nèi)说淖陨沓晒?,卻對(duì)Jürgen等人只字不提。
隨即他們展開了長(zhǎng)達(dá)多年的爭(zhēng)論,尤其是在18年的圖靈獎(jiǎng)結(jié)果公布后,Jürgen更是洋洋灑灑寫了篇援引200多條文獻(xiàn)的小作文反擊。
之后在GAN的原創(chuàng)爭(zhēng)議上,雙方也是爭(zhēng)執(zhí)不休,要知道GAN的提出者正是Bengio的得意門生。
而如今有關(guān)殘差學(xué)習(xí)的創(chuàng)始之爭(zhēng),也是因?yàn)镴ürgen自認(rèn)為將殘差學(xué)習(xí)這一成果的發(fā)現(xiàn)完全歸因于何愷明團(tuán)隊(duì)有失偏頗。
不過(guò)正如網(wǎng)友所說(shuō):
- 從Hochreiter到ResNet,光芒隨時(shí)間遞歸延續(xù)。陰影是被模糊的歸屬,但真理始終不變:1991年的種子閃耀著每一層。
30年前的第一次提出
Jürgen Schmidhube這次要講的故事始于1991年。
當(dāng)時(shí)還是Jürgen學(xué)生的Sepp Hochreiter,正在著手撰寫自己的博士論文,也正是在這篇論文里,他首次系統(tǒng)性分析了RNN的梯度消失問(wèn)題,并提出用循環(huán)殘差連接解決。
循環(huán)殘差連接的核心思想相當(dāng)簡(jiǎn)單:一個(gè)具有恒等激活函數(shù)的神經(jīng)單元自連接,且權(quán)重固定為1.0,使其在每個(gè)時(shí)間步中僅將輸入疊加到先前狀態(tài),該單元只作為增量積分器存在。
于是誤差信號(hào)就能在反向傳播中保持恒定,不會(huì)消失或爆炸。
不過(guò)與此前任意實(shí)數(shù)權(quán)重的自連接不同,只有權(quán)重嚴(yán)格為1.0,才能完全避免梯度問(wèn)題。
接近1.0的近似值雖然可以接受,但衰減速度會(huì)隨時(shí)間加快,例如0.99的權(quán)重下誤差信號(hào)會(huì)在100個(gè)時(shí)間步后減少到原來(lái)的37%(0.991??≈37%),0.9的權(quán)重則只有原來(lái)的0.0027%(0.91??≈0.0027%)。
但盡管如此,這也為后來(lái)的深度學(xué)習(xí)殘差思想奠定了理論基礎(chǔ)。
直到1997年,Jürgen和Hochreiter共同提出了著名的LSTM,在該理論的基礎(chǔ)上實(shí)現(xiàn)了進(jìn)一步的擴(kuò)展。
LSTM的核心單元是權(quán)重為1.0的循環(huán)殘差連接,也就是恒定誤差輪盤(CECs),這一機(jī)制保證了誤差可在數(shù)百乃至數(shù)千時(shí)間步中保持不衰減,使LSTM能有效捕捉輸入與輸出之間的長(zhǎng)時(shí)間滯后,對(duì)語(yǔ)音、語(yǔ)言等任務(wù)至關(guān)重要。
另外這篇LSTM論文也是20世紀(jì)引用次數(shù)最多的人工智能論文
1999年,LSTM演變出新的形態(tài)vanilla LSTM,在原來(lái)的基礎(chǔ)上加入了初始值為1.0的遺忘門,使其具備可控的殘差連接,既能保持長(zhǎng)時(shí)依賴,又能在需要時(shí)重置記憶。
雖然這樣做會(huì)重新引入一定的梯度消失,不過(guò)整體仍然處于可控狀態(tài)。
到2005年,通過(guò)時(shí)間反向傳播(BPTT)算法,LSTM可以展開為深度前饋神經(jīng)網(wǎng)絡(luò)(FNN),讓每個(gè)輸入序列的時(shí)間步都對(duì)應(yīng)一個(gè)虛擬層,從而大幅增加了網(wǎng)絡(luò)深度,可以處理更長(zhǎng)時(shí)間滯后。
而無(wú)論是循環(huán)還是前饋,殘差連接始終依賴權(quán)重固定為1.0。
接下來(lái)就是眾所周知的2015年,首先在同年5月,需要優(yōu)先提及Highway網(wǎng)絡(luò)的貢獻(xiàn)。
此前,基于反向傳播的前饋神經(jīng)網(wǎng)絡(luò)的深度有限,只有20到30層,直到Highway網(wǎng)絡(luò)的出現(xiàn),才首次成功訓(xùn)練出上百層的深度前饋網(wǎng)絡(luò),比過(guò)去要深10倍以上。
其核心是將LSTM的門控殘差思想從循環(huán)神經(jīng)網(wǎng)絡(luò)引入前饋網(wǎng)絡(luò),每層輸出為g(x)x+t(x)h(x),其中x是來(lái)自前一層的數(shù)據(jù),g、t、h表示帶實(shí)值的非線性可微函數(shù)。
關(guān)鍵的殘差部分g(x)x初始化為1.0,讓Highway網(wǎng)絡(luò)既能保持類似ResNet的純殘差連接,又能根據(jù)任務(wù)需要,以依賴上下文的方式自適應(yīng)調(diào)整殘差流,從而大幅提升深度可訓(xùn)練性。
最后再到12月,ResNet在ImageNet競(jìng)賽中大獲成功,徹底將殘差學(xué)習(xí)帶入大眾視線。
ResNet在殘差部分設(shè)計(jì)上,與展開的LSTM以及初始化的Highway網(wǎng)絡(luò)相似,如果將Highway網(wǎng)絡(luò)的門恒定設(shè)置為1.0,就可以得到純殘差網(wǎng)絡(luò)ResNet,而它們本質(zhì)上都是1997年的LSTM前饋?zhàn)凅w。
ResNet的殘差連接允許誤差在深層網(wǎng)絡(luò)中穩(wěn)定傳播,使網(wǎng)絡(luò)能夠訓(xùn)練數(shù)百層,但Jürgen也指出,ResNet論文中并沒有明確說(shuō)明它實(shí)際上就是開部門控的Highway網(wǎng)絡(luò),二者之間存在相似的標(biāo)準(zhǔn)殘差連接。
總結(jié)就是,LSTM與Highway網(wǎng)絡(luò)分別奠定了循環(huán)和前饋網(wǎng)絡(luò)的深度訓(xùn)練基礎(chǔ),ResNet則將這一原理成功應(yīng)用于前饋網(wǎng)絡(luò),延續(xù)了自1991年Hochreiter首創(chuàng)的殘差思想。
One More Thing
不過(guò),這種說(shuō)法目前僅代表Jürgen Schmidhuber的個(gè)人觀點(diǎn)。(疊甲doge)
因?yàn)檫@已經(jīng)不是他第一次對(duì)著名神經(jīng)網(wǎng)絡(luò)的起源提出質(zhì)疑。
早在2021年,他就公開表示,LSTM、ResNet、AlexNet、VGG Net、GAN以及Transformer,都是受到了他實(shí)驗(yàn)室成果的啟發(fā)
例如他認(rèn)為AlexNet和VGG Net采用了他們的DanNet;GAN是對(duì)他在1990年提出的Adversarial Curiosity原則的應(yīng)用;Transformer的變體,即線性Transformer,是對(duì)他提出的快速權(quán)重存儲(chǔ)系統(tǒng)的延伸。
但除了無(wú)可爭(zhēng)議的LSTM歸屬,其他幾項(xiàng)至今都沒有得到普遍認(rèn)可。
甚至衍生出這樣一種說(shuō)法:“Schmidhuber is all you need.”
[1]https://x.com/SchmidhuberAI/status/1972300268550369631
[2]https://people.idsia.ch/~juergen/who-invented-residual-neural-networks.html
[3]https://mp.weixin.qq.com/s/XkGs9rsSlI4D6oNv52pfOw
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.