網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

LSTM之父向何愷明開炮：我學(xué)生才是殘差學(xué)習(xí)奠基人

2025-10-19 22:46:42　來(lái)源: 量子位

浙江舉報(bào)

分享至

鷺羽發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

何愷明殘差學(xué)習(xí)奠基人的身份，也被“挑戰(zhàn)”了。

為什么要說(shuō)“也”？因?yàn)榘l(fā)起討論的，又雙叒是我們熟悉的Jürgen Schmidhuber——LSTM之父。

不過(guò)這一次，他不是要把功勞攬到自己身上，而是替LSTM的另一位作者Sepp Hochreiter發(fā)聲：

殘差學(xué)習(xí)這把改變深度學(xué)習(xí)格局的 “鑰匙”，其實(shí)早在30年前就已經(jīng)誕生——Sepp Hochreiter在1991年就在使用循環(huán)殘差連接解決梯度消失問(wèn)題。

有一說(shuō)一，Jürgen爭(zhēng)title也不是第一次了，作為深度學(xué)習(xí)的先驅(qū)者，Jürgen自認(rèn)為自己的早期貢獻(xiàn)被人為忽視了。

ResNet發(fā)布的同年，深度學(xué)習(xí)三巨頭BengioHintonLeCun在Nature上聯(lián)合發(fā)表有關(guān)DL的綜述論文，其中大量引用他們?nèi)说淖陨沓晒?，卻對(duì)Jürgen等人只字不提。

隨即他們展開了長(zhǎng)達(dá)多年的爭(zhēng)論，尤其是在18年的圖靈獎(jiǎng)結(jié)果公布后，Jürgen更是洋洋灑灑寫了篇援引200多條文獻(xiàn)的小作文反擊。

之后在GAN的原創(chuàng)爭(zhēng)議上，雙方也是爭(zhēng)執(zhí)不休，要知道GAN的提出者正是Bengio的得意門生。

而如今有關(guān)殘差學(xué)習(xí)的創(chuàng)始之爭(zhēng)，也是因?yàn)镴ürgen自認(rèn)為將殘差學(xué)習(xí)這一成果的發(fā)現(xiàn)完全歸因于何愷明團(tuán)隊(duì)有失偏頗。

不過(guò)正如網(wǎng)友所說(shuō)：

從Hochreiter到ResNet，光芒隨時(shí)間遞歸延續(xù)。陰影是被模糊的歸屬，但真理始終不變：1991年的種子閃耀著每一層。

30年前的第一次提出

Jürgen Schmidhube這次要講的故事始于1991年。

當(dāng)時(shí)還是Jürgen學(xué)生的Sepp Hochreiter，正在著手撰寫自己的博士論文，也正是在這篇論文里，他首次系統(tǒng)性分析了RNN的梯度消失問(wèn)題，并提出用循環(huán)殘差連接解決。

循環(huán)殘差連接的核心思想相當(dāng)簡(jiǎn)單：一個(gè)具有恒等激活函數(shù)的神經(jīng)單元自連接，且權(quán)重固定為1.0，使其在每個(gè)時(shí)間步中僅將輸入疊加到先前狀態(tài)，該單元只作為增量積分器存在。

于是誤差信號(hào)就能在反向傳播中保持恒定，不會(huì)消失或爆炸。

不過(guò)與此前任意實(shí)數(shù)權(quán)重的自連接不同，只有權(quán)重嚴(yán)格為1.0，才能完全避免梯度問(wèn)題。

接近1.0的近似值雖然可以接受，但衰減速度會(huì)隨時(shí)間加快，例如0.99的權(quán)重下誤差信號(hào)會(huì)在100個(gè)時(shí)間步后減少到原來(lái)的37%（0.991??≈37%），0.9的權(quán)重則只有原來(lái)的0.0027%（0.91??≈0.0027%）。

但盡管如此，這也為后來(lái)的深度學(xué)習(xí)殘差思想奠定了理論基礎(chǔ)。

直到1997年，Jürgen和Hochreiter共同提出了著名的LSTM，在該理論的基礎(chǔ)上實(shí)現(xiàn)了進(jìn)一步的擴(kuò)展。

LSTM的核心單元是權(quán)重為1.0的循環(huán)殘差連接，也就是恒定誤差輪盤（CECs），這一機(jī)制保證了誤差可在數(shù)百乃至數(shù)千時(shí)間步中保持不衰減，使LSTM能有效捕捉輸入與輸出之間的長(zhǎng)時(shí)間滯后，對(duì)語(yǔ)音、語(yǔ)言等任務(wù)至關(guān)重要。

另外這篇LSTM論文也是20世紀(jì)引用次數(shù)最多的人工智能論文

1999年，LSTM演變出新的形態(tài)vanilla LSTM，在原來(lái)的基礎(chǔ)上加入了初始值為1.0的遺忘門，使其具備可控的殘差連接，既能保持長(zhǎng)時(shí)依賴，又能在需要時(shí)重置記憶。

雖然這樣做會(huì)重新引入一定的梯度消失，不過(guò)整體仍然處于可控狀態(tài)。

到2005年，通過(guò)時(shí)間反向傳播（BPTT）算法，LSTM可以展開為深度前饋神經(jīng)網(wǎng)絡(luò)（FNN），讓每個(gè)輸入序列的時(shí)間步都對(duì)應(yīng)一個(gè)虛擬層，從而大幅增加了網(wǎng)絡(luò)深度，可以處理更長(zhǎng)時(shí)間滯后。
而無(wú)論是循環(huán)還是前饋，殘差連接始終依賴權(quán)重固定為1.0。

接下來(lái)就是眾所周知的2015年，首先在同年5月，需要優(yōu)先提及Highway網(wǎng)絡(luò)的貢獻(xiàn)。

此前，基于反向傳播的前饋神經(jīng)網(wǎng)絡(luò)的深度有限，只有20到30層，直到Highway網(wǎng)絡(luò)的出現(xiàn)，才首次成功訓(xùn)練出上百層的深度前饋網(wǎng)絡(luò)，比過(guò)去要深10倍以上。

其核心是將LSTM的門控殘差思想從循環(huán)神經(jīng)網(wǎng)絡(luò)引入前饋網(wǎng)絡(luò)，每層輸出為g(x)x+t(x)h(x)，其中x是來(lái)自前一層的數(shù)據(jù)，g、t、h表示帶實(shí)值的非線性可微函數(shù)。

關(guān)鍵的殘差部分g(x)x初始化為1.0，讓Highway網(wǎng)絡(luò)既能保持類似ResNet的純殘差連接，又能根據(jù)任務(wù)需要，以依賴上下文的方式自適應(yīng)調(diào)整殘差流，從而大幅提升深度可訓(xùn)練性。

最后再到12月，ResNet在ImageNet競(jìng)賽中大獲成功，徹底將殘差學(xué)習(xí)帶入大眾視線。

ResNet在殘差部分設(shè)計(jì)上，與展開的LSTM以及初始化的Highway網(wǎng)絡(luò)相似，如果將Highway網(wǎng)絡(luò)的門恒定設(shè)置為1.0，就可以得到純殘差網(wǎng)絡(luò)ResNet，而它們本質(zhì)上都是1997年的LSTM前饋?zhàn)凅w。

ResNet的殘差連接允許誤差在深層網(wǎng)絡(luò)中穩(wěn)定傳播，使網(wǎng)絡(luò)能夠訓(xùn)練數(shù)百層，但Jürgen也指出，ResNet論文中并沒有明確說(shuō)明它實(shí)際上就是開部門控的Highway網(wǎng)絡(luò)，二者之間存在相似的標(biāo)準(zhǔn)殘差連接。

總結(jié)就是，LSTM與Highway網(wǎng)絡(luò)分別奠定了循環(huán)和前饋網(wǎng)絡(luò)的深度訓(xùn)練基礎(chǔ)，ResNet則將這一原理成功應(yīng)用于前饋網(wǎng)絡(luò)，延續(xù)了自1991年Hochreiter首創(chuàng)的殘差思想。

One More Thing

不過(guò)，這種說(shuō)法目前僅代表Jürgen Schmidhuber的個(gè)人觀點(diǎn)。（疊甲doge）

因?yàn)檫@已經(jīng)不是他第一次對(duì)著名神經(jīng)網(wǎng)絡(luò)的起源提出質(zhì)疑。

早在2021年，他就公開表示，LSTM、ResNet、AlexNet、VGG Net、GAN以及Transformer，都是受到了他實(shí)驗(yàn)室成果的啟發(fā)

例如他認(rèn)為AlexNet和VGG Net采用了他們的DanNet；GAN是對(duì)他在1990年提出的Adversarial Curiosity原則的應(yīng)用；Transformer的變體，即線性Transformer，是對(duì)他提出的快速權(quán)重存儲(chǔ)系統(tǒng)的延伸。

但除了無(wú)可爭(zhēng)議的LSTM歸屬，其他幾項(xiàng)至今都沒有得到普遍認(rèn)可。

甚至衍生出這樣一種說(shuō)法：“Schmidhuber is all you need.”

[1]https://x.com/SchmidhuberAI/status/1972300268550369631
[2]https://people.idsia.ch/~juergen/who-invented-residual-neural-networks.html
[3]https://mp.weixin.qq.com/s/XkGs9rsSlI4D6oNv52pfOw

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.