夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

0.01%參數(shù)定生死!蘋果揭秘LLM「超級(jí)權(quán)重」,刪掉就會(huì)胡說八道

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】蘋果研究人員發(fā)現(xiàn),在大模型中,極少量的參數(shù),即便只有0.01%,仍可能包含數(shù)十萬權(quán)重,他們將這一發(fā)現(xiàn)稱為「超級(jí)權(quán)重」。超級(jí)權(quán)重點(diǎn)透了大模型「命門」,使大模型走出「煉丹玄學(xué)」。

0.01%參數(shù)定生死!

在刪掉極少量參數(shù)后,大模型立刻變得胡言亂語起來,在零樣本任務(wù)中只會(huì)瞎猜,原來的那股聰明勁兒全沒了。

但是,如果保留這些極少量參數(shù),即使刪掉成千上萬其他參數(shù),大模型的智力依然在線,幾乎看不出有什么影響。

如果拿一棵樹比喻,剪掉樹(大模型)的幾千片葉子(冗余參數(shù))不會(huì)傷筋動(dòng)骨,但只要砍掉樹干上的一個(gè)關(guān)鍵節(jié)點(diǎn)(核心參數(shù)),整棵樹可能就死掉了。

這個(gè)核心參數(shù),就是大模型中存在的極少數(shù)關(guān)鍵性/高敏感度參數(shù)。

有時(shí)甚至只需一個(gè),就能對(duì)大模型的整體功能產(chǎn)生巨大影響。


論文地址:https://arxiv.org/abs/2411.07191

近日,蘋果研究人員在論文《大語言模型中的超級(jí)權(quán)重》(The Super Weight in Large Language Models)中,將上述現(xiàn)象,稱為「超級(jí)權(quán)重現(xiàn)象」。


如上圖1左側(cè)顯示,帶有超級(jí)權(quán)重的原始Llama-7B,能順利接著生成合乎邏輯的內(nèi)容。

而在圖1右側(cè),當(dāng)超級(jí)權(quán)重參數(shù)被剪枝后,Llama-7B就開始胡言亂語,生成的全是毫無意義的文本。

這生動(dòng)詮釋了什么叫「打蛇打七寸」:

剪枝一個(gè)「超級(jí)權(quán)重」的特殊參數(shù),就可以完全破壞大模型的能力。

讓大模型「科學(xué)瘦身」

「超級(jí)權(quán)重」的發(fā)現(xiàn),為大模型在端側(cè)部署,掃清了道路。

在實(shí)際應(yīng)用中,大模型龐大的體格(動(dòng)輒數(shù)十億甚至數(shù)千億參數(shù)),想要部署在移動(dòng)端等一些低預(yù)算、資源受限等環(huán)境中,就像把大象塞進(jìn)冰箱,往往會(huì)面臨巨大挑戰(zhàn)。

如果只是簡(jiǎn)單粗暴的等比壓縮或簡(jiǎn)化,就好比削足適履,只會(huì)導(dǎo)致模型質(zhì)量顯著下降。

更為合理的做法,是讓大模型「科學(xué)瘦身」,比如縮小模型的規(guī)模和計(jì)算復(fù)雜度,從而降低內(nèi)存與功耗。

這時(shí),超級(jí)權(quán)重就顯得至關(guān)重要。

在模型壓縮和簡(jiǎn)化過程中,要避免碰到這些數(shù)量雖小,卻牽一發(fā)而動(dòng)全身的「命門級(jí)」參數(shù),避免它們被顯著修改(通過壓縮)或被完全移除(剪枝)。

即使它們的比例可以小到0.01%,但對(duì)于擁有數(shù)十億參數(shù)的模型,仍然意味著有數(shù)十萬個(gè)單獨(dú)權(quán)重。

蘋果研究人員發(fā)現(xiàn),如果動(dòng)了它們,就可能破壞LLM生成連貫文本的能力,比如讓困惑度上升3個(gè)數(shù)量級(jí),這樣大模型就幾乎「讀不懂」語言了。

又或者使大模型的零樣本學(xué)習(xí)準(zhǔn)確率降低到「瞎猜」的水平,這意味著大模型的智能也幾乎廢掉了。

如何定位「超級(jí)權(quán)重」?

許多研究都顯示出:少量最大幅值的異常值對(duì)模型質(zhì)量至關(guān)重要。

對(duì)于擁有數(shù)十億參數(shù)的模型,極少量的參數(shù),即便是只有0.01%,仍可能包含數(shù)十萬權(quán)重。蘋果研究人員將稱這個(gè)單標(biāo)量權(quán)重為超級(jí)權(quán)重(super weight)。

超級(jí)權(quán)重,會(huì)放大某個(gè)特征,產(chǎn)生超級(jí)激活。

超級(jí)權(quán)重,會(huì)誘發(fā)相應(yīng)稀有且幅度巨大的激活離群值,研究人員將之稱為super activations(超級(jí)激活)。

所謂激活,是指模型在前向傳播時(shí),每一層神經(jīng)元的輸出值。

它們通常是在超級(jí)權(quán)重之后出現(xiàn),并在隨后的層中以一種恒定的幅度和位置持續(xù)存在,而不受輸入提示詞的影響。

比如,一旦某個(gè)超級(jí)權(quán)重參與計(jì)算,它會(huì)把輸入信號(hào)放大成異常大的數(shù)值,于是緊接著的層中就出現(xiàn)超級(jí)激活。

并且,超級(jí)激活與超級(jí)權(quán)重所在通道一致。

于是,研究人員就提出了一種高效定位超權(quán)重的方法:

通過超級(jí)激活來定位超級(jí)權(quán)重:利用檢測(cè)向下投影輸入和輸出分布跨層中的尖峰來定位超級(jí)權(quán)重。

為了促進(jìn)公開研究,研究人員還將一部分常見、公開可用的LLM超級(jí)權(quán)重標(biāo)記了出來,如下表2:


研究人員發(fā)現(xiàn),大多數(shù)模型每個(gè)張量中的超級(jí)權(quán)重不超過三個(gè)。

即使超級(jí)權(quán)重?cái)?shù)量最多的模型(例如Phi-3-mini-4k-instruct)也只包含六個(gè)。


研究人員還通過圖2,展示了超級(jí)權(quán)重觸發(fā)超級(jí)激活,以及超級(jí)激活的傳播機(jī)制。

圖2-I中藍(lán)紫色方框中展示了超級(jí)權(quán)重的觸發(fā),它通常出現(xiàn)在較早層的down projection(降維投影)。

這好比在一開始就有一個(gè)「功放器」,把某個(gè)信號(hào)突然放大到極高的音量。

圖2-Ⅱ中表示超級(jí)激活通過跳躍連接傳播,用藍(lán)紫色線表示,它表示激活不是一次性消失,而是層層跳躍傳播下去。

這好比擴(kuò)音器的噪音通過音響的電路一路傳到所有揚(yáng)聲器,無論后續(xù)放什么音樂,那個(gè)噪音始終存在。

圖2-Ⅲ中表示,在最終的輸出logits(預(yù)測(cè)分布)里,超級(jí)激活會(huì)產(chǎn)生壓制停用詞(stopwords)的效果。

而移除超級(jí)權(quán)重,會(huì)導(dǎo)致停用詞可能性增加,用藍(lán)紫色堆疊條表示。


在圖3中,down_proj輸入在層2中,僅有一個(gè)大幅度的激活值(super activation),這是超級(jí)激活首次出現(xiàn)的地方。

圖4表示,一旦在第2層被觸發(fā),超級(jí)激活會(huì)在隨后的所有層中以相同的幅度、相同的位置持續(xù)存在,而不受輸入的影響。如果把超級(jí)權(quán)重剪掉,超級(jí)激活的強(qiáng)度會(huì)下降75%。


圖5中顯示了超級(jí)權(quán)重對(duì)停用詞的抑制作用。

研究人員發(fā)現(xiàn),移除超級(jí)權(quán)重會(huì)導(dǎo)致停用詞概率增加2-5倍,這在各種LLMs中都存在。

同時(shí),非停用詞的概率急劇下降,減少2-3倍,低至0.1%的概率。

整體上看,超權(quán)重會(huì)影響輸出Token的概率分布。


從圖6可以看出,增強(qiáng)超權(quán)重,可以在一定程度上提高模型準(zhǔn)確率。

超級(jí)離群值

模型量化的「關(guān)鍵鑰匙」

量化是壓縮模型、降低模型內(nèi)存需求的一種強(qiáng)有力技術(shù)。

其中影響量化質(zhì)量的,是一種重要的指標(biāo)離群值(outliers)。研究人員將超級(jí)權(quán)重和超級(jí)激活統(tǒng)稱為超級(jí)離群值。

超級(jí)離群值,為人們認(rèn)識(shí)大模型,改進(jìn)大模型壓縮技術(shù),提供了一把重要的鑰匙。

在該項(xiàng)研究中,研究人員考慮的是一種最簡(jiǎn)單的量化形式——即非對(duì)稱的就近取重量化(asymmetric round-to-nearest quantization):


保留超級(jí)權(quán)重參數(shù),是大模型「瘦身」的一個(gè)黃金原則。

研究人員發(fā)現(xiàn),只要以高精度保留超級(jí)激活,通過簡(jiǎn)單的就近取整(round-to-nearest)量化,也能將模型質(zhì)量提升到與當(dāng)前最先進(jìn)方法相當(dāng)?shù)乃健?/p>

如表3所示,在與FP16、Naive W8A8、SmoothQuant三種模型量化方法的比較中,就近取整量化雖然效果略次于SmoothQuant,但優(yōu)于Naive W8A8,尤其是在不需要校準(zhǔn)數(shù)據(jù)的前提下,實(shí)用性更強(qiáng)。


同樣,如果在保留超權(quán)重的同時(shí),對(duì)其他權(quán)重異常值進(jìn)行裁剪,就近取整量化,也可以實(shí)現(xiàn)更好的壓縮比。

這意味著只需處理少量「超級(jí)離群值」,就能顯著提升壓縮質(zhì)量。

研究人員認(rèn)為,與需要處理數(shù)十萬離群權(quán)重的方法相比,這無疑是一種更友好的硬件方案。

它可以在提升模型效率的同時(shí),又能盡可能保留原有性能。

這也使得強(qiáng)大的LLM應(yīng)用,在資源受限的硬件上部署和高質(zhì)量運(yùn)行,成為可能。

激活量化與權(quán)重量化

為了全面展示超級(jí)權(quán)重的影響,研究人員將研究范圍擴(kuò)大到更多大模型:OLMo(1B和7B版本)、Mistral-7B以及Llama-2-7B。


表4顯示,處理超級(jí)激活可以提升激活量化效果。

研究人員遵循SmoothQuant的設(shè)置,用FP16算術(shù)模擬W8A8量化。

研究結(jié)果凸顯了超級(jí)激活,在量化期間維持模型性能的關(guān)鍵重要性。

研究人員對(duì)Llama-7B的分析顯示,AWQ將超級(jí)權(quán)重放大了12倍,這印證了他們對(duì)超級(jí)權(quán)重重要性的判斷。


如圖7,藍(lán)線RTN顯示,如果不處理超級(jí)權(quán)重,隨著量化塊變大,模型性能急劇下降;紫線Ours表示,如果恢復(fù)超級(jí)權(quán)重,模型準(zhǔn)確率下降更平緩,即使大塊量化也能維持較好性能。

這說明,只要針對(duì)單個(gè)超級(jí)權(quán)重進(jìn)行特殊處理,就能顯著提高量化的穩(wěn)定性和可擴(kuò)展性。

探索超級(jí)離群值的版圖

蘋果研究人員的發(fā)現(xiàn),為未來研究打開了多條道路。

毫無疑問,進(jìn)一步探索超級(jí)權(quán)重與超級(jí)激活的起源及其精確機(jī)制,將對(duì)LLM的運(yùn)行動(dòng)態(tài),帶來更深入的洞見。

同樣的,理解這些超級(jí)權(quán)重參數(shù),如何在訓(xùn)練過程中獲得如此「超級(jí)」的影響力,也可以為未來的模型設(shè)計(jì)、訓(xùn)練策略提供更有針對(duì)性的指導(dǎo)。

從另一個(gè)角度看,在更廣泛的模型架構(gòu)和訓(xùn)練范式中,展開對(duì)超級(jí)權(quán)重的研究,也有助于揭示它們的角色和形成機(jī)制。

這些都將幫助我們解鎖,構(gòu)建更高效、更穩(wěn)健、更可解釋大模型的創(chuàng)新方法,讓大模型告別「煉丹玄學(xué)」。

作者簡(jiǎn)介

Mengxia Yu


Mengxia Yu是圣母大學(xué)計(jì)算機(jī)專業(yè)博士生,此前在北京大學(xué)獲得計(jì)算語言學(xué)學(xué)士學(xué)位,本論文是她在蘋果公司實(shí)習(xí)期間完成的。



參考資料:

https://machinelearning.apple.com/research/the-super-weight


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
3-0!前北京國(guó)安超新星梅開二度贏賽點(diǎn),漢超江漢將與江岸爭(zhēng)第一

3-0!前北京國(guó)安超新星梅開二度贏賽點(diǎn),漢超江漢將與江岸爭(zhēng)第一

體育世界
2025-09-08 01:47:19
才知道,市場(chǎng)上這5種“藥水”蔬菜,菜販子:我從不給家人吃

才知道,市場(chǎng)上這5種“藥水”蔬菜,菜販子:我從不給家人吃

阿龍美食記
2025-09-04 21:23:37
地下捐精有多亂:女子被約到賓館,捐精者:直接發(fā)生關(guān)系只收800

地下捐精有多亂:女子被約到賓館,捐精者:直接發(fā)生關(guān)系只收800

就一點(diǎn)
2025-09-02 16:17:03
河南中牟14歲女孩拓展?fàn)I身亡前遭體罰,“班主任”扣留求救信案將再次開庭,家屬發(fā)聲

河南中牟14歲女孩拓展?fàn)I身亡前遭體罰,“班主任”扣留求救信案將再次開庭,家屬發(fā)聲

瀟湘晨報(bào)
2025-09-07 13:44:05
退休旅行順道看望了幾位老同學(xué),我才發(fā)現(xiàn):43年的同學(xué)情也淡如水

退休旅行順道看望了幾位老同學(xué),我才發(fā)現(xiàn):43年的同學(xué)情也淡如水

小馬達(dá)情感故事
2025-09-05 18:30:04
重磅:烏克蘭將動(dòng)用戰(zhàn)機(jī)攻擊克里米亞!突襲扎波羅熱指揮部

重磅:烏克蘭將動(dòng)用戰(zhàn)機(jī)攻擊克里米亞!突襲扎波羅熱指揮部

項(xiàng)鵬飛
2025-09-07 18:24:50
阿爾卡拉斯7戰(zhàn)僅丟一盤美網(wǎng)奪冠:狂創(chuàng)十紀(jì)錄 超辛納重奪世界第一

阿爾卡拉斯7戰(zhàn)僅丟一盤美網(wǎng)奪冠:狂創(chuàng)十紀(jì)錄 超辛納重奪世界第一

醉臥浮生
2025-09-08 05:56:45
臺(tái)風(fēng)“塔巴”生成,直撲廣東!預(yù)計(jì)登陸時(shí)間地點(diǎn)為……

臺(tái)風(fēng)“塔巴”生成,直撲廣東!預(yù)計(jì)登陸時(shí)間地點(diǎn)為……

濠江宣傳
2025-09-07 17:33:14
2025年油價(jià)調(diào)整時(shí)間表,9月9日“油價(jià)再調(diào)整”,漲幅有望大降!

2025年油價(jià)調(diào)整時(shí)間表,9月9日“油價(jià)再調(diào)整”,漲幅有望大降!

油價(jià)早知道
2025-09-07 17:54:56
賴清德已走投無路,求見蘇貞昌遭拒,除不掉柯建銘,2028連任無望

賴清德已走投無路,求見蘇貞昌遭拒,除不掉柯建銘,2028連任無望

混沌錄
2025-09-07 23:37:09
“歐盟正在研究中方?jīng)Q定”

“歐盟正在研究中方?jīng)Q定”

觀察者網(wǎng)
2025-09-07 13:43:11
斯諾克戰(zhàn)報(bào)!3場(chǎng)4-0,盧卡首勝,中國(guó)4將進(jìn)正賽,范爭(zhēng)一讓2追4!

斯諾克戰(zhàn)報(bào)!3場(chǎng)4-0,盧卡首勝,中國(guó)4將進(jìn)正賽,范爭(zhēng)一讓2追4!

劉姚堯的文字城堡
2025-09-08 06:06:18
他接受紀(jì)律審查和監(jiān)察調(diào)查

他接受紀(jì)律審查和監(jiān)察調(diào)查

錫望
2025-09-07 21:27:50
吳亦凡監(jiān)獄近況曝光:身染重病、夜夜痛哭!網(wǎng)友:這下徹底完了!

吳亦凡監(jiān)獄近況曝光:身染重病、夜夜痛哭!網(wǎng)友:這下徹底完了!

叨叨話影
2025-09-07 09:36:07
洪秀柱從北京返回臺(tái)灣后,賴清德當(dāng)局態(tài)度出現(xiàn)180度大轉(zhuǎn)彎

洪秀柱從北京返回臺(tái)灣后,賴清德當(dāng)局態(tài)度出現(xiàn)180度大轉(zhuǎn)彎

一個(gè)有靈魂的作者
2025-09-06 21:23:02
董璇女兒路演不怯場(chǎng),邀請(qǐng)同學(xué)上臺(tái),小酒窩的待人接物堪稱教科書

董璇女兒路演不怯場(chǎng),邀請(qǐng)同學(xué)上臺(tái),小酒窩的待人接物堪稱教科書

阿廢冷眼觀察所
2025-09-07 06:46:46
敘利亞真相:在世界面前上演了一場(chǎng)偷梁換柱

敘利亞真相:在世界面前上演了一場(chǎng)偷梁換柱

南宮一二
2025-09-07 06:44:19
央視點(diǎn)名!閱兵女機(jī)長(zhǎng)身份曝光,私生活被扒犧牲太大,夫妻倆都是機(jī)長(zhǎng)

央視點(diǎn)名!閱兵女機(jī)長(zhǎng)身份曝光,私生活被扒犧牲太大,夫妻倆都是機(jī)長(zhǎng)

荷蘭豆愛健康
2025-09-06 09:32:27
一女子拒絕安檢猛砸地鐵工作人員?行拘!深圳地鐵最新回應(yīng):安檢員依規(guī)履職,給予表揚(yáng)

一女子拒絕安檢猛砸地鐵工作人員?行拘!深圳地鐵最新回應(yīng):安檢員依規(guī)履職,給予表揚(yáng)

極目新聞
2025-09-07 22:08:39
街頭無規(guī)則限制,散打高手打得過身經(jīng)百戰(zhàn)的地痞流氓嗎?網(wǎng)友解密

街頭無規(guī)則限制,散打高手打得過身經(jīng)百戰(zhàn)的地痞流氓嗎?網(wǎng)友解密

帶你感受人間冷暖
2025-08-30 00:20:05
2025-09-08 07:28:52
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13403文章數(shù) 66148關(guān)注度
往期回顧 全部

科技要聞

我國(guó)為何將主動(dòng)撞擊一顆小行星?

頭條要聞

爸爸極限沖刺救女兒獲數(shù)十萬點(diǎn)贊 本人發(fā)聲

頭條要聞

爸爸極限沖刺救女兒獲數(shù)十萬點(diǎn)贊 本人發(fā)聲

體育要聞

千帆過盡,薩巴倫卡終于成為水泥叢林女王

娛樂要聞

辛芷蕾奪得威尼斯影后打臉了五個(gè)人

財(cái)經(jīng)要聞

曾負(fù)債超200億元,知名車企宣布:馬上復(fù)產(chǎn)!

汽車要聞

又一批造車者蠢蠢欲動(dòng) “幸存者游戲”有何魔力

態(tài)度原創(chuàng)

藝術(shù)
教育
數(shù)碼
手機(jī)
親子

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

振興鄉(xiāng)村教育,特崗教師真的有用?五名特崗教師一夜之間都走了!

數(shù)碼要聞

領(lǐng)普頂裝人體存在傳感器 ES5 上架,單只 69 元

手機(jī)要聞

郭明錤稱蘋果9月10日推出AirPods Pro3,明年配備IR紅外攝像頭

親子要聞

孩子睡前兩小時(shí),最好不要吃東西

無障礙瀏覽 進(jìn)入關(guān)懷版 国产av久久久久精东av | 久久久无码电影| 暴力强奷在线播放无码| 日朝成人影院| 无码国产精品免费视频| 爱看av在线| 黄色美女网站| 亚洲精品无码久久一线| 日本香港人妻一区二区| 久久亚洲精品国产亚洲老地址| 欧美24小时在线高清视频www| 亚洲尤物av一区| 可以免费观看的毛片AV| 亚洲一区久久蜜臀av| 人妻性爱无码| 中文字幕国产精品| 久久香蕉国产线看观看手机| av在线国产con.089| 无码AV一区在线观看免费| 久久人人97超碰超国产| 国产 AV 网页| av麻豆成人| 国产成人精品手机在线观看| 亚洲第一福利专区| 国产亚洲产品影市在线产品| 81精品国产乱码久久久久久| 久久大香伊蕉在人线国产h| 啊轻点灬太粗嗯太深了视频网站 | 99精品久久99久久久久| 免费b级毛片| 日韩精品成人一区二区三区| 天天躁日日躁天天噪天| 欧美xxxxx高潮喷水| 性一交一乱一乱一视频| 欧美激情成人色图亚洲综合色图 | 亚洲最大的成人网站| 亚洲av青草久久久久| 亚洲阿v天堂网2021| 华人免费国产亚洲| 久久aaaa| 亚洲午夜精品二区三区公司|