網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

0.01%參數(shù)定生死！蘋果揭秘LLM「超級(jí)權(quán)重」，刪掉就會(huì)胡說八道

2025-09-05 20:20:37　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：元宇

【新智元導(dǎo)讀】蘋果研究人員發(fā)現(xiàn)，在大模型中，極少量的參數(shù)，即便只有0.01%，仍可能包含數(shù)十萬權(quán)重，他們將這一發(fā)現(xiàn)稱為「超級(jí)權(quán)重」。超級(jí)權(quán)重點(diǎn)透了大模型「命門」，使大模型走出「煉丹玄學(xué)」。

0.01%參數(shù)定生死！

在刪掉極少量參數(shù)后，大模型立刻變得胡言亂語起來，在零樣本任務(wù)中只會(huì)瞎猜，原來的那股聰明勁兒全沒了。

但是，如果保留這些極少量參數(shù)，即使刪掉成千上萬其他參數(shù)，大模型的智力依然在線，幾乎看不出有什么影響。

如果拿一棵樹比喻，剪掉樹（大模型）的幾千片葉子（冗余參數(shù)）不會(huì)傷筋動(dòng)骨，但只要砍掉樹干上的一個(gè)關(guān)鍵節(jié)點(diǎn)（核心參數(shù)），整棵樹可能就死掉了。

這個(gè)核心參數(shù)，就是大模型中存在的極少數(shù)關(guān)鍵性/高敏感度參數(shù)。

有時(shí)甚至只需一個(gè)，就能對(duì)大模型的整體功能產(chǎn)生巨大影響。

論文地址：https://arxiv.org/abs/2411.07191

近日，蘋果研究人員在論文《大語言模型中的超級(jí)權(quán)重》（The Super Weight in Large Language Models）中，將上述現(xiàn)象，稱為「超級(jí)權(quán)重現(xiàn)象」。

如上圖1左側(cè)顯示，帶有超級(jí)權(quán)重的原始Llama-7B，能順利接著生成合乎邏輯的內(nèi)容。

而在圖1右側(cè)，當(dāng)超級(jí)權(quán)重參數(shù)被剪枝后，Llama-7B就開始胡言亂語，生成的全是毫無意義的文本。

這生動(dòng)詮釋了什么叫「打蛇打七寸」：

剪枝一個(gè)「超級(jí)權(quán)重」的特殊參數(shù)，就可以完全破壞大模型的能力。

讓大模型「科學(xué)瘦身」

「超級(jí)權(quán)重」的發(fā)現(xiàn)，為大模型在端側(cè)部署，掃清了道路。

在實(shí)際應(yīng)用中，大模型龐大的體格（動(dòng)輒數(shù)十億甚至數(shù)千億參數(shù)），想要部署在移動(dòng)端等一些低預(yù)算、資源受限等環(huán)境中，就像把大象塞進(jìn)冰箱，往往會(huì)面臨巨大挑戰(zhàn)。

如果只是簡(jiǎn)單粗暴的等比壓縮或簡(jiǎn)化，就好比削足適履，只會(huì)導(dǎo)致模型質(zhì)量顯著下降。

更為合理的做法，是讓大模型「科學(xué)瘦身」，比如縮小模型的規(guī)模和計(jì)算復(fù)雜度，從而降低內(nèi)存與功耗。

這時(shí)，超級(jí)權(quán)重就顯得至關(guān)重要。

在模型壓縮和簡(jiǎn)化過程中，要避免碰到這些數(shù)量雖小，卻牽一發(fā)而動(dòng)全身的「命門級(jí)」參數(shù)，避免它們被顯著修改（通過壓縮）或被完全移除（剪枝）。

即使它們的比例可以小到0.01%，但對(duì)于擁有數(shù)十億參數(shù)的模型，仍然意味著有數(shù)十萬個(gè)單獨(dú)權(quán)重。

蘋果研究人員發(fā)現(xiàn)，如果動(dòng)了它們，就可能破壞LLM生成連貫文本的能力，比如讓困惑度上升3個(gè)數(shù)量級(jí)，這樣大模型就幾乎「讀不懂」語言了。

又或者使大模型的零樣本學(xué)習(xí)準(zhǔn)確率降低到「瞎猜」的水平，這意味著大模型的智能也幾乎廢掉了。

如何定位「超級(jí)權(quán)重」？

許多研究都顯示出：少量最大幅值的異常值對(duì)模型質(zhì)量至關(guān)重要。

對(duì)于擁有數(shù)十億參數(shù)的模型，極少量的參數(shù)，即便是只有0.01%，仍可能包含數(shù)十萬權(quán)重。蘋果研究人員將稱這個(gè)單標(biāo)量權(quán)重為超級(jí)權(quán)重（super weight）。

超級(jí)權(quán)重，會(huì)放大某個(gè)特征，產(chǎn)生超級(jí)激活。

超級(jí)權(quán)重，會(huì)誘發(fā)相應(yīng)稀有且幅度巨大的激活離群值，研究人員將之稱為super activations（超級(jí)激活）。

所謂激活，是指模型在前向傳播時(shí)，每一層神經(jīng)元的輸出值。

它們通常是在超級(jí)權(quán)重之后出現(xiàn)，并在隨后的層中以一種恒定的幅度和位置持續(xù)存在，而不受輸入提示詞的影響。

比如，一旦某個(gè)超級(jí)權(quán)重參與計(jì)算，它會(huì)把輸入信號(hào)放大成異常大的數(shù)值，于是緊接著的層中就出現(xiàn)超級(jí)激活。

并且，超級(jí)激活與超級(jí)權(quán)重所在通道一致。

于是，研究人員就提出了一種高效定位超權(quán)重的方法：

通過超級(jí)激活來定位超級(jí)權(quán)重：利用檢測(cè)向下投影輸入和輸出分布跨層中的尖峰來定位超級(jí)權(quán)重。

為了促進(jìn)公開研究，研究人員還將一部分常見、公開可用的LLM超級(jí)權(quán)重標(biāo)記了出來，如下表2：

研究人員發(fā)現(xiàn)，大多數(shù)模型每個(gè)張量中的超級(jí)權(quán)重不超過三個(gè)。

即使超級(jí)權(quán)重?cái)?shù)量最多的模型（例如Phi-3-mini-4k-instruct）也只包含六個(gè)。

研究人員還通過圖2，展示了超級(jí)權(quán)重觸發(fā)超級(jí)激活，以及超級(jí)激活的傳播機(jī)制。

圖2-I中藍(lán)紫色方框中展示了超級(jí)權(quán)重的觸發(fā)，它通常出現(xiàn)在較早層的down projection（降維投影）。

這好比在一開始就有一個(gè)「功放器」，把某個(gè)信號(hào)突然放大到極高的音量。

圖2-Ⅱ中表示超級(jí)激活通過跳躍連接傳播，用藍(lán)紫色線表示，它表示激活不是一次性消失，而是層層跳躍傳播下去。

這好比擴(kuò)音器的噪音通過音響的電路一路傳到所有揚(yáng)聲器，無論后續(xù)放什么音樂，那個(gè)噪音始終存在。

圖2-Ⅲ中表示，在最終的輸出logits（預(yù)測(cè)分布）里，超級(jí)激活會(huì)產(chǎn)生壓制停用詞（stopwords）的效果。

而移除超級(jí)權(quán)重，會(huì)導(dǎo)致停用詞可能性增加，用藍(lán)紫色堆疊條表示。

在圖3中，down_proj輸入在層2中，僅有一個(gè)大幅度的激活值（super activation），這是超級(jí)激活首次出現(xiàn)的地方。

圖4表示，一旦在第2層被觸發(fā)，超級(jí)激活會(huì)在隨后的所有層中以相同的幅度、相同的位置持續(xù)存在，而不受輸入的影響。如果把超級(jí)權(quán)重剪掉，超級(jí)激活的強(qiáng)度會(huì)下降75%。

圖5中顯示了超級(jí)權(quán)重對(duì)停用詞的抑制作用。

研究人員發(fā)現(xiàn)，移除超級(jí)權(quán)重會(huì)導(dǎo)致停用詞概率增加2-5倍，這在各種LLMs中都存在。

同時(shí)，非停用詞的概率急劇下降，減少2-3倍，低至0.1%的概率。

整體上看，超權(quán)重會(huì)影響輸出Token的概率分布。

從圖6可以看出，增強(qiáng)超權(quán)重，可以在一定程度上提高模型準(zhǔn)確率。

超級(jí)離群值

模型量化的「關(guān)鍵鑰匙」

量化是壓縮模型、降低模型內(nèi)存需求的一種強(qiáng)有力技術(shù)。

其中影響量化質(zhì)量的，是一種重要的指標(biāo)離群值（outliers）。研究人員將超級(jí)權(quán)重和超級(jí)激活統(tǒng)稱為超級(jí)離群值。

超級(jí)離群值，為人們認(rèn)識(shí)大模型，改進(jìn)大模型壓縮技術(shù)，提供了一把重要的鑰匙。

在該項(xiàng)研究中，研究人員考慮的是一種最簡(jiǎn)單的量化形式——即非對(duì)稱的就近取重量化（asymmetric round-to-nearest quantization）：

保留超級(jí)權(quán)重參數(shù)，是大模型「瘦身」的一個(gè)黃金原則。

研究人員發(fā)現(xiàn)，只要以高精度保留超級(jí)激活，通過簡(jiǎn)單的就近取整（round-to-nearest）量化，也能將模型質(zhì)量提升到與當(dāng)前最先進(jìn)方法相當(dāng)?shù)乃健?/p>

如表3所示，在與FP16、Naive W8A8、SmoothQuant三種模型量化方法的比較中，就近取整量化雖然效果略次于SmoothQuant，但優(yōu)于Naive W8A8，尤其是在不需要校準(zhǔn)數(shù)據(jù)的前提下，實(shí)用性更強(qiáng)。

同樣，如果在保留超權(quán)重的同時(shí)，對(duì)其他權(quán)重異常值進(jìn)行裁剪，就近取整量化，也可以實(shí)現(xiàn)更好的壓縮比。

這意味著只需處理少量「超級(jí)離群值」，就能顯著提升壓縮質(zhì)量。

研究人員認(rèn)為，與需要處理數(shù)十萬離群權(quán)重的方法相比，這無疑是一種更友好的硬件方案。

它可以在提升模型效率的同時(shí)，又能盡可能保留原有性能。

這也使得強(qiáng)大的LLM應(yīng)用，在資源受限的硬件上部署和高質(zhì)量運(yùn)行，成為可能。

激活量化與權(quán)重量化

為了全面展示超級(jí)權(quán)重的影響，研究人員將研究范圍擴(kuò)大到更多大模型：OLMo（1B和7B版本）、Mistral-7B以及Llama-2-7B。

表4顯示，處理超級(jí)激活可以提升激活量化效果。

研究人員遵循SmoothQuant的設(shè)置，用FP16算術(shù)模擬W8A8量化。

研究結(jié)果凸顯了超級(jí)激活，在量化期間維持模型性能的關(guān)鍵重要性。

研究人員對(duì)Llama-7B的分析顯示，AWQ將超級(jí)權(quán)重放大了12倍，這印證了他們對(duì)超級(jí)權(quán)重重要性的判斷。

如圖7，藍(lán)線RTN顯示，如果不處理超級(jí)權(quán)重，隨著量化塊變大，模型性能急劇下降；紫線Ours表示，如果恢復(fù)超級(jí)權(quán)重，模型準(zhǔn)確率下降更平緩，即使大塊量化也能維持較好性能。

這說明，只要針對(duì)單個(gè)超級(jí)權(quán)重進(jìn)行特殊處理，就能顯著提高量化的穩(wěn)定性和可擴(kuò)展性。

探索超級(jí)離群值的版圖

蘋果研究人員的發(fā)現(xiàn)，為未來研究打開了多條道路。

毫無疑問，進(jìn)一步探索超級(jí)權(quán)重與超級(jí)激活的起源及其精確機(jī)制，將對(duì)LLM的運(yùn)行動(dòng)態(tài)，帶來更深入的洞見。

同樣的，理解這些超級(jí)權(quán)重參數(shù)，如何在訓(xùn)練過程中獲得如此「超級(jí)」的影響力，也可以為未來的模型設(shè)計(jì)、訓(xùn)練策略提供更有針對(duì)性的指導(dǎo)。

從另一個(gè)角度看，在更廣泛的模型架構(gòu)和訓(xùn)練范式中，展開對(duì)超級(jí)權(quán)重的研究，也有助于揭示它們的角色和形成機(jī)制。

這些都將幫助我們解鎖，構(gòu)建更高效、更穩(wěn)健、更可解釋大模型的創(chuàng)新方法，讓大模型告別「煉丹玄學(xué)」。

作者簡(jiǎn)介

Mengxia Yu

Mengxia Yu是圣母大學(xué)計(jì)算機(jī)專業(yè)博士生，此前在北京大學(xué)獲得計(jì)算語言學(xué)學(xué)士學(xué)位，本論文是她在蘋果公司實(shí)習(xí)期間完成的。

參考資料：

https://machinelearning.apple.com/research/the-super-weight

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.