新智元報(bào)道
編輯:元宇
【新智元導(dǎo)讀】蘋果研究人員發(fā)現(xiàn),在大模型中,極少量的參數(shù),即便只有0.01%,仍可能包含數(shù)十萬權(quán)重,他們將這一發(fā)現(xiàn)稱為「超級(jí)權(quán)重」。超級(jí)權(quán)重點(diǎn)透了大模型「命門」,使大模型走出「煉丹玄學(xué)」。
0.01%參數(shù)定生死!
在刪掉極少量參數(shù)后,大模型立刻變得胡言亂語起來,在零樣本任務(wù)中只會(huì)瞎猜,原來的那股聰明勁兒全沒了。
但是,如果保留這些極少量參數(shù),即使刪掉成千上萬其他參數(shù),大模型的智力依然在線,幾乎看不出有什么影響。
如果拿一棵樹比喻,剪掉樹(大模型)的幾千片葉子(冗余參數(shù))不會(huì)傷筋動(dòng)骨,但只要砍掉樹干上的一個(gè)關(guān)鍵節(jié)點(diǎn)(核心參數(shù)),整棵樹可能就死掉了。
這個(gè)核心參數(shù),就是大模型中存在的極少數(shù)關(guān)鍵性/高敏感度參數(shù)。
有時(shí)甚至只需一個(gè),就能對(duì)大模型的整體功能產(chǎn)生巨大影響。
論文地址:https://arxiv.org/abs/2411.07191
近日,蘋果研究人員在論文《大語言模型中的超級(jí)權(quán)重》(The Super Weight in Large Language Models)中,將上述現(xiàn)象,稱為「超級(jí)權(quán)重現(xiàn)象」。
如上圖1左側(cè)顯示,帶有超級(jí)權(quán)重的原始Llama-7B,能順利接著生成合乎邏輯的內(nèi)容。
而在圖1右側(cè),當(dāng)超級(jí)權(quán)重參數(shù)被剪枝后,Llama-7B就開始胡言亂語,生成的全是毫無意義的文本。
這生動(dòng)詮釋了什么叫「打蛇打七寸」:
剪枝一個(gè)「超級(jí)權(quán)重」的特殊參數(shù),就可以完全破壞大模型的能力。
讓大模型「科學(xué)瘦身」
「超級(jí)權(quán)重」的發(fā)現(xiàn),為大模型在端側(cè)部署,掃清了道路。
在實(shí)際應(yīng)用中,大模型龐大的體格(動(dòng)輒數(shù)十億甚至數(shù)千億參數(shù)),想要部署在移動(dòng)端等一些低預(yù)算、資源受限等環(huán)境中,就像把大象塞進(jìn)冰箱,往往會(huì)面臨巨大挑戰(zhàn)。
如果只是簡(jiǎn)單粗暴的等比壓縮或簡(jiǎn)化,就好比削足適履,只會(huì)導(dǎo)致模型質(zhì)量顯著下降。
更為合理的做法,是讓大模型「科學(xué)瘦身」,比如縮小模型的規(guī)模和計(jì)算復(fù)雜度,從而降低內(nèi)存與功耗。
這時(shí),超級(jí)權(quán)重就顯得至關(guān)重要。
在模型壓縮和簡(jiǎn)化過程中,要避免碰到這些數(shù)量雖小,卻牽一發(fā)而動(dòng)全身的「命門級(jí)」參數(shù),避免它們被顯著修改(通過壓縮)或被完全移除(剪枝)。
即使它們的比例可以小到0.01%,但對(duì)于擁有數(shù)十億參數(shù)的模型,仍然意味著有數(shù)十萬個(gè)單獨(dú)權(quán)重。
蘋果研究人員發(fā)現(xiàn),如果動(dòng)了它們,就可能破壞LLM生成連貫文本的能力,比如讓困惑度上升3個(gè)數(shù)量級(jí),這樣大模型就幾乎「讀不懂」語言了。
又或者使大模型的零樣本學(xué)習(xí)準(zhǔn)確率降低到「瞎猜」的水平,這意味著大模型的智能也幾乎廢掉了。
如何定位「超級(jí)權(quán)重」?
許多研究都顯示出:少量最大幅值的異常值對(duì)模型質(zhì)量至關(guān)重要。
對(duì)于擁有數(shù)十億參數(shù)的模型,極少量的參數(shù),即便是只有0.01%,仍可能包含數(shù)十萬權(quán)重。蘋果研究人員將稱這個(gè)單標(biāo)量權(quán)重為超級(jí)權(quán)重(super weight)。
超級(jí)權(quán)重,會(huì)放大某個(gè)特征,產(chǎn)生超級(jí)激活。
超級(jí)權(quán)重,會(huì)誘發(fā)相應(yīng)稀有且幅度巨大的激活離群值,研究人員將之稱為super activations(超級(jí)激活)。
所謂激活,是指模型在前向傳播時(shí),每一層神經(jīng)元的輸出值。
它們通常是在超級(jí)權(quán)重之后出現(xiàn),并在隨后的層中以一種恒定的幅度和位置持續(xù)存在,而不受輸入提示詞的影響。
比如,一旦某個(gè)超級(jí)權(quán)重參與計(jì)算,它會(huì)把輸入信號(hào)放大成異常大的數(shù)值,于是緊接著的層中就出現(xiàn)超級(jí)激活。
并且,超級(jí)激活與超級(jí)權(quán)重所在通道一致。
于是,研究人員就提出了一種高效定位超權(quán)重的方法:
通過超級(jí)激活來定位超級(jí)權(quán)重:利用檢測(cè)向下投影輸入和輸出分布跨層中的尖峰來定位超級(jí)權(quán)重。
為了促進(jìn)公開研究,研究人員還將一部分常見、公開可用的LLM超級(jí)權(quán)重標(biāo)記了出來,如下表2:
研究人員發(fā)現(xiàn),大多數(shù)模型每個(gè)張量中的超級(jí)權(quán)重不超過三個(gè)。
即使超級(jí)權(quán)重?cái)?shù)量最多的模型(例如Phi-3-mini-4k-instruct)也只包含六個(gè)。
研究人員還通過圖2,展示了超級(jí)權(quán)重觸發(fā)超級(jí)激活,以及超級(jí)激活的傳播機(jī)制。
圖2-I中藍(lán)紫色方框中展示了超級(jí)權(quán)重的觸發(fā),它通常出現(xiàn)在較早層的down projection(降維投影)。
這好比在一開始就有一個(gè)「功放器」,把某個(gè)信號(hào)突然放大到極高的音量。
圖2-Ⅱ中表示超級(jí)激活通過跳躍連接傳播,用藍(lán)紫色線表示,它表示激活不是一次性消失,而是層層跳躍傳播下去。
這好比擴(kuò)音器的噪音通過音響的電路一路傳到所有揚(yáng)聲器,無論后續(xù)放什么音樂,那個(gè)噪音始終存在。
圖2-Ⅲ中表示,在最終的輸出logits(預(yù)測(cè)分布)里,超級(jí)激活會(huì)產(chǎn)生壓制停用詞(stopwords)的效果。
而移除超級(jí)權(quán)重,會(huì)導(dǎo)致停用詞可能性增加,用藍(lán)紫色堆疊條表示。
在圖3中,down_proj輸入在層2中,僅有一個(gè)大幅度的激活值(super activation),這是超級(jí)激活首次出現(xiàn)的地方。
圖4表示,一旦在第2層被觸發(fā),超級(jí)激活會(huì)在隨后的所有層中以相同的幅度、相同的位置持續(xù)存在,而不受輸入的影響。如果把超級(jí)權(quán)重剪掉,超級(jí)激活的強(qiáng)度會(huì)下降75%。
圖5中顯示了超級(jí)權(quán)重對(duì)停用詞的抑制作用。
研究人員發(fā)現(xiàn),移除超級(jí)權(quán)重會(huì)導(dǎo)致停用詞概率增加2-5倍,這在各種LLMs中都存在。
同時(shí),非停用詞的概率急劇下降,減少2-3倍,低至0.1%的概率。
整體上看,超權(quán)重會(huì)影響輸出Token的概率分布。
從圖6可以看出,增強(qiáng)超權(quán)重,可以在一定程度上提高模型準(zhǔn)確率。
超級(jí)離群值
模型量化的「關(guān)鍵鑰匙」
量化是壓縮模型、降低模型內(nèi)存需求的一種強(qiáng)有力技術(shù)。
其中影響量化質(zhì)量的,是一種重要的指標(biāo)離群值(outliers)。研究人員將超級(jí)權(quán)重和超級(jí)激活統(tǒng)稱為超級(jí)離群值。
超級(jí)離群值,為人們認(rèn)識(shí)大模型,改進(jìn)大模型壓縮技術(shù),提供了一把重要的鑰匙。
在該項(xiàng)研究中,研究人員考慮的是一種最簡(jiǎn)單的量化形式——即非對(duì)稱的就近取重量化(asymmetric round-to-nearest quantization):
保留超級(jí)權(quán)重參數(shù),是大模型「瘦身」的一個(gè)黃金原則。
研究人員發(fā)現(xiàn),只要以高精度保留超級(jí)激活,通過簡(jiǎn)單的就近取整(round-to-nearest)量化,也能將模型質(zhì)量提升到與當(dāng)前最先進(jìn)方法相當(dāng)?shù)乃健?/p>
如表3所示,在與FP16、Naive W8A8、SmoothQuant三種模型量化方法的比較中,就近取整量化雖然效果略次于SmoothQuant,但優(yōu)于Naive W8A8,尤其是在不需要校準(zhǔn)數(shù)據(jù)的前提下,實(shí)用性更強(qiáng)。
同樣,如果在保留超權(quán)重的同時(shí),對(duì)其他權(quán)重異常值進(jìn)行裁剪,就近取整量化,也可以實(shí)現(xiàn)更好的壓縮比。
這意味著只需處理少量「超級(jí)離群值」,就能顯著提升壓縮質(zhì)量。
研究人員認(rèn)為,與需要處理數(shù)十萬離群權(quán)重的方法相比,這無疑是一種更友好的硬件方案。
它可以在提升模型效率的同時(shí),又能盡可能保留原有性能。
這也使得強(qiáng)大的LLM應(yīng)用,在資源受限的硬件上部署和高質(zhì)量運(yùn)行,成為可能。
激活量化與權(quán)重量化
為了全面展示超級(jí)權(quán)重的影響,研究人員將研究范圍擴(kuò)大到更多大模型:OLMo(1B和7B版本)、Mistral-7B以及Llama-2-7B。
表4顯示,處理超級(jí)激活可以提升激活量化效果。
研究人員遵循SmoothQuant的設(shè)置,用FP16算術(shù)模擬W8A8量化。
研究結(jié)果凸顯了超級(jí)激活,在量化期間維持模型性能的關(guān)鍵重要性。
研究人員對(duì)Llama-7B的分析顯示,AWQ將超級(jí)權(quán)重放大了12倍,這印證了他們對(duì)超級(jí)權(quán)重重要性的判斷。
如圖7,藍(lán)線RTN顯示,如果不處理超級(jí)權(quán)重,隨著量化塊變大,模型性能急劇下降;紫線Ours表示,如果恢復(fù)超級(jí)權(quán)重,模型準(zhǔn)確率下降更平緩,即使大塊量化也能維持較好性能。
這說明,只要針對(duì)單個(gè)超級(jí)權(quán)重進(jìn)行特殊處理,就能顯著提高量化的穩(wěn)定性和可擴(kuò)展性。
探索超級(jí)離群值的版圖
蘋果研究人員的發(fā)現(xiàn),為未來研究打開了多條道路。
毫無疑問,進(jìn)一步探索超級(jí)權(quán)重與超級(jí)激活的起源及其精確機(jī)制,將對(duì)LLM的運(yùn)行動(dòng)態(tài),帶來更深入的洞見。
同樣的,理解這些超級(jí)權(quán)重參數(shù),如何在訓(xùn)練過程中獲得如此「超級(jí)」的影響力,也可以為未來的模型設(shè)計(jì)、訓(xùn)練策略提供更有針對(duì)性的指導(dǎo)。
從另一個(gè)角度看,在更廣泛的模型架構(gòu)和訓(xùn)練范式中,展開對(duì)超級(jí)權(quán)重的研究,也有助于揭示它們的角色和形成機(jī)制。
這些都將幫助我們解鎖,構(gòu)建更高效、更穩(wěn)健、更可解釋大模型的創(chuàng)新方法,讓大模型告別「煉丹玄學(xué)」。
作者簡(jiǎn)介
Mengxia Yu
Mengxia Yu是圣母大學(xué)計(jì)算機(jī)專業(yè)博士生,此前在北京大學(xué)獲得計(jì)算語言學(xué)學(xué)士學(xué)位,本論文是她在蘋果公司實(shí)習(xí)期間完成的。
參考資料:
https://machinelearning.apple.com/research/the-super-weight
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.