夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Thinking Machines又發(fā)高質(zhì)量博客:力推LoRA,不輸全量微調(diào)

0
分享至



機(jī)器之心報道

機(jī)器之心編輯部

LoRA 在絕大多數(shù)后訓(xùn)練場景下,能以遠(yuǎn)低于全量微調(diào)的成本,獲得幾乎同等的效果。Thinking Machines 將這一現(xiàn)象形容為 LoRA 的低遺憾區(qū)間(low-regret region)——即便不用全量微調(diào),選擇 LoRA 也不會讓人后悔。

最近,Thinking Machines 真實高產(chǎn)啊。

今天,他們又更新了博客,力推 LoRA,且與全量微調(diào)( Full Fine-tuning ,以下簡稱 FullFT )進(jìn)行了對比。

  • 博客鏈接:
  • https://thinkingmachines.ai/blog/lora/

訓(xùn)練大模型,到底該選全量微調(diào)還是 LoRA?

FullFT 意味著改動模型的所有參數(shù),效果穩(wěn)定但成本高昂,顯存開銷巨大;而LoRA 只改動一小部分參數(shù),輕量、便宜。但一個關(guān)鍵問題是:便宜的 LoRA,效果會不會差很多?

Thinking Machines 最新研究發(fā)現(xiàn),在小數(shù)據(jù)量任務(wù)上,LoRA 與 FullFT 幾乎沒有差距,完全可以對齊;在大數(shù)據(jù)量任務(wù)上,LoRA 的容量不足,承載不了過多新知識,表現(xiàn)略顯吃力;而在強(qiáng)化學(xué)習(xí)任務(wù)里,哪怕 LoRA rank=1 這么小的設(shè)定,也能跑出與全量微調(diào)接近的效果。

更進(jìn)一步,LoRA 的使用位置也有講究。只加在注意力層并不理想,覆蓋所有層(尤其 MLP/MoE)效果更佳。

研究還揭示了一些細(xì)節(jié)差異。例如,LoRA 在大 batch size 下,比 FullFT 更容易掉性能;LoRA 的學(xué)習(xí)率和超參數(shù)規(guī)律與 FullFT 不同,需要單獨調(diào)優(yōu)。

以下是這篇博客的主要內(nèi)容。

為什么 LoRA 重要?

低秩適配( LoRA )是目前最熱門的參數(shù)高效微調(diào)(PEFT)方法。它的核心思想是:不直接改動整個模型的權(quán)重,而是通過學(xué)習(xí)一個低維適配器(兩個小矩陣 A 和 B)來表示更新。



LoRA 的優(yōu)勢包括:多租戶部署(同一模型可同時加載多個適配器)、低顯存需求、快速加載和遷移。這些特性讓它自 2021 年誕生以來迅速流行。

不過,現(xiàn)有研究對它能否完全匹敵 FullFT 并沒有一致答案。

學(xué)界普遍認(rèn)為,在類似預(yù)訓(xùn)練的大規(guī)模數(shù)據(jù)場景下,LoRA 性能會遜于 FullFT ,因為數(shù)據(jù)規(guī)模往往超出 LoRA 參數(shù)容量。但在后訓(xùn)練任務(wù)中,數(shù)據(jù)規(guī)模通常處于 LoRA 容量可覆蓋的范圍,這意味著核心信息能夠被保留。

盡管如此,這并不必然保證 LoRA 在樣本利用效率和計算效率上能完全與 FullFT 持平。我們關(guān)注的核心問題是:

在什么條件下,LoRA 能實現(xiàn)與 FullFT 相當(dāng)?shù)男Ч?/strong>

實驗結(jié)果顯示,只要關(guān)鍵細(xì)節(jié)得到妥善處理,LoRA 不僅能匹配 FullFT 的樣本效率,還能最終達(dá)到相似的性能水平。

LoRA 的關(guān)鍵要素

研究的方法有別于以往研究:

不再局限于單一數(shù)據(jù)集或任務(wù),而是系統(tǒng)考察訓(xùn)練集規(guī)模與 LoRA 參數(shù)數(shù)量之間的普適關(guān)系;在有監(jiān)督學(xué)習(xí)中,研究采用對數(shù)損失(log loss)作為統(tǒng)一評估指標(biāo),而非依賴采樣式評測,以獲得更清晰且可跨任務(wù)比較的結(jié)論。

實驗結(jié)果表明,在小到中等規(guī)模的指令微調(diào)和推理任務(wù)中,LoRA 的表現(xiàn)可與FullFT 相媲美。然而,當(dāng)數(shù)據(jù)規(guī)模超出 LoRA 參數(shù)容量時,其表現(xiàn)將落后于 FullFT,這種差距主要體現(xiàn)在訓(xùn)練效率的下降,而非無法繼續(xù)優(yōu)化。性能下降的程度與模型容量和數(shù)據(jù)規(guī)模密切相關(guān)。

此外,LoRA 對大批量訓(xùn)練的容忍度低于 FullFT 。當(dāng)批量規(guī)模超過一定閾值時,損失值會明顯上升,這種現(xiàn)象無法通過提升 LoRA 的秩(rank)來緩解,因為它源自矩陣乘積參數(shù)化的固有訓(xùn)練動力學(xué),而非原始權(quán)重矩陣的直接優(yōu)化。

即便在小數(shù)據(jù)場景,將 LoRA 應(yīng)用于所有權(quán)重矩陣,尤其是 MLP 與 MoE 層,均能獲得更優(yōu)表現(xiàn)。相比之下,僅對注意力層進(jìn)行 LoRA 調(diào)整,即使保持相同可訓(xùn)練參數(shù)量,也無法達(dá)到同樣的效果。

在強(qiáng)化學(xué)習(xí)任務(wù)中,即使 LoRA 的秩(rank)極低,其性能仍可接近 FullFT 。這與我們基于信息論的推斷一致:強(qiáng)化學(xué)習(xí)對模型容量的需求相對較低。

研究還分析了 LoRA 超參數(shù)對學(xué)習(xí)率的影響,包括初始化尺度與乘數(shù)的不變性,并揭示了為何 1/r1/r1/r 因子使 LoRA 的最優(yōu)學(xué)習(xí)率與秩變化幾乎無關(guān)。同時實驗顯示,LoRA 的最優(yōu)學(xué)習(xí)率與 FullFT 存在一定關(guān)聯(lián)。

綜合來看,研究提出了低遺憾區(qū)域(low-regret region)的概念——

在該區(qū)域內(nèi),大多數(shù)后訓(xùn)練場景下,LoRA 能以顯著低于 FullFT 的成本,實現(xiàn)相似的性能。這意味著,高效微調(diào)在實際應(yīng)用中完全可行,LoRA 因而成為后訓(xùn)練的重要工具。

實驗方法與主要發(fā)現(xiàn)

研究團(tuán)隊用 LLaMA 3 和 Qwen3 模型,做了有監(jiān)督微調(diào)(Tulu3 和 OpenThoughts3 數(shù)據(jù)集)以及強(qiáng)化學(xué)習(xí)任務(wù)(數(shù)學(xué)推理)。關(guān)鍵做法包括:

  • 調(diào)整 LoRA 的秩(rank),從 1 到 512,覆蓋從低容量到高容量的場景。
  • 對每個設(shè)置做學(xué)習(xí)率掃描,確保找到最優(yōu)訓(xùn)練條件。
  • 測試 LoRA 在不同層的效果,包括 attention 層、MLP 層、混合專家(MoE)層。

結(jié)果發(fā)現(xiàn):

  • 在小到中等數(shù)據(jù)規(guī)模下,高秩 LoRA 的性能幾乎與 FullFT 無差別。



在 Tulu3 和 OpenThoughts3 數(shù)據(jù)集上,全量微調(diào)(FullFT)以及高秩 LoRA 的學(xué)習(xí)曲線非常相似,損失隨訓(xùn)練步驟的對數(shù)幾乎線性下降。而低秩 LoRA 則會在適配器容量耗盡時偏離最小損失曲線。在底部的圖表(1B 模型)中,高秩 LoRA 在某個數(shù)據(jù)集上表現(xiàn)優(yōu)于 FullFT,但在另一個數(shù)據(jù)集上則略遜一籌。這可能與不同數(shù)據(jù)集的訓(xùn)練動態(tài)或泛化行為差異有關(guān),從而導(dǎo)致 LoRA 在不同任務(wù)上的表現(xiàn)存在一定隨機(jī)性。



結(jié)果顯示,對于 Tulu3 數(shù)據(jù)集,不同秩的 LoRA 在最佳學(xué)習(xí)率下的最終損失相差不大,高秩 LoRA 與 FullFT 的最小損失幾乎一致。然而,LoRA 的最佳學(xué)習(xí)率約是 FullFT 的 10 倍,這意味著在相同條件下 LoRA 可以接受更高的學(xué)習(xí)率。

  • 對于超過 LoRA 容量的數(shù)據(jù)集,LoRA 的表現(xiàn)不如 FullFT。 損失并不會達(dá)到一個無法降低的明顯下限,而是會導(dǎo)致更差的訓(xùn)練效率,這種效率取決于模型容量與數(shù)據(jù)集大小之間的關(guān)系。
  • 大批量訓(xùn)練下,LoRA 性能下降比 FullFT 更明顯,這與秩無關(guān),可能是參數(shù)化方法的固有特性。



批量大小對 LoRA 與 FullFT 性能的影響如圖所示。左側(cè)的學(xué)習(xí)曲線展示了在不同批量大小下的表現(xiàn):在較大批量情況下,LoRA(虛線)的學(xué)習(xí)曲線始終低于 FullFT(實線),表現(xiàn)出持續(xù)的差距。右側(cè)的圖表則展示了最終損失與批量大小的關(guān)系,表明隨著批量大小的增加,LoRA 所付出的損失代價更大。

  • 即使在數(shù)據(jù)量小的情境下,LoRA 在應(yīng)用于所有權(quán)重矩陣(特別是 MLP 和 MoE 層)時表現(xiàn)更好。僅應(yīng)用于注意力層的 LoRA(attention-only LoRA)表現(xiàn)不佳,即使研究人員通過使用更高的秩來匹配可訓(xùn)練參數(shù)的數(shù)量(與 MLP-only 相比)。



僅作用于注意力層的 LoRA(Attention-only LoRA)明顯不如僅作用于 MLP 層的 LoRA(MLP-only LoRA),而且在已對 MLP 層應(yīng)用 LoRA 的情況下,再對注意力層額外應(yīng)用 LoRA 并不能進(jìn)一步提升性能。這一現(xiàn)象在密集模型(如 Llama-3.1-8B)和稀疏 MoE 模型(如 Qwen3-30B-A3B-Base)中均成立。



改變應(yīng)用 LoRA 的層時,學(xué)習(xí)率與最終損失或獎勵的關(guān)系。

  • 在強(qiáng)化學(xué)習(xí)任務(wù)中,即使秩極低(rank=1),LoRA 也能達(dá)到 FullFT 水平,這與強(qiáng)化學(xué)習(xí)對容量需求較低的理論預(yù)期一致。



在小學(xué)數(shù)學(xué)(GSM,左圖)或 MATH(右圖)數(shù)據(jù)集上進(jìn)行強(qiáng)化學(xué)習(xí)時,學(xué)習(xí)率與最終獎勵(準(zhǔn)確率)的關(guān)系。



在 DeepMath 數(shù)據(jù)集上使用 Qwen3-8b-base 進(jìn)行的實驗。左圖顯示了不同 rank 和全量微調(diào)(FullFT)的學(xué)習(xí)曲線。在每種設(shè)置下,我們選取了能帶來最佳最終性能的最優(yōu)學(xué)習(xí)率。右圖則展示了學(xué)習(xí)率與最終性能的關(guān)系。與之前的數(shù)學(xué)實驗類似,LoRA 在近似最優(yōu)學(xué)習(xí)率范圍上表現(xiàn)出更寬的峰值。



來自使用 Qwen3-8b-Base 在 DeepMath 數(shù)據(jù)集上實驗的附加圖表。左圖顯示了在更具挑戰(zhàn)性的 AIME 測試集上的基準(zhǔn)得分,右圖展示了隨訓(xùn)練步驟變化的鏈?zhǔn)剿季S(CoT)長度,這可被視為模型學(xué)習(xí)推理能力的一個標(biāo)志。

LoRA 超參數(shù)規(guī)律

LoRA 有幾個顯著特點,簡化了它的使用復(fù)雜度:

  • 最優(yōu)學(xué)習(xí)率通常是 FullFT 的約 10 倍
  • 學(xué)習(xí)率對秩的依賴非常弱,短期訓(xùn)練幾乎不受秩變化影響,長期訓(xùn)練差異也很小。
  • LoRA 參數(shù)化具有不變性,實際只需關(guān)注兩個組合超參數(shù)即可。
  • 初期訓(xùn)練時,LoRA 需要更高的學(xué)習(xí)率(約 15 倍 FullFT),長期訓(xùn)練則趨近于 10 倍。

這些規(guī)律為 LoRA 在實際部署中提供了便利:少調(diào)超參數(shù)就能取得接近全量微調(diào)的效果。



訓(xùn)練早期,不同 rank 在相同學(xué)習(xí)率下的學(xué)習(xí)曲線差異。左圖顯示了各 rank 的學(xué)習(xí)曲線,右圖則展示了 rank?16 與 rank?256 之間的差異,這個差異隨時間增長。有趣的是,在最初幾步中差異為負(fù)(盡管非常微?。?,因此那部分曲線在圖中缺失。

1、為什么 LoRA 必須作用于所有層?我們發(fā)現(xiàn),LoRA 要與 FullFT 接近,必須滿足兩個條件:作用于所有層,特別是 MLP/MoE 層,因為這些層承載了模型絕大部分參數(shù)。容量不受限制,可訓(xùn)練參數(shù)必須足夠容納數(shù)據(jù)中所需的信息量。

僅在 attention 層使用 LoRA 會導(dǎo)致訓(xùn)練速度下降,這可以用經(jīng)驗神經(jīng)切線核(eNTK)解釋:參數(shù)最多的層對訓(xùn)練動態(tài)影響最大,LoRA 覆蓋所有參數(shù)層,才能保持 FullFT 的訓(xùn)練行為。

2、我們用信息論方法估算了容量需求,這種分析為 LoRA 在不同任務(wù)中能否勝任提供了理論支持:

在監(jiān)督學(xué)習(xí)中,模型大約可存儲每個參數(shù) 2 bits信息。數(shù)據(jù)集的描述長度可以通過第一輪訓(xùn)練的總 log-loss 估算;

在強(qiáng)化學(xué)習(xí)中,尤其是策略梯度方法,每個 episode 約提供1 bit信息。這說明強(qiáng)化學(xué)習(xí)對 LoRA 容量的要求相對較低。

3、計算效率優(yōu)勢。LoRA 只更新低秩矩陣,而不是全權(quán)重矩陣,這讓它在計算上更省力:前向+反向傳播的 FLOPs 大約是 FullFT 的 2/3

換句話說,LoRA 在相同訓(xùn)練步驟下,能用更少計算量達(dá)到相似效果。

未來探索方向

研究團(tuán)隊認(rèn)為,LoRA 仍有幾個值得深入探索的方向:精準(zhǔn)預(yù)測 LoRA 性能及其與 FullFT 的差距條件、建立 LoRA 學(xué)習(xí)率與訓(xùn)練動態(tài)的理論框架、測評 LoRA 變體(如 PiSSA)的表現(xiàn),以及研究 LoRA 在 MoE 層的不同應(yīng)用方案及其與張量并行、專家并行的兼容性。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
臺灣演員方芳直言:來大陸就不要畏手畏腳,連個東西都不敢簽

臺灣演員方芳直言:來大陸就不要畏手畏腳,連個東西都不敢簽

隔壁靈妹妹
2025-09-08 15:15:24
9月新能源車企銷量公布:比亞迪39.3萬輛,吉利16.5萬輛……

9月新能源車企銷量公布:比亞迪39.3萬輛,吉利16.5萬輛……

電車匯
2025-10-01 23:02:35
河南兩兄弟同時暴斃,停尸至今未下葬,父母一夜白頭,家屬曝死因

河南兩兄弟同時暴斃,停尸至今未下葬,父母一夜白頭,家屬曝死因

劉蕳愛下廚
2025-09-29 19:31:24
三位大人物骨灰被移出八寶山,他們分別是誰?其中一人是開國上將

三位大人物骨灰被移出八寶山,他們分別是誰?其中一人是開國上將

文史達(dá)觀
2025-09-08 20:13:26
崔麗麗學(xué)了變臉?對國人滿嘴臟話惡語相向,對日本人卻恭恭敬敬

崔麗麗學(xué)了變臉?對國人滿嘴臟話惡語相向,對日本人卻恭恭敬敬

探長影視解說
2025-10-02 10:28:59
誓要幫火箭奪冠!不要拋棄我,范喬丹發(fā)出請求,杜蘭特也給出態(tài)度

誓要幫火箭奪冠!不要拋棄我,范喬丹發(fā)出請求,杜蘭特也給出態(tài)度

巴叔GO聊體育
2025-10-02 10:32:17
WTO關(guān)注度下降:中國入世耗時15年,現(xiàn)狀近乎被邊緣化

WTO關(guān)注度下降:中國入世耗時15年,現(xiàn)狀近乎被邊緣化

優(yōu)趣紀(jì)史記
2025-09-26 20:06:58
意媒:德羅西執(zhí)教羅馬合同將解除,羅馬名宿放棄400萬歐

意媒:德羅西執(zhí)教羅馬合同將解除,羅馬名宿放棄400萬歐

雷速體育
2025-10-02 10:50:16
烏度卡:狄龍離隊,伊森將在訓(xùn)練營里競爭一個先發(fā)的位置

烏度卡:狄龍離隊,伊森將在訓(xùn)練營里競爭一個先發(fā)的位置

大眼瞄世界
2025-10-02 09:53:31
3.47萬億投向新疆,一場不亞于40年前深圳的財富浪潮正悄然啟動

3.47萬億投向新疆,一場不亞于40年前深圳的財富浪潮正悄然啟動

流蘇晚晴
2025-10-01 17:27:15
首相選舉鬧出大笑話,小泉翻車退縮,但他沒想到:林芳正機(jī)會來了

首相選舉鬧出大笑話,小泉翻車退縮,但他沒想到:林芳正機(jī)會來了

墨羽怪談
2025-10-02 10:11:16
2014年,20歲北京男孩李亞諾,花16萬斷骨增高7.2厘米,后來怎樣

2014年,20歲北京男孩李亞諾,花16萬斷骨增高7.2厘米,后來怎樣

攬星河的筆記
2025-10-01 15:08:14
46架艦載機(jī)全甲板攻擊,福建艦超強(qiáng)陣容出現(xiàn),美軍航母最強(qiáng)對手?

46架艦載機(jī)全甲板攻擊,福建艦超強(qiáng)陣容出現(xiàn),美軍航母最強(qiáng)對手?

滄海旅行家
2025-10-01 15:07:20
姜昆北京與好友聚會,挨著秀水街老總張永平,劉家軍吹薩克斯助興

姜昆北京與好友聚會,挨著秀水街老總張永平,劉家軍吹薩克斯助興

小蘭聊歷史
2025-10-01 17:08:44
WTA官宣3人入圍總決賽!中網(wǎng)女單8強(qiáng)出爐,斯瓦泰克刷新另類紀(jì)錄

WTA官宣3人入圍總決賽!中網(wǎng)女單8強(qiáng)出爐,斯瓦泰克刷新另類紀(jì)錄

排球黃金眼
2025-10-02 00:33:58
6樣?xùn)|西千萬別在網(wǎng)上買,里面的水太深,看完你就知道后怕了

6樣?xùn)|西千萬別在網(wǎng)上買,里面的水太深,看完你就知道后怕了

裝修秀
2025-09-30 11:10:03
陳偉霆稱本來不想也不敢再拍霸總戲,但被《許我耀眼》劇本吸引,還能和趙露思、陳暢合作,所以接了

陳偉霆稱本來不想也不敢再拍霸總戲,但被《許我耀眼》劇本吸引,還能和趙露思、陳暢合作,所以接了

觀威海
2025-10-02 09:39:12
大暴雨!新臺風(fēng)“麥德姆”即將生成,將影響廣東

大暴雨!新臺風(fēng)“麥德姆”即將生成,將影響廣東

魯中晨報
2025-10-01 16:27:04
首輪29順位!又一個火箭新星被裁,23歲無球可打,曾是保羅接班人

首輪29順位!又一個火箭新星被裁,23歲無球可打,曾是保羅接班人

巴叔GO聊體育
2025-10-02 10:32:53
媽媽私藏的3道拿手菜!味道絕了, 道道都是“米飯殺手”!巨好吃

媽媽私藏的3道拿手菜!味道絕了, 道道都是“米飯殺手”!巨好吃

江江食研社
2025-09-30 16:30:05
2025-10-02 11:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11392文章數(shù) 142463關(guān)注度
往期回顧 全部

科技要聞

9月零跑交付突破6萬輛,小鵬、小米超4萬輛

頭條要聞

媒體:約800名中外人士出席 國慶招待會有幾個重要信息

頭條要聞

媒體:約800名中外人士出席 國慶招待會有幾個重要信息

體育要聞

痛失三叉戟的大巴黎,是怎么贏下巴薩的?

娛樂要聞

董璇母女國慶節(jié)跳舞 小酒窩眼神堅定

財經(jīng)要聞

金價快3900美元,黃金牛還能跑多遠(yuǎn)??

汽車要聞

零跑9月銷量突破6萬臺大關(guān) 刷新新勢力單月交付紀(jì)錄

態(tài)度原創(chuàng)

手機(jī)
教育
本地
旅游
公開課

手機(jī)要聞

小米們起猛了!安卓廠商們聯(lián)手高通發(fā)力,拍視頻也要超iPhone?

教育要聞

國慶節(jié),你的孩子還寫作業(yè)嗎?

本地新聞

讀港校想省錢,社恐輸在起跑線

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 欧美超级乱婬视频播放| 精品日韩人妻中文字幕| 欧美草逼视频免费看| 9久久伊人精品综合| 特级毛片aaaaaa| 国产成人精品无码AV| 久久久久久精品无码人妻| 午夜西瓜视频在线观看| 国产亚洲第一午夜福利合集| 婷婷AV色综合| 久热久草视频在线| 亚洲人成人一区二区三区| 中文字幕乱偷无码av先锋蜜桃| 搡老女人老91二区| 欧美牲交a欧美牲交aⅴ久久| 亚洲日本人成网站在线播放| Av按摩xⅩⅩ| 国产尤物精品自在拍视频首页| 日本老妇一区| 中文字幕 - 色哟哟| 26uuu在线亚洲欧美| 日本在线一区二区| 搡BBBB搡BBB搡18免费观看| 黑人丝袜女在线| 亚洲av综合永久无码精品天堂 | www.99| 少妇太爽了在线观看视频| 男人天堂亚洲天堂女人天堂| 最新中文字幕免费色哟哟| 91人妻人人做人碰人人爽一区二区| 国产熟女内射oooo| 亚洲av粗大| 优质AV网站| 国产成人一区二区视频免费| 欧美亚洲色图视频小说| 午夜精品成人毛片非洲| 国产熟女肥臀精品国产馆乱| 国产AV无码亚洲AV无码| 人人妻人人ai| 我把护士日出水了视频90分钟| 综合久久给合久久狠狠狠97色|