網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

研究人員打造BiDoRA解決DoRA耦合，以高效微調(diào)解鎖小數(shù)據(jù)潛力

2025-08-17 19:24:47　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

如今，像 GPT 系列這樣的大模型已經(jīng)展現(xiàn)出了驚人的通用能力，但要讓它們?cè)谀硞€(gè)具體領(lǐng)域發(fā)揮最大效力，還需要進(jìn)行“微調(diào)”（Fine-Tuning）。傳統(tǒng)的“完整微調(diào)”方法，需要調(diào)整模型中全部的數(shù)百億甚至千億參數(shù)，這不僅需要海量的計(jì)算資源（比如數(shù)十上百塊頂級(jí) GPU），訓(xùn)練時(shí)間也十分漫長(zhǎng)。因此，“參數(shù)高效微調(diào)”（PEFT，Parameter-Efficient Fine-Tuning）技術(shù)應(yīng)運(yùn)而生，它旨在只調(diào)整模型中極小一部分的參數(shù)，就能達(dá)到接近甚至超越完整微調(diào)的效果。

在 PEFT 家族中，LoRA 是一個(gè)里程碑式的工作。而研究團(tuán)隊(duì)關(guān)注到，業(yè)內(nèi)最近提出的 DoRA（Weight-Decomposed Low-Rank Adaptation）在 LoRA 的基礎(chǔ)上更進(jìn)了一步。DoRA 的核心思想是，它認(rèn)為模型權(quán)重的更新，可以被分解為“大小”（magnitude）和“方向”（direction）兩個(gè)獨(dú)立維度的變化。這個(gè)洞察非常深刻，因?yàn)樗N近模型在完整微調(diào)時(shí)的真實(shí)動(dòng)態(tài)。通過(guò)這種分解，DoRA 確實(shí)在很多任務(wù)上超越了 LoRA。

然而，在深入研究 DoRA 的過(guò)程中，研究團(tuán)隊(duì)發(fā)現(xiàn)它雖然方向走對(duì)了，但仍然存在一些問題。DoRA 在訓(xùn)練時(shí)，是同時(shí)優(yōu)化大小和方向這兩個(gè)部分的，并且用的是同一份訓(xùn)練數(shù)據(jù)。研究團(tuán)隊(duì)認(rèn)為這種“耦合”的優(yōu)化方式會(huì)帶來(lái)兩個(gè)關(guān)鍵問題：第一，它讓模型的能力過(guò)于強(qiáng)大，很容易“死記硬背”訓(xùn)練數(shù)據(jù)，導(dǎo)致在面對(duì)新數(shù)據(jù)時(shí)表現(xiàn)不佳，也就是人們常說(shuō)的“過(guò)擬合”。第二，大小和方向的同步更新會(huì)形成一種內(nèi)在的牽制，限制了模型尋找最優(yōu)解的學(xué)習(xí)能力。

所以，研究團(tuán)隊(duì)這次研究的核心目標(biāo)非常明確：保留 DoRA 關(guān)于權(quán)重分解的深刻洞察，但要打破其大小和方向更新過(guò)程中的耦合性。因此，其希望設(shè)計(jì)一種新的訓(xùn)練范式，能夠讓這兩個(gè)組件的優(yōu)化過(guò)程分離開來(lái)，從而有效抑制過(guò)擬合，使其性能表現(xiàn)能再上一個(gè)臺(tái)階。

針對(duì)上面提到的問題，研究團(tuán)隊(duì)最終研發(fā)出了一種全新的 PEFT 方法，稱為 BiDoRA（Bi-level Optimization-Based Weight-Decomposed Low-Rank Adaptation）。它的核心是一種基于雙層優(yōu)化（Bi-level Optimization）的訓(xùn)練框架。

（來(lái)源：https://arxiv.org/pdf/2410.09758）

它將原本一體化的訓(xùn)練過(guò)程，巧妙地拆分成了兩個(gè)相互嵌套、異步進(jìn)行的循環(huán)。具體來(lái)說(shuō)，研究團(tuán)隊(duì)會(huì)把訓(xùn)練數(shù)據(jù)分成訓(xùn)練集和驗(yàn)證集兩部分。在“內(nèi)層循環(huán)”里，先“凍結(jié)”住權(quán)重的大?。╩agnitude），只用訓(xùn)練集來(lái)學(xué)習(xí)權(quán)重的“方向”（direction）。這一步的目標(biāo)是，在給定大小的情況下，找到最好的方向。接著，在“外層循環(huán)”中，研究團(tuán)隊(duì)利用剛剛在內(nèi)層學(xué)到的最優(yōu)方向，反過(guò)來(lái)在驗(yàn)證集上評(píng)估并更新權(quán)重的大小。這一步的目標(biāo)是，為已經(jīng)找到的最佳方向，匹配一個(gè)最合適的大小。

通過(guò)這種方式，研究團(tuán)隊(duì)成功地在訓(xùn)練動(dòng)態(tài)上將大小和方向的更新過(guò)程解耦，還因此發(fā)現(xiàn)了一些新規(guī)律和新現(xiàn)象：

首先，他們證實(shí)解耦訓(xùn)練能夠顯著提升模型的泛化能力。實(shí)驗(yàn)數(shù)據(jù)顯示，BiDoRA 訓(xùn)練的模型在訓(xùn)練集和測(cè)試集上的表現(xiàn)差距（performance gap）遠(yuǎn)小于 DoRA。同時(shí), 在生物醫(yī)學(xué)領(lǐng)域的極小數(shù)據(jù)集上（訓(xùn)練數(shù)據(jù)小于 1000 個(gè)），BiDoRA 效果提升顯著。在預(yù)測(cè)肽類是否能穿透血腦屏障（BBB，Blood-Brain Barrier）時(shí)，BiDoRA 僅使用全量微調(diào) 1/326 的參數(shù)，就實(shí)現(xiàn)了顯著更高的 F1 分?jǐn)?shù)（92.0 對(duì) 89.4）。在預(yù)測(cè)蛋白質(zhì)熱穩(wěn)定性時(shí)，BiDoRA 使用全量微調(diào) 1/408 的參數(shù)，F(xiàn)1 分?jǐn)?shù)幾乎相同（78.2 對(duì) 78.4）。BiDoRA 在多項(xiàng)任務(wù)中持續(xù)優(yōu)于當(dāng)前最先進(jìn)的參數(shù)高效微調(diào)方法，如 LoRA 和 DoRA。

其次，他們還發(fā)現(xiàn)了一個(gè)新規(guī)律。學(xué)界已經(jīng)有研究表明，在理想的完整微調(diào)中，權(quán)重大小和方向的更新存在一種負(fù)相關(guān)的關(guān)系。研究團(tuán)隊(duì)借助“權(quán)重分解分析”這一工具，發(fā)現(xiàn) LoRA 表現(xiàn)為正相關(guān)，這解釋了它為什么有時(shí)效果不佳，而 DoRA 改進(jìn)了這一點(diǎn)，呈現(xiàn)出-1.784 的負(fù)相關(guān)。而研究團(tuán)隊(duì)的 BiDoRA，得益于徹底的解耦訓(xùn)練，實(shí)現(xiàn)了高達(dá)-8.042 的負(fù)相關(guān)性。這意味著 BiDoRA 的訓(xùn)練動(dòng)態(tài)更接近于完整微調(diào)，這為它的優(yōu)異性能提供了強(qiáng)有力的實(shí)驗(yàn)支撐。

在論文的同行評(píng)審階段，研究團(tuán)隊(duì)收到了來(lái)自多位匿名審稿人的專業(yè)且中肯的意見。綜合來(lái)看，審稿人們的贊譽(yù)主要集中在以下幾個(gè)方面：

首先，審稿人普遍認(rèn)為本次課題的研究動(dòng)機(jī)非常清晰且具有說(shuō)服力。研究團(tuán)隊(duì)精準(zhǔn)地指出了現(xiàn)有先進(jìn)方法（DoRA）中存在的“耦合更新”這一核心缺陷，并以此為切入點(diǎn)展開研究，使得整個(gè)工作的邏輯鏈條非常堅(jiān)實(shí)。

其次，審稿人也對(duì)研究團(tuán)隊(duì)提出的 BiDoRA 方法的原創(chuàng)性和新穎性給予了高度評(píng)價(jià)。將雙層優(yōu)化（Bi-level Optimization）這一已在其他領(lǐng)域（如神經(jīng)架構(gòu)搜索）驗(yàn)證的有效思想，創(chuàng)造性地應(yīng)用于 PEFT 領(lǐng)域，并以此來(lái)解決權(quán)重分解中的耦合問題，這被認(rèn)為是一個(gè)非常聰明且有效的嘗試。

再者，審稿人對(duì)研究團(tuán)隊(duì)實(shí)驗(yàn)的全面性和扎實(shí)程度印象深刻。他們不僅在多個(gè)權(quán)威的自然語(yǔ)言理解基準(zhǔn)（如 GLUE）上驗(yàn)證了方法的有效性，還將實(shí)驗(yàn)擴(kuò)展到了自然語(yǔ)言生成、命名實(shí)體識(shí)別，甚至是一些數(shù)據(jù)量極度稀缺的生物醫(yī)學(xué)任務(wù)上。在所有這些場(chǎng)景下，BiDoRA 都展現(xiàn)出了一致的優(yōu)越性。

研究團(tuán)隊(duì)對(duì) BiDoRA 的應(yīng)用前景非常樂觀，尤其是在那些數(shù)據(jù)資源極其寶貴的領(lǐng)域。在未來(lái)的幾年內(nèi)，研究團(tuán)隊(duì)認(rèn)為它可以在生物醫(yī)學(xué)領(lǐng)域產(chǎn)生具體的應(yīng)用價(jià)值，這也正是研究團(tuán)隊(duì)在論文中特別進(jìn)行實(shí)驗(yàn)驗(yàn)證的方向。在生物醫(yī)學(xué)研究中，獲取高質(zhì)量、大規(guī)模的標(biāo)注數(shù)據(jù)往往是極其困難和昂貴的。在這樣“極小數(shù)據(jù)集”的場(chǎng)景下，傳統(tǒng)的大模型微調(diào)方法極易發(fā)生嚴(yán)重的過(guò)擬合。而本次方法天生就具有強(qiáng)大的抗過(guò)擬合能力，因?yàn)樗ㄟ^(guò)雙層優(yōu)化的機(jī)制，引入了內(nèi)部的驗(yàn)證與權(quán)衡，迫使模型學(xué)習(xí)更具泛化性的特征。論文中的實(shí)驗(yàn)也清楚地表明，在這些生物醫(yī)學(xué)任務(wù)上，BiDoRA 相比其他方法的優(yōu)勢(shì)甚至比在數(shù)據(jù)充足的自然語(yǔ)言處理任務(wù)上更為明顯。

據(jù)了解，在研究團(tuán)隊(duì)最初設(shè)計(jì)出 BiDoRA 的雙層優(yōu)化框架時(shí)，其發(fā)現(xiàn) BiDoRA 雖然比 LoRA 要好，但相比 DoRA 的提升并不像理論分析的那么顯著。研究團(tuán)隊(duì)猜想：會(huì)不會(huì)是因?yàn)樗麄兊碾p層優(yōu)化機(jī)制，將本就不算多的訓(xùn)練數(shù)據(jù)進(jìn)一步分割成了更小的訓(xùn)練集和驗(yàn)證集，導(dǎo)致每個(gè)訓(xùn)練循環(huán)得到的數(shù)據(jù)不夠多？這時(shí)，研究團(tuán)隊(duì)立刻聯(lián)想到了在“神經(jīng)架構(gòu)搜索”（NAS，Neural Architecture Search）領(lǐng)域的一個(gè)常用技巧。在 NAS 中，研究者們通常會(huì)先在一個(gè)代理任務(wù)上搜索出最優(yōu)的網(wǎng)絡(luò)架構(gòu)，然后會(huì)有一個(gè)“重訓(xùn)練”（Retraining）階段：固定住搜索到的這個(gè)最優(yōu)架構(gòu)，再用全部的訓(xùn)練數(shù)據(jù)從頭開始訓(xùn)練這個(gè)架構(gòu)的權(quán)重，以求達(dá)到最佳性能。

研究團(tuán)隊(duì)決定借鑒這個(gè)思想，于是在 BiDoRA 的流程中增加了一個(gè)最終的重訓(xùn)練階段：在雙層優(yōu)化的“搜索階段”結(jié)束后，他們固定住學(xué)到的最優(yōu)的“大小”分量，然后合并原始的訓(xùn)練集和驗(yàn)證集，用這完整的數(shù)據(jù)集，對(duì)“方向”分量進(jìn)行一次充分的訓(xùn)練。當(dāng)再次進(jìn)行加上了重訓(xùn)練步驟的實(shí)驗(yàn)后，結(jié)果表明，BiDoRA 的性能在幾乎所有任務(wù)上都獲得了顯著且一致的提升，完全超越了 DoRA，展現(xiàn)出了研究團(tuán)隊(duì)理論預(yù)期的強(qiáng)大實(shí)力。

在后續(xù)研究計(jì)劃上：

研究團(tuán)隊(duì)的第一個(gè)方向是計(jì)劃進(jìn)一步提升 BiDoRA 的訓(xùn)練效率和理論完備性。正如其在論文的“未來(lái)工作”部分提到的，BiDoRA 雖然效果好，但它的雙層優(yōu)化機(jī)制引入了額外的計(jì)算開銷，特別是在計(jì)算“超梯度”（hyper-gradient）時(shí)。目前，研究團(tuán)隊(duì)的實(shí)現(xiàn)方式是相對(duì)基礎(chǔ)的，但學(xué)界已經(jīng)涌現(xiàn)出一些更先進(jìn)、更高效的超梯度估計(jì)算法，比如 SAMA、MixFlow-MG 等。因此，研究團(tuán)隊(duì)的下一步計(jì)劃是，將這些前沿的優(yōu)化技術(shù)集成到 BiDoRA 中，目標(biāo)是在不犧牲甚至提升性能的前提下，大幅降低其訓(xùn)練時(shí)間和計(jì)算成本。同時(shí)，他們目前更多是通過(guò)大量實(shí)驗(yàn)經(jīng)驗(yàn)性地證明了 BiDoRA 在解耦權(quán)重更新上的優(yōu)越性，未來(lái)其希望能夠從數(shù)學(xué)上給出一個(gè)嚴(yán)格的理論分析，從根本上揭示其工作機(jī)理。

第二個(gè)方向也是研究團(tuán)隊(duì)更期待的一個(gè)方向，是將 BiDoRA 更深入、更廣泛地應(yīng)用于生物醫(yī)學(xué)領(lǐng)域。其在當(dāng)前工作中已經(jīng)初步驗(yàn)證了它在小數(shù)據(jù)集上的巨大潛力，這給了他們極大的信心。接下來(lái)，研究團(tuán)隊(duì)計(jì)劃與生物、醫(yī)學(xué)領(lǐng)域的專家進(jìn)行更緊密的合作，將 BiDoRA 作為一個(gè)核心工具，去挑戰(zhàn)一些更復(fù)雜、更前沿的課題。

參考資料：

https://arxiv.org/pdf/2410.09758

排版：劉雅坤

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.