如今,像 GPT 系列這樣的大模型已經(jīng)展現(xiàn)出了驚人的通用能力,但要讓它們?cè)谀硞€(gè)具體領(lǐng)域發(fā)揮最大效力,還需要進(jìn)行“微調(diào)”(Fine-Tuning)。傳統(tǒng)的“完整微調(diào)”方法,需要調(diào)整模型中全部的數(shù)百億甚至千億參數(shù),這不僅需要海量的計(jì)算資源(比如數(shù)十上百塊頂級(jí) GPU),訓(xùn)練時(shí)間也十分漫長(zhǎng)。因此,“參數(shù)高效微調(diào)”(PEFT,Parameter-Efficient Fine-Tuning)技術(shù)應(yīng)運(yùn)而生,它旨在只調(diào)整模型中極小一部分的參數(shù),就能達(dá)到接近甚至超越完整微調(diào)的效果。
在 PEFT 家族中,LoRA 是一個(gè)里程碑式的工作。而研究團(tuán)隊(duì)關(guān)注到,業(yè)內(nèi)最近提出的 DoRA(Weight-Decomposed Low-Rank Adaptation)在 LoRA 的基礎(chǔ)上更進(jìn)了一步。DoRA 的核心思想是,它認(rèn)為模型權(quán)重的更新,可以被分解為“大小”(magnitude)和“方向”(direction)兩個(gè)獨(dú)立維度的變化。這個(gè)洞察非常深刻,因?yàn)樗N近模型在完整微調(diào)時(shí)的真實(shí)動(dòng)態(tài)。通過(guò)這種分解,DoRA 確實(shí)在很多任務(wù)上超越了 LoRA。
然而,在深入研究 DoRA 的過(guò)程中,研究團(tuán)隊(duì)發(fā)現(xiàn)它雖然方向走對(duì)了,但仍然存在一些問題。DoRA 在訓(xùn)練時(shí),是同時(shí)優(yōu)化大小和方向這兩個(gè)部分的,并且用的是同一份訓(xùn)練數(shù)據(jù)。研究團(tuán)隊(duì)認(rèn)為這種“耦合”的優(yōu)化方式會(huì)帶來(lái)兩個(gè)關(guān)鍵問題:第一,它讓模型的能力過(guò)于強(qiáng)大,很容易“死記硬背”訓(xùn)練數(shù)據(jù),導(dǎo)致在面對(duì)新數(shù)據(jù)時(shí)表現(xiàn)不佳,也就是人們常說(shuō)的“過(guò)擬合”。第二,大小和方向的同步更新會(huì)形成一種內(nèi)在的牽制,限制了模型尋找最優(yōu)解的學(xué)習(xí)能力。
所以,研究團(tuán)隊(duì)這次研究的核心目標(biāo)非常明確:保留 DoRA 關(guān)于權(quán)重分解的深刻洞察,但要打破其大小和方向更新過(guò)程中的耦合性。因此,其希望設(shè)計(jì)一種新的訓(xùn)練范式,能夠讓這兩個(gè)組件的優(yōu)化過(guò)程分離開來(lái),從而有效抑制過(guò)擬合,使其性能表現(xiàn)能再上一個(gè)臺(tái)階。
針對(duì)上面提到的問題,研究團(tuán)隊(duì)最終研發(fā)出了一種全新的 PEFT 方法,稱為 BiDoRA(Bi-level Optimization-Based Weight-Decomposed Low-Rank Adaptation)。它的核心是一種基于雙層優(yōu)化(Bi-level Optimization)的訓(xùn)練框架。
(來(lái)源:https://arxiv.org/pdf/2410.09758)
它將原本一體化的訓(xùn)練過(guò)程,巧妙地拆分成了兩個(gè)相互嵌套、異步進(jìn)行的循環(huán)。具體來(lái)說(shuō),研究團(tuán)隊(duì)會(huì)把訓(xùn)練數(shù)據(jù)分成訓(xùn)練集和驗(yàn)證集兩部分。在“內(nèi)層循環(huán)”里,先“凍結(jié)”住權(quán)重的大?。╩agnitude),只用訓(xùn)練集來(lái)學(xué)習(xí)權(quán)重的“方向”(direction)。這一步的目標(biāo)是,在給定大小的情況下,找到最好的方向。接著,在“外層循環(huán)”中,研究團(tuán)隊(duì)利用剛剛在內(nèi)層學(xué)到的最優(yōu)方向,反過(guò)來(lái)在驗(yàn)證集上評(píng)估并更新權(quán)重的大小。這一步的目標(biāo)是,為已經(jīng)找到的最佳方向,匹配一個(gè)最合適的大小。
通過(guò)這種方式,研究團(tuán)隊(duì)成功地在訓(xùn)練動(dòng)態(tài)上將大小和方向的更新過(guò)程解耦,還因此發(fā)現(xiàn)了一些新規(guī)律和新現(xiàn)象:
首先,他們證實(shí)解耦訓(xùn)練能夠顯著提升模型的泛化能力。實(shí)驗(yàn)數(shù)據(jù)顯示,BiDoRA 訓(xùn)練的模型在訓(xùn)練集和測(cè)試集上的表現(xiàn)差距(performance gap)遠(yuǎn)小于 DoRA。同時(shí), 在生物醫(yī)學(xué)領(lǐng)域的極小數(shù)據(jù)集上(訓(xùn)練數(shù)據(jù)小于 1000 個(gè)),BiDoRA 效果提升顯著。在預(yù)測(cè)肽類是否能穿透血腦屏障(BBB,Blood-Brain Barrier)時(shí),BiDoRA 僅使用全量微調(diào) 1/326 的參數(shù),就實(shí)現(xiàn)了顯著更高的 F1 分?jǐn)?shù)(92.0 對(duì) 89.4)。在預(yù)測(cè)蛋白質(zhì)熱穩(wěn)定性時(shí),BiDoRA 使用全量微調(diào) 1/408 的參數(shù),F(xiàn)1 分?jǐn)?shù)幾乎相同(78.2 對(duì) 78.4)。BiDoRA 在多項(xiàng)任務(wù)中持續(xù)優(yōu)于當(dāng)前最先進(jìn)的參數(shù)高效微調(diào)方法,如 LoRA 和 DoRA。
其次,他們還發(fā)現(xiàn)了一個(gè)新規(guī)律。學(xué)界已經(jīng)有研究表明,在理想的完整微調(diào)中,權(quán)重大小和方向的更新存在一種負(fù)相關(guān)的關(guān)系。研究團(tuán)隊(duì)借助“權(quán)重分解分析”這一工具,發(fā)現(xiàn) LoRA 表現(xiàn)為正相關(guān),這解釋了它為什么有時(shí)效果不佳,而 DoRA 改進(jìn)了這一點(diǎn),呈現(xiàn)出-1.784 的負(fù)相關(guān)。而研究團(tuán)隊(duì)的 BiDoRA,得益于徹底的解耦訓(xùn)練,實(shí)現(xiàn)了高達(dá)-8.042 的負(fù)相關(guān)性。這意味著 BiDoRA 的訓(xùn)練動(dòng)態(tài)更接近于完整微調(diào),這為它的優(yōu)異性能提供了強(qiáng)有力的實(shí)驗(yàn)支撐。
在論文的同行評(píng)審階段,研究團(tuán)隊(duì)收到了來(lái)自多位匿名審稿人的專業(yè)且中肯的意見。綜合來(lái)看,審稿人們的贊譽(yù)主要集中在以下幾個(gè)方面:
首先,審稿人普遍認(rèn)為本次課題的研究動(dòng)機(jī)非常清晰且具有說(shuō)服力。研究團(tuán)隊(duì)精準(zhǔn)地指出了現(xiàn)有先進(jìn)方法(DoRA)中存在的“耦合更新”這一核心缺陷,并以此為切入點(diǎn)展開研究,使得整個(gè)工作的邏輯鏈條非常堅(jiān)實(shí)。
其次,審稿人也對(duì)研究團(tuán)隊(duì)提出的 BiDoRA 方法的原創(chuàng)性和新穎性給予了高度評(píng)價(jià)。將雙層優(yōu)化(Bi-level Optimization)這一已在其他領(lǐng)域(如神經(jīng)架構(gòu)搜索)驗(yàn)證的有效思想,創(chuàng)造性地應(yīng)用于 PEFT 領(lǐng)域,并以此來(lái)解決權(quán)重分解中的耦合問題,這被認(rèn)為是一個(gè)非常聰明且有效的嘗試。
再者,審稿人對(duì)研究團(tuán)隊(duì)實(shí)驗(yàn)的全面性和扎實(shí)程度印象深刻。他們不僅在多個(gè)權(quán)威的自然語(yǔ)言理解基準(zhǔn)(如 GLUE)上驗(yàn)證了方法的有效性,還將實(shí)驗(yàn)擴(kuò)展到了自然語(yǔ)言生成、命名實(shí)體識(shí)別,甚至是一些數(shù)據(jù)量極度稀缺的生物醫(yī)學(xué)任務(wù)上。在所有這些場(chǎng)景下,BiDoRA 都展現(xiàn)出了一致的優(yōu)越性。
研究團(tuán)隊(duì)對(duì) BiDoRA 的應(yīng)用前景非常樂觀,尤其是在那些數(shù)據(jù)資源極其寶貴的領(lǐng)域。在未來(lái)的幾年內(nèi),研究團(tuán)隊(duì)認(rèn)為它可以在生物醫(yī)學(xué)領(lǐng)域產(chǎn)生具體的應(yīng)用價(jià)值,這也正是研究團(tuán)隊(duì)在論文中特別進(jìn)行實(shí)驗(yàn)驗(yàn)證的方向。在生物醫(yī)學(xué)研究中,獲取高質(zhì)量、大規(guī)模的標(biāo)注數(shù)據(jù)往往是極其困難和昂貴的。在這樣“極小數(shù)據(jù)集”的場(chǎng)景下,傳統(tǒng)的大模型微調(diào)方法極易發(fā)生嚴(yán)重的過(guò)擬合。而本次方法天生就具有強(qiáng)大的抗過(guò)擬合能力,因?yàn)樗ㄟ^(guò)雙層優(yōu)化的機(jī)制,引入了內(nèi)部的驗(yàn)證與權(quán)衡,迫使模型學(xué)習(xí)更具泛化性的特征。論文中的實(shí)驗(yàn)也清楚地表明,在這些生物醫(yī)學(xué)任務(wù)上,BiDoRA 相比其他方法的優(yōu)勢(shì)甚至比在數(shù)據(jù)充足的自然語(yǔ)言處理任務(wù)上更為明顯。
據(jù)了解,在研究團(tuán)隊(duì)最初設(shè)計(jì)出 BiDoRA 的雙層優(yōu)化框架時(shí),其發(fā)現(xiàn) BiDoRA 雖然比 LoRA 要好,但相比 DoRA 的提升并不像理論分析的那么顯著。研究團(tuán)隊(duì)猜想:會(huì)不會(huì)是因?yàn)樗麄兊碾p層優(yōu)化機(jī)制,將本就不算多的訓(xùn)練數(shù)據(jù)進(jìn)一步分割成了更小的訓(xùn)練集和驗(yàn)證集,導(dǎo)致每個(gè)訓(xùn)練循環(huán)得到的數(shù)據(jù)不夠多?這時(shí),研究團(tuán)隊(duì)立刻聯(lián)想到了在“神經(jīng)架構(gòu)搜索”(NAS,Neural Architecture Search)領(lǐng)域的一個(gè)常用技巧。在 NAS 中,研究者們通常會(huì)先在一個(gè)代理任務(wù)上搜索出最優(yōu)的網(wǎng)絡(luò)架構(gòu),然后會(huì)有一個(gè)“重訓(xùn)練”(Retraining)階段:固定住搜索到的這個(gè)最優(yōu)架構(gòu),再用全部的訓(xùn)練數(shù)據(jù)從頭開始訓(xùn)練這個(gè)架構(gòu)的權(quán)重,以求達(dá)到最佳性能。
研究團(tuán)隊(duì)決定借鑒這個(gè)思想,于是在 BiDoRA 的流程中增加了一個(gè)最終的重訓(xùn)練階段:在雙層優(yōu)化的“搜索階段”結(jié)束后,他們固定住學(xué)到的最優(yōu)的“大小”分量,然后合并原始的訓(xùn)練集和驗(yàn)證集,用這完整的數(shù)據(jù)集,對(duì)“方向”分量進(jìn)行一次充分的訓(xùn)練。當(dāng)再次進(jìn)行加上了重訓(xùn)練步驟的實(shí)驗(yàn)后,結(jié)果表明,BiDoRA 的性能在幾乎所有任務(wù)上都獲得了顯著且一致的提升,完全超越了 DoRA,展現(xiàn)出了研究團(tuán)隊(duì)理論預(yù)期的強(qiáng)大實(shí)力。
在后續(xù)研究計(jì)劃上:
研究團(tuán)隊(duì)的第一個(gè)方向是計(jì)劃進(jìn)一步提升 BiDoRA 的訓(xùn)練效率和理論完備性。正如其在論文的“未來(lái)工作”部分提到的,BiDoRA 雖然效果好,但它的雙層優(yōu)化機(jī)制引入了額外的計(jì)算開銷,特別是在計(jì)算“超梯度”(hyper-gradient)時(shí)。目前,研究團(tuán)隊(duì)的實(shí)現(xiàn)方式是相對(duì)基礎(chǔ)的,但學(xué)界已經(jīng)涌現(xiàn)出一些更先進(jìn)、更高效的超梯度估計(jì)算法,比如 SAMA、MixFlow-MG 等。因此,研究團(tuán)隊(duì)的下一步計(jì)劃是,將這些前沿的優(yōu)化技術(shù)集成到 BiDoRA 中,目標(biāo)是在不犧牲甚至提升性能的前提下,大幅降低其訓(xùn)練時(shí)間和計(jì)算成本。同時(shí),他們目前更多是通過(guò)大量實(shí)驗(yàn)經(jīng)驗(yàn)性地證明了 BiDoRA 在解耦權(quán)重更新上的優(yōu)越性,未來(lái)其希望能夠從數(shù)學(xué)上給出一個(gè)嚴(yán)格的理論分析,從根本上揭示其工作機(jī)理。
第二個(gè)方向也是研究團(tuán)隊(duì)更期待的一個(gè)方向,是將 BiDoRA 更深入、更廣泛地應(yīng)用于生物醫(yī)學(xué)領(lǐng)域。其在當(dāng)前工作中已經(jīng)初步驗(yàn)證了它在小數(shù)據(jù)集上的巨大潛力,這給了他們極大的信心。接下來(lái),研究團(tuán)隊(duì)計(jì)劃與生物、醫(yī)學(xué)領(lǐng)域的專家進(jìn)行更緊密的合作,將 BiDoRA 作為一個(gè)核心工具,去挑戰(zhàn)一些更復(fù)雜、更前沿的課題。
參考資料:
https://arxiv.org/pdf/2410.09758
排版:劉雅坤
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.