在大模型微調(diào)實(shí)踐中,SFT(監(jiān)督微調(diào))幾乎成為主流流程的一部分,被廣泛應(yīng)用于各類下游任務(wù)和專用場(chǎng)景。比如,在醫(yī)療領(lǐng)域,研究人員往往會(huì)用領(lǐng)域?qū)贁?shù)據(jù)對(duì)大模型進(jìn)行微調(diào),從而顯著提升模型在該領(lǐng)域特定任務(wù)上的表現(xiàn)。
然而,問(wèn)題隨之而來(lái):SFT 是否會(huì)讓模型 “遺忘” 原本的通用能力?過(guò)去的研究中,不少文獻(xiàn)指出,領(lǐng)域微調(diào)固然能帶來(lái)專用性能的提升,但代價(jià)是模型在數(shù)學(xué)推理、代碼生成、指令跟隨等通用 benchmark 上出現(xiàn)顯著退化。這種現(xiàn)象被廣泛稱為 “災(zāi)難性遺忘”。然而,這一長(zhǎng)期流傳的看法或許值得重新審視。
來(lái)自 UIUC、Amazon、UT Austin 以及 University at Buffalo 的研究團(tuán)隊(duì)最新發(fā)布的一項(xiàng)工作就給出了不同的答案。研究表明,領(lǐng)域特定的 SFT 并不總是會(huì)嚴(yán)重削弱模型的通用能力。相反,在訓(xùn)練中采用更小的學(xué)習(xí)率,模型就可能在兩方面取得平衡:
- 在通用任務(wù)上的能力遺忘被大幅緩解;
- 在目標(biāo)領(lǐng)域上的表現(xiàn)依然與大學(xué)習(xí)率相當(dāng)。
換句話說(shuō),遺忘問(wèn)題可能更多源于訓(xùn)練策略的選擇,而不是單單 SFT 這一范式本身。
- 論文標(biāo)題:SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs
- 論文地址:https://arxiv.org/pdf/2509.20758
一句話概括:稍微更小的學(xué)習(xí)率能大幅度緩解遺忘,TALR 則是進(jìn)一步平衡的利器。
實(shí)驗(yàn)細(xì)節(jié):重新審視學(xué)習(xí)率對(duì) SFT 帶來(lái)的影響
實(shí)驗(yàn)設(shè)置
任務(wù)與數(shù)據(jù)。 領(lǐng)域側(cè)選擇兩個(gè)現(xiàn)實(shí)強(qiáng)相關(guān)的場(chǎng)景和領(lǐng)域?qū)贁?shù)據(jù)集:MedCalc 和 ESCI。選擇這兩個(gè)數(shù)據(jù)集的原因在于它們代表了開(kāi)源 LLM 在現(xiàn)實(shí)應(yīng)用中表現(xiàn)最薄弱的場(chǎng)景,因此也是最有必要做 domain-specific SFT 的場(chǎng)合。
- MedCalc(醫(yī)療推理):10.1k 訓(xùn)練 / 1.05k 測(cè)試,每條樣本含患者筆記與臨床指令;SFT 學(xué)習(xí)的目標(biāo)為 “推理過(guò)程(CoT)+ 最終答案”。指標(biāo)用 Accuracy。
- ESCI(電商商品多分類問(wèn)題):49k 訓(xùn)練 / 10k 測(cè)試,四類標(biāo)簽(Exact/Substitute/Complement/Irrelevant)。設(shè)置分 w/ CoT(推理 + 標(biāo)簽)與 w/o CoT(僅標(biāo)簽)兩種;主指標(biāo)用 Balanced Accuracy (BACC) 以應(yīng)對(duì)類別不均衡。
模型與評(píng)測(cè)
選取多種規(guī)模 / 家族的開(kāi)源 LLM 做實(shí)驗(yàn):Qwen3-8B、Qwen2.5-7B、Qwen2.5-3B、Qwen3-4B、Gemma3-4B、Gemma3-1B 的 Instruct 模型。統(tǒng)一采用監(jiān)督微調(diào)(SFT),核心控制變量是學(xué)習(xí)率(lr),取 1e-6 / 5e-6 / 2e-5 三檔,其他訓(xùn)練超參遵循常規(guī) SFT 實(shí)踐。
SFT 完成后,在不同 lr 下先以目標(biāo)領(lǐng)域指標(biāo)挑選最佳 checkpoint,再用IFEval(指令跟隨)/ GSM8K(數(shù)學(xué))/ HumanEval(代碼)進(jìn)行 “通用能力” 評(píng)測(cè),報(bào)告三者的均值作為總分(General performance)。這一流程貼近 “實(shí)際落地優(yōu)先領(lǐng)域效果、隨后回看通用能力” 的場(chǎng)景。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果如圖所示。每個(gè)點(diǎn)表示某一 lr 下的(Domain performance,General performance)二元坐標(biāo);灰色 “Init” 星形代表微調(diào)前的模型性能。
研究發(fā)現(xiàn)一:更小的學(xué)習(xí)率帶來(lái)更優(yōu)折中
在 MedCalc 和 ESCI 上,使用更小的學(xué)習(xí)率(如 1e-6)時(shí),模型能同時(shí)保持目標(biāo)領(lǐng)域的強(qiáng)性能,并顯著減輕通用能力的下降。換句話說(shuō),災(zāi)難性遺忘可以通過(guò)學(xué)習(xí)率控制來(lái)大幅度緩解。
研究發(fā)現(xiàn)二:對(duì)于分類問(wèn)題,僅分類標(biāo)簽監(jiān)督放寬了學(xué)習(xí)率約束
當(dāng)訓(xùn)練目標(biāo)只包含最終標(biāo)簽(不需要中間推理鏈)時(shí),實(shí)現(xiàn)理想折中的學(xué)習(xí)率范圍會(huì)更寬。在 ESCI (w/o CoT) 的設(shè)定下,學(xué)習(xí)率 5e-6 甚至能表現(xiàn)得和 1e-6 一樣好,這與其他情況形成鮮明對(duì)比。
作者進(jìn)一步在大規(guī)模數(shù)據(jù)集 MetaMathQA 上進(jìn)行實(shí)驗(yàn)。MetaMathQA 是一個(gè)大規(guī)模數(shù)學(xué)推理數(shù)據(jù)集,包含395k 條訓(xùn)練樣本。實(shí)驗(yàn)采用DeepSeek-Coder-7B作為基礎(chǔ)模型。這一模型在數(shù)學(xué)推理任務(wù)上原本表現(xiàn)相對(duì)薄弱,因此是一個(gè)理想的測(cè)試對(duì)象。
在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)使用 MetaMathQA 進(jìn)行監(jiān)督微調(diào),并將 GSM8K 作為目標(biāo)領(lǐng)域的評(píng)測(cè)基準(zhǔn)。結(jié)果顯示,即便在如此大規(guī)模的數(shù)據(jù)條件下,結(jié)論依然保持一致:更小的學(xué)習(xí)率(在這里 5e-6) 能夠在保持?jǐn)?shù)學(xué)領(lǐng)域性能的同時(shí)(相比于大學(xué)習(xí)率 2e-5),顯著緩解模型在原來(lái)擅長(zhǎng)的 Coding 能力的退化。換句話說(shuō),論文中提出的發(fā)現(xiàn)是同樣適用于大規(guī)模任務(wù)與模型的普適規(guī)律。
注:這里的學(xué)習(xí)率大小都是相對(duì)的,不同 task 的能夠達(dá)到最佳平衡的學(xué)習(xí)率也不同,比如 MedCalc 和 ESCI 是 1e-6,而 MetaMathQA 是 5e-6。在對(duì)應(yīng)的數(shù)據(jù)集和最佳學(xué)習(xí)率下,它們都會(huì)盡可能抑制通用能力的遺忘,并且取得和更大學(xué)習(xí)率相匹敵的下游性能。
理論分析
為了更好地解釋這些現(xiàn)象,作者團(tuán)隊(duì)進(jìn)一步從理論分析的角度尋找了支撐性的 insight。
他們首先得到了一個(gè)關(guān)鍵結(jié)論:較小的學(xué)習(xí)率能夠嚴(yán)格收緊通用性能下降的上界。換句話說(shuō),使用更小的分布更新步長(zhǎng)意味著模型在提升目標(biāo)領(lǐng)域表現(xiàn)的同時(shí),更有保障地保留住已有的通用能力。這正好與實(shí)驗(yàn)中的 Finding 1 相呼應(yīng)。
緊接著,團(tuán)隊(duì)又給出另一條理論解釋:當(dāng)訓(xùn)練目標(biāo)只包含最終標(biāo)簽時(shí),模型在每個(gè)樣本中遇到的 “難 token” 數(shù)量減少,從而拓寬了可接受的學(xué)習(xí)率范圍。這也就解釋了實(shí)驗(yàn)中 ESCI (w/o CoT) 的現(xiàn)象 —— 為什么在沒(méi)有推理鏈的情況下,較大的學(xué)習(xí)率(5e-6) 依然能夠保持良好的折中效果。這對(duì)應(yīng)著實(shí)驗(yàn)中的 Finding 2。
小結(jié)與反思
論文在實(shí)證和理論分析的基礎(chǔ)上指出,小學(xué)習(xí)率雖然能顯著減輕通用能力的下降,但并不能完全消除這一問(wèn)題。在某些場(chǎng)景下,即便采用了更小的學(xué)習(xí)率,仍然會(huì)觀察到一定程度的通用能力的性能退化。同時(shí),較小的學(xué)習(xí)率雖然在大多數(shù)情況下領(lǐng)域性能與較大學(xué)習(xí)率相差無(wú)幾,但在某些任務(wù)里差距依然不可忽視。這意味著,如果應(yīng)用場(chǎng)景里必須優(yōu)先保證目標(biāo)領(lǐng)域的最高性能,研究者仍然可能選擇使用較大的學(xué)習(xí)率。但隨之而來(lái)的問(wèn)題是:更大的學(xué)習(xí)率幾乎必然帶來(lái)更嚴(yán)重的通用性能下降。因此,開(kāi)發(fā)額外的緩解策略,尤其是在大學(xué)習(xí)率條件下抑制遺忘,顯得同樣重要。
為此,作者團(tuán)隊(duì)深入探索更佳的策略。從理論分析進(jìn)一步得到啟發(fā),作者發(fā)現(xiàn)導(dǎo)致遺忘的關(guān)鍵因素之一是hard tokens(低概率 tokens)—— 它們?cè)谟?xùn)練中的更新幅度往往遠(yuǎn)大于 easy token,從而對(duì)通用能力退化有較大影響。這一觀察自然引出了新的思路:可以設(shè)計(jì) “token 自適應(yīng)的 reweighting 策略”,在訓(xùn)練時(shí)直接降低 hard token 的損失權(quán)重,從而抑制它們對(duì)通用能力的過(guò)度侵蝕。
Token 自適應(yīng) Loss 重加權(quán) (TALR)
方法細(xì)節(jié)
前面的理論分析已經(jīng)指出,災(zāi)難性遺忘的一個(gè)重要來(lái)源在于hard token(低概率 token)。一個(gè)自然的思路是:在訓(xùn)練時(shí)降低這些 hard token 的權(quán)重。但問(wèn)題在于,如何自動(dòng)識(shí)別 hard token,并動(dòng)態(tài)決定它們應(yīng)該被削弱多少? 如果僅僅依賴固定閾值或手工設(shè)定參數(shù),不僅缺乏普適性,也難以適配不同模型與任務(wù)。
為了解決這個(gè)問(wèn)題,作者團(tuán)隊(duì)提出了TALR(Token-Adaptive Loss Reweighting),即通過(guò)建立一個(gè)約束優(yōu)化問(wèn)題進(jìn)行求解來(lái)獲得自適應(yīng)的權(quán)重。其核心思想是:根據(jù)每個(gè) token 的預(yù)測(cè)概率,自適應(yīng)地分配權(quán)重;置信度低(概率?。┑?token → 權(quán)重更小,從而削弱這些 hard token 在訓(xùn)練中的過(guò)度梯度貢獻(xiàn)。
這種方法通過(guò)建立約束優(yōu)化問(wèn)題實(shí)現(xiàn),可以得到解析解,訓(xùn)練時(shí)在每個(gè) batch 都會(huì)動(dòng)態(tài)更新權(quán)重,始終與模型的置信度保持一致。
其中,τ 的選取也是自適應(yīng)的,由在每個(gè) batch 中依據(jù)序列平均損失的中位數(shù)動(dòng)態(tài)確定。作者指出,這樣的自適應(yīng) τ 的選取可以取得一致比較好的結(jié)果。若固定溫度系數(shù) τ 比如 τ=1,則模型會(huì)無(wú)法學(xué)習(xí)領(lǐng)域的知識(shí)進(jìn)而在 domain performance 上表現(xiàn)很差。基于此,整體的算法流程如下:
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在MedCalc 基準(zhǔn)上,系統(tǒng)比較了多種具有代表性的災(zāi)難性遺忘緩解策略,包括L2 正則化、LoRA、Wise-FT(模型平均)、FLOW,以及他們新提出的TALR方法。實(shí)驗(yàn)在兩種學(xué)習(xí)率設(shè)定下展開(kāi):較小學(xué)習(xí)率 (1e-6) 和 較大學(xué)習(xí)率 (5e-6)
小學(xué)習(xí)率 (1e-6).結(jié)果顯示,大多數(shù)方法在這一設(shè)定下表現(xiàn)接近,幾乎都聚集在圖像右上區(qū)域。這說(shuō)明單純降低學(xué)習(xí)率本身,已經(jīng)能夠在保持領(lǐng)域性能的同時(shí),有效緩解通用能力退化。在小學(xué)率下,TALR 與其他方法相比差距不大,但依然展現(xiàn)出更穩(wěn)定、更平滑的折中表現(xiàn)。
大學(xué)習(xí)率 (5e-6).當(dāng)學(xué)習(xí)率升高時(shí),通用性能下降的幅度明顯加劇,幾乎所有方法的點(diǎn)位整體下移。在這種更具挑戰(zhàn)性的情況下,TALR 的優(yōu)勢(shì)逐漸凸顯:無(wú)論在 Qwen2.5-3B 還是 Qwen3-4B 模型上,TALR 都能夠?qū)崿F(xiàn)更優(yōu)的 Pareto 前沿位置,在保持領(lǐng)域增益的同時(shí),顯著減少通用性能的損失。
小結(jié):整體來(lái)看,當(dāng)條件允許時(shí),小學(xué)習(xí)率本身已能帶來(lái)可靠的折中效果;但在必須依賴較大學(xué)習(xí)率以進(jìn)一步提升領(lǐng)域性能時(shí),TALR 展現(xiàn)出顯著優(yōu)勢(shì)。然而,現(xiàn)有方法仍無(wú)法徹底消除高學(xué)習(xí)率帶來(lái)的性能退化,這一現(xiàn)象也揭示出未來(lái)研究的重要方向 —— 如何探索更強(qiáng)大的緩解策略,以在大學(xué)習(xí)率下兼顧領(lǐng)域能力和通用性能。
Token 層面的深入分析
作者進(jìn)一步從 token-level 對(duì) SFT 進(jìn)行分析,首先是計(jì)算 model 對(duì)每個(gè)訓(xùn)練的 token 的置信度(概率),計(jì)算如下。
多數(shù) token 容易,少數(shù) “難點(diǎn)” 成瓶頸
在更細(xì)粒度的 token 層面,研究團(tuán)隊(duì)進(jìn)一步揭示了 SFT 過(guò)程中隱藏的現(xiàn)象。結(jié)果顯示,對(duì)于一個(gè)只能取得不到 10% 準(zhǔn)確率的模型,大多數(shù)訓(xùn)練數(shù)據(jù)中的 token 對(duì)模型來(lái)說(shuō)學(xué)習(xí)難度并不大。換句話說(shuō),模型往往能夠以較高置信度預(yù)測(cè)這些 token,尤其是在推理鏈條的中后段,一旦上下文信息積累到位,LLM 很容易繼續(xù)生成后續(xù) token。
相比較而言,性能非常差的歸因于一小部分 “hard tokens”—— 即模型在預(yù)測(cè)時(shí)置信度較低的 token。這類 token 通常出現(xiàn)在序列的早期位置,或是與特定領(lǐng)域的專業(yè)概念相關(guān)。例如,在 MedCalc 數(shù)據(jù)集中,涉及臨床單位換算的 token 往往被模型賦予較低概率,這可能是因?yàn)橄嚓P(guān)知識(shí)在預(yù)訓(xùn)練數(shù)據(jù)中覆蓋不足。這些 “hard tokens” 數(shù)量稀少,但卻可能成為決定性能的關(guān)鍵瓶頸。
統(tǒng)計(jì)分析進(jìn)一步驗(yàn)證了這一趨勢(shì):從箱線圖中,對(duì)于跨多個(gè)模型變體的實(shí)驗(yàn),大部分 token 的概率分布上四分位接近 1,說(shuō)明模型對(duì)大多數(shù) token 的學(xué)習(xí)信心都很高。但與此同時(shí),模型在 MedCalc 這類專用任務(wù)上的零樣本表現(xiàn)依舊偏低,凸顯了少數(shù)高難度 token 的重要性。
TALR 的訓(xùn)練動(dòng)態(tài):隱含 “課程式” 學(xué)習(xí)
更有趣的是,研究人員發(fā)現(xiàn) TALR 在訓(xùn)練中自發(fā)呈現(xiàn)出一種類似 “課程學(xué)習(xí)(curriculum learning)” 的機(jī)制。具體來(lái)說(shuō),TALR 會(huì)減輕置信度過(guò)低 token 的梯度更新幅度,優(yōu)先讓模型通過(guò)置信度較高的 token 來(lái)驅(qū)動(dòng)優(yōu)化。隨著訓(xùn)練逐步推進(jìn),越來(lái)越多之前被視為 “難點(diǎn)” 的 token 被納入大幅度更新范圍,訓(xùn)練過(guò)程由 “易” 到 “難”,自然形成了一種動(dòng)態(tài)的學(xué)習(xí)路徑。這一發(fā)現(xiàn)表明,TALR 不僅能在整體上緩解遺忘,還能在細(xì)節(jié)上為模型學(xué)習(xí)構(gòu)建更合理的節(jié)奏,使其逐步掌握領(lǐng)域內(nèi)的關(guān)鍵知識(shí)點(diǎn)。
結(jié)論與展望
自從 DeepSeek-R1 火了之后,業(yè)界普遍興起了一股 “RL can solve everything” 的浪潮,很多人認(rèn)為強(qiáng)化學(xué)習(xí)才是大模型能力提升的終極解法,而 SFT(監(jiān)督微調(diào))則顯得不那么重要,甚至逐漸被忽視。事實(shí)上,這種看法忽略了一個(gè)根基性的事實(shí):RL 的百花齊放,本質(zhì)上是建立在高質(zhì)量 SFT 打下的堅(jiān)實(shí)基礎(chǔ)之上的。沒(méi)有強(qiáng)大的 SFT,RL 很難發(fā)揮出現(xiàn)在這樣的效果。換句話說(shuō),SFT 依然是一切的基石。
在這項(xiàng)研究中,UIUC 和 Amazon 團(tuán)隊(duì)提供了實(shí)證和理論的雙重證據(jù),挑戰(zhàn)了 “領(lǐng)域 SFT 會(huì)顯著損害通用能力” 的普遍認(rèn)知。通過(guò)系統(tǒng)化實(shí)驗(yàn),他們發(fā)現(xiàn):更小的學(xué)習(xí)率能夠帶來(lái)更優(yōu)的性能折中,既能保持通用能力,又能提升目標(biāo)領(lǐng)域表現(xiàn)。在此基礎(chǔ)上,團(tuán)隊(duì)還提出了 TALR(Token-Adaptive Loss Reweighting),進(jìn)一步緩解了災(zāi)難性遺忘問(wèn)題。
展望未來(lái),研究人員也指出,沒(méi)有單一方法可以徹底解決 SFT 的遺忘問(wèn)題。小學(xué)習(xí)率與 TALR 是有效的第一步,但更廣泛的數(shù)據(jù)集、更大規(guī)模模型(如 MoE 架構(gòu))、以及更系統(tǒng)的理論指導(dǎo),都有待深入探索。
同時(shí),這項(xiàng)工作也為更好的領(lǐng)域適配提供了重要啟發(fā)。例如在醫(yī)學(xué)場(chǎng)景中,很多專門化的醫(yī)療 LLM 反而不如基礎(chǔ)模型,這意味著如何在注入領(lǐng)域知識(shí)的同時(shí)保留基礎(chǔ)模型的通用能力,是未來(lái)值得關(guān)注的關(guān)鍵方向。
此外,論文還提醒業(yè)界:SFT 在 RL 之前的 “預(yù)熱” 階段同樣至關(guān)重要。如果過(guò)度 SFT,模型可能會(huì)過(guò)早穩(wěn)定化,削弱探索能力,從而影響后續(xù) RL 的效果。因此,如何在保持多樣性的同時(shí)抑制遺忘,將是下一階段值得深入研究的重要課題。
總的來(lái)說(shuō),這項(xiàng)研究不僅重申了 SFT 的價(jià)值,也為大模型未來(lái)的微調(diào)與適配提供了新的思路:RL 可能是顯學(xué),錦上添花;但 SFT 仍然是地基,沒(méi)有它就難以穩(wěn)如磐石。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.