時令 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
Token危機真的要解除了嗎?
最新研究發(fā)現(xiàn),在token數(shù)量受限的情況下,擴散語言模型的數(shù)據(jù)潛力可達自回歸模型的三倍多。
不僅如此,一個參數(shù)規(guī)模為1B的擴散模型,用1B tokens進行480個周期的訓練,就在HellaSwag和MMLU基準上分別取得56%和33%的準確率,且未使用任何技巧或數(shù)據(jù)篩選。
更令人驚訝的是,即使是在如此極端的重復下,模型都未出現(xiàn)性能飽和,這表明此模型甚至還可以從這1B數(shù)據(jù)中挖掘出更多有用信息。
論文一作Jinjie Ni在x上詳細介紹了其團隊的研究結(jié)論和方法。
下面讓我們詳細了解更多細節(jié)。
擴散語言模型是超強的數(shù)據(jù)學習者
擴散語言模型之所以具備超強的數(shù)據(jù)學習能力,主要有兩個原因:
1)擴散目標和雙向注意力機制使其能夠進行雙向建模,更充分地挖掘網(wǎng)絡數(shù)據(jù)中的信息,,而這些數(shù)據(jù)并非完全因果關系。
簡單來說,傳統(tǒng)自回歸語言模型只能從前向上下文預測,存在嚴格的因果限制,這限制了模型對語言和其他非因果數(shù)據(jù)(如代碼、生物序列等)中復雜模式的捕捉能力。
擴散語言模型通過支持雙向建模,打破了這種因果限制,更全面地利用數(shù)據(jù),從而提升了學習效果。
2)其計算密度極高。擴散模型在訓練和推理過程中投入了更多計算資源(FLOPs),通過多次處理數(shù)據(jù)和迭代優(yōu)化預測,提高了計算密度和模型性能。
相比之下,自回歸模型優(yōu)先考慮計算效率,而非數(shù)據(jù)潛力。它們的transformer設計采用了教師強制(teacher forcing)和因果掩碼(causal masking),雖然能最大化GPU的利用率,但也限制了模型的建模能力。
隨著計算成本下降,數(shù)據(jù)的可獲得性成為關鍵瓶頸——這正是研究團隊開展DLMs研究的出發(fā)點。
此外,擴散目標明確要求在預訓練時,對每個數(shù)據(jù)點進行多種掩碼比例和組合的擾動,以便更有效地訓練并獲得更準確的期望估計,這也解釋了為什么多次重復使用數(shù)據(jù)能帶來顯著的提升。
盡管擴散語言模型對數(shù)據(jù)重復具有一定的魯棒性,但當訓練足夠多的周期后,它們也會出現(xiàn)過擬合現(xiàn)象。
具體來說,研究團隊觀察到模型開始過擬合的訓練周期數(shù)與獨特數(shù)據(jù)量呈正相關,與模型規(guī)模呈負相關。
換句話說,獨特數(shù)據(jù)量越大,過擬合出現(xiàn)得越晚;而模型規(guī)模越大,過擬合則越早發(fā)生。
除了得出上述結(jié)論,研究者還發(fā)現(xiàn)當模型在預訓練驗證集上“過擬合”時,它們在下游任務中的性能不一定會下降,反而可能會一直上升,直到訓練結(jié)束。
出現(xiàn)這種現(xiàn)象的原因在于,驗證損失是是以絕對的交叉熵損失(負對數(shù)似然,NLL)來衡量的,而下游任務的準確率基于比較不同選項的相對交叉熵損失。
因此,絕對NLL值的變化并不一定轉(zhuǎn)化為其相對順序的變化。
上圖中,研究者還展示了在64個訓練周期內(nèi),一個參數(shù)規(guī)模為1B的自回歸模型在使用1.5B tokens進行訓練時,其多選評測中真實答案與其他選項的平均負對數(shù)似然(NLL)、以及它們之間差值(△NLL)的變化情況。
值得注意的是,即使在第一個驗證檢查點(訓練3600步后),模型對真實答案的NLL值已經(jīng)顯著較低(即概率較高),這表明模型早期就具備優(yōu)先為正確選項分配更高logits的能力。
然而,隨著訓練的繼續(xù),模型開始出現(xiàn)過擬合,導致真實答案和錯誤選項的NLL值均有所上升。
但有趣的是,即便出現(xiàn)了“過擬合”,真實答案與其他選項之間的NLL差距依然持續(xù)擴大,表明模型的判別能力在驗證損失上升的情況下仍在不斷提升。
一個合理的解釋是,模型反復接觸有限的訓練數(shù)據(jù)后,可能會對某些文本片段過于自信,從而放大了錯誤預測的NLL值。
然而,真實答案與其他選項之間的相對NLL差距不斷拉大,表明模型的判別能力仍在持續(xù)提升。
類似的道理也適用于生成式評估(即在單個token級別進行選擇)。因此,研究者推測,模型對非關鍵token的錯誤過度自信,對整體任務性能影響有限。
之后,團隊將在研究中使用更大模型和更多獨特數(shù)據(jù),進一步驗證這一假設。
作者介紹
Jinjie Ni,本科畢業(yè)于西北工業(yè)大學電氣工程專業(yè),博士畢業(yè)于新加坡南洋理工大學計算機科學專業(yè)。
曾于2019年任哈佛大學應用計算科學研究所助理,2022年任阿里巴巴達摩院研究實習生?,F(xiàn)任新加坡國立大學SEA AI研究員,與Michael Shieh教授一起工作。
Michael Shieh(謝其哲),本科就讀于上海交通大學ACM班,碩士和博士均畢業(yè)于卡內(nèi)基梅隆大學。
現(xiàn)任新加坡國立大學計算機科學系助理教授,他曾在谷歌DeepMind與Quoc Le和Thang Luong合作過兩年。
參考鏈接:
[1]https://jinjieni.notion.site/Diffusion-Language-Models-are-Super-Data-Learners-239d8f03a866800ab196e49928c019ac
[2]https://threadreaderapp.com/thread/1954177095435014533.html?utm_source=chatgpt.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.