夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

華人團隊終結(jié)Token危機:擴散模型數(shù)據(jù)潛力超自回歸三倍

0
分享至

時令 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

Token危機真的要解除了嗎?

最新研究發(fā)現(xiàn),在token數(shù)量受限的情況下,擴散語言模型的數(shù)據(jù)潛力可達自回歸模型的三倍多。



不僅如此,一個參數(shù)規(guī)模為1B的擴散模型,用1B tokens進行480個周期的訓練,就在HellaSwag和MMLU基準上分別取得56%和33%的準確率,且未使用任何技巧或數(shù)據(jù)篩選。



更令人驚訝的是,即使是在如此極端的重復下,模型都未出現(xiàn)性能飽和,這表明此模型甚至還可以從這1B數(shù)據(jù)中挖掘出更多有用信息。

論文一作Jinjie Ni在x上詳細介紹了其團隊的研究結(jié)論和方法。



下面讓我們詳細了解更多細節(jié)。

擴散語言模型是超強的數(shù)據(jù)學習者

擴散語言模型之所以具備超強的數(shù)據(jù)學習能力,主要有兩個原因:

1)擴散目標和雙向注意力機制使其能夠進行雙向建模,更充分地挖掘網(wǎng)絡數(shù)據(jù)中的信息,,而這些數(shù)據(jù)并非完全因果關系。

簡單來說,傳統(tǒng)自回歸語言模型只能從前向上下文預測,存在嚴格的因果限制,這限制了模型對語言和其他非因果數(shù)據(jù)(如代碼、生物序列等)中復雜模式的捕捉能力。

擴散語言模型通過支持雙向建模,打破了這種因果限制,更全面地利用數(shù)據(jù),從而提升了學習效果。



2)其計算密度極高。擴散模型在訓練和推理過程中投入了更多計算資源(FLOPs),通過多次處理數(shù)據(jù)和迭代優(yōu)化預測,提高了計算密度和模型性能。



相比之下,自回歸模型優(yōu)先考慮計算效率,而非數(shù)據(jù)潛力。它們的transformer設計采用了教師強制(teacher forcing)和因果掩碼(causal masking),雖然能最大化GPU的利用率,但也限制了模型的建模能力。

隨著計算成本下降,數(shù)據(jù)的可獲得性成為關鍵瓶頸——這正是研究團隊開展DLMs研究的出發(fā)點。

此外,擴散目標明確要求在預訓練時,對每個數(shù)據(jù)點進行多種掩碼比例和組合的擾動,以便更有效地訓練并獲得更準確的期望估計,這也解釋了為什么多次重復使用數(shù)據(jù)能帶來顯著的提升。



盡管擴散語言模型對數(shù)據(jù)重復具有一定的魯棒性,但當訓練足夠多的周期后,它們也會出現(xiàn)過擬合現(xiàn)象。



具體來說,研究團隊觀察到模型開始過擬合的訓練周期數(shù)與獨特數(shù)據(jù)量呈正相關,與模型規(guī)模呈負相關。

換句話說,獨特數(shù)據(jù)量越大,過擬合出現(xiàn)得越晚;而模型規(guī)模越大,過擬合則越早發(fā)生。

除了得出上述結(jié)論,研究者還發(fā)現(xiàn)當模型在預訓練驗證集上“過擬合”時,它們在下游任務中的性能不一定會下降,反而可能會一直上升,直到訓練結(jié)束。



出現(xiàn)這種現(xiàn)象的原因在于,驗證損失是是以絕對的交叉熵損失(負對數(shù)似然,NLL)來衡量的,而下游任務的準確率基于比較不同選項的相對交叉熵損失。

因此,絕對NLL值的變化并不一定轉(zhuǎn)化為其相對順序的變化



上圖中,研究者還展示了在64個訓練周期內(nèi),一個參數(shù)規(guī)模為1B的自回歸模型在使用1.5B tokens進行訓練時,其多選評測中真實答案與其他選項的平均負對數(shù)似然(NLL)、以及它們之間差值(△NLL)的變化情況。

值得注意的是,即使在第一個驗證檢查點(訓練3600步后),模型對真實答案的NLL值已經(jīng)顯著較低(即概率較高),這表明模型早期就具備優(yōu)先為正確選項分配更高logits的能力。

然而,隨著訓練的繼續(xù),模型開始出現(xiàn)過擬合,導致真實答案和錯誤選項的NLL值均有所上升。

但有趣的是,即便出現(xiàn)了“過擬合”,真實答案與其他選項之間的NLL差距依然持續(xù)擴大,表明模型的判別能力在驗證損失上升的情況下仍在不斷提升。

一個合理的解釋是,模型反復接觸有限的訓練數(shù)據(jù)后,可能會對某些文本片段過于自信,從而放大了錯誤預測的NLL值。

然而,真實答案與其他選項之間的相對NLL差距不斷拉大,表明模型的判別能力仍在持續(xù)提升。

類似的道理也適用于生成式評估(即在單個token級別進行選擇)。因此,研究者推測,模型對非關鍵token的錯誤過度自信,對整體任務性能影響有限。

之后,團隊將在研究中使用更大模型和更多獨特數(shù)據(jù),進一步驗證這一假設。

作者介紹



Jinjie Ni,本科畢業(yè)于西北工業(yè)大學電氣工程專業(yè),博士畢業(yè)于新加坡南洋理工大學計算機科學專業(yè)。

曾于2019年任哈佛大學應用計算科學研究所助理,2022年任阿里巴巴達摩院研究實習生?,F(xiàn)任新加坡國立大學SEA AI研究員,與Michael Shieh教授一起工作。



Michael Shieh(謝其哲),本科就讀于上海交通大學ACM班,碩士和博士均畢業(yè)于卡內(nèi)基梅隆大學。

現(xiàn)任新加坡國立大學計算機科學系助理教授,他曾在谷歌DeepMind與Quoc Le和Thang Luong合作過兩年。

參考鏈接:
[1]https://jinjieni.notion.site/Diffusion-Language-Models-are-Super-Data-Learners-239d8f03a866800ab196e49928c019ac
[2]https://threadreaderapp.com/thread/1954177095435014533.html?utm_source=chatgpt.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
溫碧霞老公亞太區(qū)瑞士銀行總裁,很樸素的,跟普通人沒兩樣!

溫碧霞老公亞太區(qū)瑞士銀行總裁,很樸素的,跟普通人沒兩樣!

喜歡歷史的阿繁
2025-08-14 12:37:35
從月銷20.9萬輛到4.5萬輛,某車企無奈承認:已站在生死存亡邊緣

從月銷20.9萬輛到4.5萬輛,某車企無奈承認:已站在生死存亡邊緣

小李車評李建紅
2025-08-14 06:50:47
震驚!佛山第一次被淹得這么嚴重,有市民稱用了5個小時才回到家

震驚!佛山第一次被淹得這么嚴重,有市民稱用了5個小時才回到家

火山詩話
2025-08-15 06:06:06
中方作出決定,不再同捷克總統(tǒng)交往,話音剛落,捷克回應2句話

中方作出決定,不再同捷克總統(tǒng)交往,話音剛落,捷克回應2句話

素年文史
2025-08-15 13:24:36
男子偷韭菜花后續(xù),全家上陣偷嘴臉囂張,牧民發(fā)聲,更多惡行曝光

男子偷韭菜花后續(xù),全家上陣偷嘴臉囂張,牧民發(fā)聲,更多惡行曝光

以茶帶書
2025-08-15 19:52:59
用來兜底的養(yǎng)老金,何時演變成退休老人及子女致富的門道?解密了

用來兜底的養(yǎng)老金,何時演變成退休老人及子女致富的門道?解密了

社保精算師
2025-08-14 19:39:17
攪動中國輿論場的楊蘭蘭案有了官方消息,我們該思考什么

攪動中國輿論場的楊蘭蘭案有了官方消息,我們該思考什么

阿爾法34號
2025-08-16 08:07:57
阿拉斯加峰會以鬧劇收場,沒有停火消息,俄羅斯贏麻了

阿拉斯加峰會以鬧劇收場,沒有?;鹣ⅲ砹_斯贏麻了

山河路口
2025-08-16 13:25:36
“抱歉,我們不敢要你”,211女碩士考編被勸退,網(wǎng)友:自己作的

“抱歉,我們不敢要你”,211女碩士考編被勸退,網(wǎng)友:自己作的

熙熙說教
2025-08-13 19:12:30
馬斯克發(fā)聲:2026年盲人復明,2028年人腦全面聯(lián)網(wǎng),將治愈抑郁癥

馬斯克發(fā)聲:2026年盲人復明,2028年人腦全面聯(lián)網(wǎng),將治愈抑郁癥

影像溫度
2025-08-15 16:39:51
老太當著大狗面怒摔3只小狗,隔天去跳廣場舞忘關門,回到家愣住了

老太當著大狗面怒摔3只小狗,隔天去跳廣場舞忘關門,回到家愣住了

罪案洞察者
2025-08-15 09:30:38
中國男籃下一屆奧運會會出現(xiàn)井噴型人才,姚明紅利慢慢體現(xiàn)!

中國男籃下一屆奧運會會出現(xiàn)井噴型人才,姚明紅利慢慢體現(xiàn)!

越嶺尋蹤
2025-08-15 12:09:42
專家再次預測中國房價走勢,或大概率是正確的,提前做好2個準備

專家再次預測中國房價走勢,或大概率是正確的,提前做好2個準備

山丘樓評
2025-08-15 23:04:31
2002年瘋狗拳在西湖以1敵12,軍方邀請陳鶴皋加入境外作戰(zhàn)特遣隊

2002年瘋狗拳在西湖以1敵12,軍方邀請陳鶴皋加入境外作戰(zhàn)特遣隊

干史人
2025-07-12 21:45:03
第一次見車評人這么罵一輛車,一點也不避諱,明顯就是沒充值到位

第一次見車評人這么罵一輛車,一點也不避諱,明顯就是沒充值到位

星河也燦爛
2025-08-15 20:40:48
“不穿文胸怎么了?”夜跑不穿內(nèi)衣的妻子引發(fā)沖突,造成悲劇!

“不穿文胸怎么了?”夜跑不穿內(nèi)衣的妻子引發(fā)沖突,造成悲??!

馬拉松跑步健身
2025-08-13 19:41:11
韓國雙胞胎姐妹,一個嫁到中國一個嫁到日本,5年后生活相差很大

韓國雙胞胎姐妹,一個嫁到中國一個嫁到日本,5年后生活相差很大

白云故事
2025-08-12 10:50:04
二手房業(yè)主瑟瑟發(fā)抖,成交價跌回八年前,賣房變成全自動破產(chǎn)機

二手房業(yè)主瑟瑟發(fā)抖,成交價跌回八年前,賣房變成全自動破產(chǎn)機

科普啟示錄小強哥
2025-08-16 12:00:15
微信正式更新,發(fā)布 5 個新功能

微信正式更新,發(fā)布 5 個新功能

全是技能
2025-08-16 13:04:54
富人圈子的秘辛:這10大明規(guī)則、10大潛規(guī)則,才是致富的核心

富人圈子的秘辛:這10大明規(guī)則、10大潛規(guī)則,才是致富的核心

第一桶金學派
2025-08-12 18:59:58
2025-08-16 15:16:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11112文章數(shù) 176226關注度
往期回顧 全部

科技要聞

宇樹春晚同款機器人雙金 "全自主"天工摘銀

頭條要聞

外媒:普京在美國受到隆重接待 澤連斯基非常緊張

頭條要聞

外媒:普京在美國受到隆重接待 澤連斯基非常緊張

體育要聞

安菲爾德6萬人高呼若塔 薩拉赫落淚

娛樂要聞

趙露思風波更多人下場?三位明星被波及?

財經(jīng)要聞

00后股民入市:行情熱起來 到處都是機會

汽車要聞

限666臺 吉利熊貓卡丁豬豬俠限定版快樂專享價4.69萬元

態(tài)度原創(chuàng)

時尚
房產(chǎn)
家居
公開課
軍事航空

內(nèi)娛有自己的肯豆,她的度假日記好對味

房產(chǎn)要聞

容積率僅2.2!荔灣中山八地鐵站旁宅地上新!

家居要聞

肌理材料 打造侘寂風格

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:已與普京就結(jié)束俄烏沖突方式基本達成共識

無障礙瀏覽 進入關懷版 蜜臀av在线播放| 亚洲欧美国产三级久久| avtt天堂资源网| 肏外国老屄视频| 一区二区三区在线无码| www.998re| 亚洲综合av免费观看| 被两个两个黑人吃奶4p| 十八禁午夜福利免费网站| 一本大道一卡二卡| 国产稚嫩高中生呻吟激情在线视频| 黑人尤物在线| 成人亚洲精品久久久久| 男人狂桶女人出白浆免费视频| 婷婷久久婷婷| 成人无码AV片AV片AV无码| 六月婷亚洲男人的天堂| 色窝窝无码一区二区三区色欲| 中年熟女高潮1000例| 国产精品一二三入口播放| 午夜激情综合网| 亚洲一级无码片一区二区三区| 999国产精品999久久久久久 | 久久精品www人人爽人人| 国产成人午夜精品影院| 18禁超污无遮挡无码免费动态图| 色婷婷国产精品秘?免| 在线成人少妇av| 国产精品中文字幕av| 亚洲色图国产精品| 无码视频精品合集| 欲色欲色天天天www| 精品国产乱码久久久久久108| 9久9久热精品视频在线观看| AV网站网址| 国产欧美国日产在线播放| 国产精品亚洲а∨无码播放不卡| 国产精品岛国久久久久久久久 | 久久无码中文字幕东京热| 第一精品福利导福航| 鲁丝片一区二区三区|