夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

擴散不死,BERT永生!Karpathy凌晨反思:自回歸時代該終結(jié)了?

0
分享至


新智元報道

編輯:KingHZ

【新智元導(dǎo)讀】谷歌遺珠與IBM預(yù)言:一文點醒Karpathy,擴散模型或成LLM下一步。

Karpathy難以抵擋的誘惑!

蘋果的前員工、德克薩斯大學(xué)奧斯汀分校(UT Austin)的計算機科學(xué)研究生Nathan Barry,得出一個驚人的結(jié)論:

BERT本質(zhì)上,只是文本擴散中的一步!

基于「強化版BERT」RoBERTa,他成功地把表示學(xué)習(xí)算法改造為生成算法:


看完帖子后,OpenAI創(chuàng)始員工、特斯拉前AI總監(jiān)Karpathy陷入了沉思:

人類的思維或許更偏向自回歸一些——一步步推進的感覺。但在我們的思維潛空間里,也很難說就不存在某種更像擴散的機制。

說不定在這兩者之間,其實可以繼續(xù)插值、或者更進一步泛化。

這部分生成邏輯在LLM架構(gòu)中,依然是一個相對「可變」的部分。

不過,Karpathy最近忙于為Eureka Labs的《LLM 101n》課程開發(fā)終級實踐項目「100美元帶回家的ChatGPT」,所以他只能「忍痛割愛」:

現(xiàn)在我必須克制住用擴散模型訓(xùn)練nanochat的沖動,不能偏離主線去搞支線任務(wù)了。


可以上下滾動的圖片

谷歌的遺珠

當(dāng)?shù)谝淮巫x到語言擴散模型論文時,Nathan Barry驚訝地發(fā)現(xiàn)它們的訓(xùn)練目標只是掩碼語言建模(masked language model,MLM)的一種推廣。


而自從2018年BERT以來,大家一直早已對掩碼語言建模習(xí)以為常。


預(yù)印本:https://arxiv.org/abs/1810.04805

他腦海里立刻冒出一個想法:我們能不能把類似BERT的模型微調(diào)一下,讓它也能做文本生成?

出于好奇,他做了個快速的驗證實驗。隨后,他發(fā)現(xiàn)其實早就有人做過了——DiffusionBERT基本就是這個想法,不過做得更嚴謹。

值得一提的是,大約3年前,DiffusionBERT由國內(nèi)高校的研究者提出,100%國產(chǎn)!


預(yù)印本鏈接:https://arxiv.org/abs/2211.15029

最初,擴散模型在圖像生成領(lǐng)域一炮而紅。

在圖像生成中,擴散模型會先對圖像逐步添加高斯噪聲(前向過程),然后訓(xùn)練神經(jīng)網(wǎng)絡(luò)對其進行迭代去噪(反向過程)。


將這一思路應(yīng)用于文本領(lǐng)域,意味著我們需要找到方法對文本添加噪聲并在之后分階段消除。

最簡單的實現(xiàn)方式是基于掩碼的噪聲處理流程:

  • 在前向過程中,初始文本未被破壞。在每一步迭代中,根據(jù)預(yù)設(shè)的調(diào)度計劃(從0%到100%),隨機將一定比例的詞語替換為特殊的 標記

  • 在反向(去噪)過程中,訓(xùn)練模型根據(jù)每個 預(yù)測正確的原始詞語。這與掩碼語言模型(MLM)類似,但采用了動態(tài)掩碼率

為了解決以往方法存在的問題,BERT提出了掩碼語言建模(Masked LM)。

具體做法是:對每條訓(xùn)練輸入序列隨機遮蓋15%的詞語,僅對這些被遮蓋的詞進行預(yù)測。用圖示語言來表達就是:


換句話說,BERT的MLM訓(xùn)練目標,其實就可以看作是文本擴散的一種特例,只不過它用的是固定的掩碼率。

而只要我們引入一個從0到1的動態(tài)掩碼率范圍,就可以把BERT的訓(xùn)練目標自然擴展為一個完整的文本生成過程。

擴展無處不在,自監(jiān)督模型變生成模型

2019年發(fā)布的RoBERTa模型,是在原始BERT基礎(chǔ)上的一次強化升級。


預(yù)印本:https://arxiv.org/abs/1907.11692

它調(diào)整了超參數(shù)、擴大了訓(xùn)練語料,并簡化了訓(xùn)練目標——

只保留MLM(掩碼語言建模),去掉了「下一句預(yù)測」任務(wù)。

而Nathan Barry使用HuggingFace的開源庫,加載RoBERTa的預(yù)訓(xùn)練權(quán)重、分詞器以及Trainer類,對模型進行微調(diào),數(shù)據(jù)集選用 WikiText。核心代碼(完整代碼見原文)大致如下:


在當(dāng)前實現(xiàn)中,設(shè)定了10個擴散步驟,每個訓(xùn)練批次隨機采樣一個遮蓋比例p,從[1.0, 0.9, ..., 0.1]中選取,然后對該比例的Token進行掩碼處理。這個邏輯封裝在自定義的diffusion_collator中:


在推理時,從一個長度為256的輸入向量開始:前16個位置是提示詞(prompt)的Token ID,后面240個全是 。然后,逐步減少掩碼比例,每一步都做預(yù)測、采樣、重新掩碼。流程如下:


對應(yīng)的簡化代碼如下:


在H200顯卡上,經(jīng)過30分鐘訓(xùn)練后,模型基于如下提示詞生成了如下文本:

...dominion over Europe beginning about the early 19th. There conflict took place on the island, between British and Irish Ireland. British officials administered British Ireland, a Celtic empire under the control of the Irish nationalist authorities, defined as a dominion of Britain. As the newly Fortic states acquired independent and powerful status, many former English colonies played their part in this new, British @-@ controlled colonial system. Following this period the Non @-@ Parliamentaryist Party won its influence in Britain in 1890, led by the support of settlers from the Irish colonies. Looking inwards, Sinclair, Lewis questioned, and debated the need to describe " The New Britain "

提示詞為:Following their victory in the French and Indian War, Britain began to assert greater...

生成的文本看起來出奇地連貫!其中大部分「怪異之處」, Nathan Barry歸因于WikiText數(shù)據(jù)集本身的格式化問題——比如標點符號前后帶空格,連字符「-」被處理成了@-@等。


數(shù)據(jù)顯示,GPT-2在輸出連貫性和生成速度方面略勝一籌(約9秒對比13秒)。

但RoBERTa Diffusion未經(jīng)優(yōu)化,如此效果,已令人驚喜。

這次的概念驗證無疑非常成功——若能結(jié)合AR-Diffusion、跳躍步擴散等新興技術(shù)并深度優(yōu)化,生成質(zhì)量與推理速度都將獲得飛躍提升。

擴散模型歸來

通過實驗證明,以RoBERTa為代表的掩碼語言模型(原本專為填空任務(wù)設(shè)計),將變比率掩碼重構(gòu)為離散擴散過程,完全可以轉(zhuǎn)型為全功能生成引擎。

通過漸進式植入 標記污染文本,并訓(xùn)練模型在遞增的掩碼強度下迭代去噪,標準MLM目標成功地轉(zhuǎn)化為漸進式文本生成流程。

值得注意的是,即使不調(diào)整模型架構(gòu),僅對訓(xùn)練目標進行微調(diào)后的RoBERTa就能生成視覺連貫的文本。

這有力印證了一個重要洞見:本質(zhì)上,BERT系模型就是在固定掩碼率上訓(xùn)練的文本擴散模型。

Karpathy點贊了Nathan Barry的短文:

帖子雖短,卻解釋了文本(離散)擴散模型可以有多簡單。

許多擴散模型的論文看起來頗為晦澀,但若拋開數(shù)學(xué)形式的外殼,最終得到的往往是簡潔的基礎(chǔ)算法。


例如在連續(xù)空間中更接近流匹配的方法,或是像這樣的離散空間方案,其本質(zhì)還是經(jīng)典的Transformer架構(gòu),只不過采用了雙向注意力機制——

根據(jù)噪聲調(diào)度計劃,在「token畫布」上迭代重采樣和重復(fù)掩碼處理所有token,直至最終步生成完整樣本。

自回歸生成的過程,就像是在Token畫布上不斷.append(token) ,每次只參考左側(cè)已有的上下文;

而擴散式生成,則是在整個Token畫布上反復(fù).setitem(idx, token) ,每次都依賴雙向注意力進行刷新更新。

從整個大語言模型(LLM)技術(shù)棧的角度來看,生成領(lǐng)域仍大有可為,存在著優(yōu)化與創(chuàng)新的空間。

今年更早的時候,在2025 I/O大會上,谷歌DeepMind發(fā)布了一項實驗性的擴展語言模型——。


在速度上,擴散語言模型優(yōu)勢明顯。以至于有網(wǎng)友預(yù)測:文本擴展模型就是每個人視而不見的下一步,因為訓(xùn)練成本太高了!


而「藍色巨人」IBM的作家也斷言,隨著下一代AI浮現(xiàn),擴散模型要挑戰(zhàn)GPT。


參考資料:

https://nathan.rs/posts/roberta-diffusion/

https://x.com/karpathy/status/1980347971935068380

https://x.com/yacinelearning/status/1980351871413022901

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
日媒“臥底”中國社交媒體,發(fā)現(xiàn)中國游客1萬日元就能買來日本駕照...

日媒“臥底”中國社交媒體,發(fā)現(xiàn)中國游客1萬日元就能買來日本駕照...

日本物語
2025-11-10 21:26:26
再見,利物浦!主帥最快3天內(nèi)被解雇!1.1億鎊“爆點”攻擊手來投

再見,利物浦!主帥最快3天內(nèi)被解雇!1.1億鎊“爆點”攻擊手來投

頭狼追球
2025-11-10 10:26:35
你所不知道的,全面抗戰(zhàn)時期,國民政府為中共提供超過3000萬軍費

你所不知道的,全面抗戰(zhàn)時期,國民政府為中共提供超過3000萬軍費

老謝談史
2025-11-09 04:34:28
新疆首富米恩華:比193億身家更驚人的,是他的505個孩子!

新疆首富米恩華:比193億身家更驚人的,是他的505個孩子!

李砍柴
2025-07-21 23:31:27
副院長視頻后續(xù):眼科女主任很愛干凈,沙發(fā)上鋪了兩張無菌床單

副院長視頻后續(xù):眼科女主任很愛干凈,沙發(fā)上鋪了兩張無菌床單

鋭娛之樂
2025-11-07 15:50:06
臺灣國民黨鄭麗文:兩岸若開戰(zhàn),大陸會被拖垮一半,起碼要慢30年

臺灣國民黨鄭麗文:兩岸若開戰(zhàn),大陸會被拖垮一半,起碼要慢30年

文史旺旺旺
2025-07-10 20:57:08
天吶!鞏俐這身材太驚艷了,胸圍幾乎到肚臍,狀態(tài)卻依舊十分亮眼

天吶!鞏俐這身材太驚艷了,胸圍幾乎到肚臍,狀態(tài)卻依舊十分亮眼

TVB的四小花
2025-10-22 02:25:03
冠中冠:特魯姆普四連鞭橫掃白雨露,雷佩凡血洗世界冠軍進八強!

冠中冠:特魯姆普四連鞭橫掃白雨露,雷佩凡血洗世界冠軍進八強!

世界體壇觀察家
2025-11-11 00:22:57
侄女跟我生活15年,哥哥一家來了,侄女塞我一張紙條:什么都別答應(yīng)

侄女跟我生活15年,哥哥一家來了,侄女塞我一張紙條:什么都別答應(yīng)

荔枝人物記
2025-10-27 21:55:07
大搞權(quán)錢交易,副部級李春良被處分!被國務(wù)院免職兩年后落馬

大搞權(quán)錢交易,副部級李春良被處分!被國務(wù)院免職兩年后落馬

上觀新聞
2025-11-10 13:29:03
《水滸傳》騙了我們幾百年:宋江征方臘?他連給人家提鞋都不配

《水滸傳》騙了我們幾百年:宋江征方臘?他連給人家提鞋都不配

長風(fēng)文史
2025-11-10 14:38:16
2-1!3-1!東亞兩強爆發(fā),日本力壓葡萄牙奪第一,韓國不敗出線

2-1!3-1!東亞兩強爆發(fā),日本力壓葡萄牙奪第一,韓國不敗出線

綠茵舞著
2025-11-10 23:38:34
孫楊淚崩!34歲大白楊落下英雄淚,全運會2個項目全進決賽太難了

孫楊淚崩!34歲大白楊落下英雄淚,全運會2個項目全進決賽太難了

嘴炮體壇
2025-11-10 18:27:22
98年,東北一老板買下5千噸鋼材后價格暴漲,他反手一個驚人操作

98年,東北一老板買下5千噸鋼材后價格暴漲,他反手一個驚人操作

青青會講故事
2025-11-07 16:36:01
他是中央政治局原常委,發(fā)現(xiàn)并提拔了胡主席,108歲仍健在

他是中央政治局原常委,發(fā)現(xiàn)并提拔了胡主席,108歲仍健在

社評
2025-10-28 06:03:43
演員童瑤:我這輩子最正確的決定,就是因為一句話嫁給了丈夫王冉

演員童瑤:我這輩子最正確的決定,就是因為一句話嫁給了丈夫王冉

白面書誏
2025-11-10 19:22:46
一手好牌打的稀爛!賈靜雯人財兩空,事實證明她看男人的眼光真差

一手好牌打的稀爛!賈靜雯人財兩空,事實證明她看男人的眼光真差

青史樓蘭
2025-11-10 17:35:52
自作孽不可活!40年不向中國低頭,如今停產(chǎn)、裁員,落得一地雞毛

自作孽不可活!40年不向中國低頭,如今停產(chǎn)、裁員,落得一地雞毛

聞識
2025-11-09 21:14:01
聯(lián)想暗諷華為Air手機引發(fā)爭議

聯(lián)想暗諷華為Air手機引發(fā)爭議

上峰視點
2025-11-09 15:38:47
4-3復(fù)仇張本美和!日本25歲美女奪冠后痛哭 二人疑似存在嚴重矛盾

4-3復(fù)仇張本美和!日本25歲美女奪冠后痛哭 二人疑似存在嚴重矛盾

風(fēng)過鄉(xiāng)
2025-11-10 06:58:26
2025-11-11 02:31:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13837文章數(shù) 66241關(guān)注度
往期回顧 全部

科技要聞

荷蘭“玩脫”后,大眾本田終于拿到芯片了

頭條要聞

德軍司令:柏林已做好與莫斯科開戰(zhàn)的準備

頭條要聞

德軍司令:柏林已做好與莫斯科開戰(zhàn)的準備

體育要聞

重返諾坎普!梅西:希望有一天能回來

娛樂要聞

51歲周迅的現(xiàn)狀 給中年女性提了個醒?

財經(jīng)要聞

北大醫(yī)藥董事長被抓 巨額資金去向不明

汽車要聞

智能又務(wù)實 奇瑞瑞虎9X不只有性價比

態(tài)度原創(chuàng)

游戲
房產(chǎn)
本地
數(shù)碼
公開課

游戲喜加一 / Steam 商店頁面 UI 全新上線

房產(chǎn)要聞

封關(guān)倒計時!三亞主城 2.3 萬 /㎡+ 即買即住,手慢無!

本地新聞

這屆干飯人,已經(jīng)把博物館吃成了食堂

數(shù)碼要聞

蘋果服務(wù)主管Eddy Cue:Apple TV暫不會推出“帶廣告的訂閱服務(wù)”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 人人搞人人爱| 亚洲av理论在线电影网| 精品熟女免费视频网站| 日本写真福利片100| 强壮公让我夜夜高潮| 91九色老熟女| 国产日产亚洲精华液系列最新 | 欧美乱码伦视频免费| 少妇高潮视频| 成人无码毛片免费看| www婷婷色| 把腿张开老子臊烂你多p视频软件| 农村在线观看视频一区二区三区| 熟妇与小伙子mature老熟妇e| 午夜精品一区二区三区在线观看| 肉欲啪啪网站| 亚洲中文字幕日产乱码| 人妻快乐人妻| 办公室撕开奶罩揉吮奶头漫画| 7777欧美| 色色色999韩| 国产成人精品久久久| 天堂8AV在线观看| 色偷偷亚洲女人的天堂| 日韩二三四区| 国产91欧美| 中日韩精品视频在线观看| 色老板美国在线观看| 国产乱码字幕精品高清av| AV 激情小说| 成人年鲁鲁在线观看视频| 波多野结衣高潮激情视频| 日韩丝袜亚洲国产欧美一区| 精彩视频久久| 日韩精品一区二区三区不卡| 精品久久久久久久久久久久久久久 | 日韩精品国内国产一区二| 2021久久超碰国产精品最新| 粉嫩蜜臀av一区二区绯色| 国产一区二区视频在线| 蜜臀在线观看|