夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

微信AI團隊,悄悄干了件大事,算力消耗暴降44%!

0
分享至


智東西
作者 陳駿達
編輯 李水青

智東西11月5日報道,近日,騰訊微信AI團隊發(fā)布的一篇論文在海外AI圈引發(fā)廣泛關(guān)注。論文提出了一種名為“連續(xù)自回歸語言模型(CALM)”的新穎架構(gòu)。與傳統(tǒng)Transformer相比,CALM直接將訓(xùn)練大模型所用的計算量減少了44%,推理時的計算量也減少了34%

CALM的核心邏輯是,將連續(xù)的K個token壓縮成一個語義向量,并在生成時直接預(yù)測“下一個向量”而非“下一個token”。假設(shè)K=4,那么原本需要逐步生成4次的內(nèi)容,現(xiàn)在只需1步即可完成,使其能在一次生成中輸出更多信息,大幅提升效率。

這項研究的相關(guān)討論在社交媒體平臺X的閱讀量累計已經(jīng)超過100萬次,在評論區(qū)引起熱議。

提示詞分享網(wǎng)站godofprompt.ai的聯(lián)合創(chuàng)始人Robert Youssef認為,CALM或許就是AI領(lǐng)域下一次大的范式轉(zhuǎn)變,徹底顛覆了所有大語言模型賴以構(gòu)建的“下一個token預(yù)測”范式,讓大模型不再逐字思考,而是以想法為單位進行思考,簡直不可思議。這一方法如果能成功擴展,那么現(xiàn)有的LLM都將過時。


還有多位網(wǎng)友認為CALM提出的概念值得探討,但關(guān)鍵是需要在更大規(guī)模的Scaling過程中獲得驗證。


然而,也有人質(zhì)疑CALM的前景。這位網(wǎng)友稱,CALM只是楊立昆的一個老舊想法,訓(xùn)練不穩(wěn)定,基礎(chǔ)很薄弱,且無法擴展,是一種“有缺陷的方案”。


CALM論文的作者均在微信AI團隊任職,第一作者邵晨澤曾在中科院計算所智能信息處理實驗室完成博士學(xué)業(yè)。這篇論文的其他作者包括Darren Li、Fandong Meng和Jie Zhou,其中,Darren Li是清華大學(xué)求真學(xué)院的在讀學(xué)生。為方便后續(xù)研究,研究使用的預(yù)訓(xùn)練Autoencoder以及CALM的檢查點均可供下載。


論文地址:

https://arxiv.org/abs/2510.27688

項目主頁:

https://github.com/shaochenze/calm?tab=readme-ov-file

一、性能比肩同量級Transformer,訓(xùn)練計算量減少44%

那么,在與Transformer的對決中,CALM究竟表現(xiàn)出了何種優(yōu)勢?

在評估兩者的性能前,CALM團隊首先需要打造適合的評估工具。過去業(yè)內(nèi)用來衡量語言模型預(yù)測質(zhì)量的一個指標是困惑度(Perplexity),直觀地說,它表示模型在面對真實語言數(shù)據(jù)時“有多困惑”——困惑度越低,說明模型越自信、預(yù)測越準確。

困惑度評估并不適用于CALM的架構(gòu)。作者因此提出新的評價體系——BrierLM指標。這一指標源于經(jīng)典的Brier Score,由氣象學(xué)家Glenn W. Brier在1950年提出,用來評估天氣預(yù)報的好壞。

BrierLM通過組合不同n-gram的Brier得分,提供了一個統(tǒng)一的、可比較的語言建模指標。它利用模型采樣結(jié)果即可無偏估計預(yù)測質(zhì)量,既能衡量準確性,又能懲罰過度確定性。

實驗證明,BrierLM與交叉熵幾乎線性相關(guān),可作為困惑度的替代品,并適用于其他隱式生成模型。


CALM團隊使用The Pile語料訓(xùn)練了多款CALM架構(gòu)的模型,然后用WikiText-103數(shù)據(jù)集來測試模型的性能。

訓(xùn)練時,CALM團隊分別打造了不同參數(shù)量的模型,分別為0.371B參數(shù)量的CALM-M、0.735B參數(shù)量的CALM-L和1.82B參數(shù)量的CALM-XL。

當(dāng)K=4,也就是每個連續(xù)向量對應(yīng)4個原始token時,CALM-M的性能略遜于0.281B參數(shù)量的Transformer-S模型,但CALM-M的訓(xùn)練計算量比Transformer-S少44%,推理計算量少34%,展現(xiàn)出更好的算力-性能平衡。隨著模型變大,性能也穩(wěn)定提升,就像普通Transformer一樣。


CALM團隊還研究了語義帶寬K的作用。隨著語義帶寬K增大,計算需求線性下降,而但性能下降并不明顯。

當(dāng)K從1變?yōu)?時,模型所需的訓(xùn)練算力大幅減少50%左右;當(dāng)K=4時,CALM實現(xiàn)了效率與性能的較好平衡;K=8時,其性能出現(xiàn)一定下滑。

CALM團隊認為這是模型尺寸導(dǎo)致的。以后,隨著模型尺寸的提升,CALM架構(gòu)或許可以一次性預(yù)測更多token,從更大的語義帶寬中受益。


CALM的作者們還比較了不同生成頭的性能。能量模型單步生成性能最高,而且不需要迭代采樣,一次就能生成結(jié)果。擴散與流匹配模型雖可行,但要么性能不佳,要么代價高昂。


二、從離散token到連續(xù)向量,語言模型如何駛?cè)胝Z義“高速公路”?

那么,CALM究竟為何要進行從“預(yù)測token”到“預(yù)測向量”的巨大轉(zhuǎn)變呢?這一轉(zhuǎn)變,又是如何讓CALM以更低的算力需求,實現(xiàn)比肩Transformer的生成效果?

CALM的第一作者邵晨澤在其撰寫的博客中,解釋了打造CALM的原因。現(xiàn)代大語言模型好比一個“法拉利級”的引擎——它擁有數(shù)千億參數(shù),能夠理解語義、執(zhí)行復(fù)雜推理、生成高質(zhì)量文本與代碼。

然而,這一引擎卻被限制在一條狹窄的鄉(xiāng)間小路上,永遠只能卡在第一檔。這條小路就是自回歸生成機制:模型一次只能預(yù)測一個離散token,無論引擎多強,吞吐量都會受到限制,這導(dǎo)致了模型推理速度慢、計算成本高等問題。

過去,人們試圖通過擴大基本單位來“拓寬道路”。從字符級到子詞級(subword token)的變化,確實提升了效率。

但如今,這條路徑已觸及“離散token的物理極限”:在一個典型的32K詞表中,每個生成步驟的語義帶寬約為15位,要想將帶寬翻倍,詞表規(guī)模必須指數(shù)級增長——這使得模型在計算上幾乎不可行。換句話說,離散token的Scaling已經(jīng)碰壁了。

如果離散token是瓶頸,那么我們就需要一種具有可擴展語義帶寬的新型文本單元。CALM代表從離散到連續(xù)的變化,其核心思想就是讓模型不再預(yù)測下一個token,而是預(yù)測下一個向量——一個壓縮了連續(xù)K個token的語義信息。


這一改變相當(dāng)于為大模型開辟了一條多車道的高速公路——每次生成能攜帶更多語義,顯著減少自回歸步數(shù),從而大幅提升效率。

CALM的第一步是建立一個高保真自編碼器(Autoencoder),在離散token與連續(xù)向量之間建立雙向映射。

編碼器的作用是將一段K個token壓縮為一個連續(xù)向量,而解碼器從該向量中重建出原始tokens。

通過交叉熵損失訓(xùn)練后,該模型能以99.9%的精度重構(gòu)文本片段。論文指出,這是可行的:一個浮點向量的比特容量遠高于一個離散token,足以存儲多倍的信息。

然而,高精度重構(gòu)并不代表模型的穩(wěn)定性。若向量空間過于“脆弱”,輕微噪聲就可能使解碼器輸出完全不同的文本。為此,作者引入了三項關(guān)鍵改進:

變分正則化(VAE):令編碼器輸出高斯分布,使?jié)摽臻g更平滑;

KL裁剪(KL Clipping):防止?jié)撟兞克s到無效維度;

雙重Dropout:對輸入與潛向量加入噪聲,迫使模型學(xué)習(xí)冗余且穩(wěn)定的表征。

結(jié)果是一個既緊湊又穩(wěn)健的連續(xù)語義表示:當(dāng)K=4、潛向量維度為128時,模型在加入約0.3方差高斯噪聲的情況下,仍能保持99.9%的重構(gòu)精度。

這一語義壓縮器為CALM奠定了堅實基礎(chǔ)——讓語言可以在一個可連續(xù)建模、可容錯的向量空間中流動。

三、 怎么讓模型預(yù)測下一個向量?靠“無似然建?!?/strong>

有了向量化的語義序列,語言建模任務(wù)變成了預(yù)測下一個連續(xù)向量。然而,如何教會模型進行下一個向量預(yù)測,又成了新的挑戰(zhàn)。

如今,幾乎所有主流大模型都采用最大似然訓(xùn)練(Maximum Likelihood Estimation)——即通過softmax計算出“每個token出現(xiàn)的概率”,并最大化訓(xùn)練數(shù)據(jù)的似然值的做法。

這樣的訓(xùn)練方式要求模型能在一個離散的詞表中明確地為每個token給出概率分布,但在連續(xù)向量空間中,沒有有限詞表,softmax無法定義概率分布。

因此,CALM放棄了最大似然訓(xùn)練,轉(zhuǎn)而采用無似然建模(likelihood-free modeling)。這種方法不再要求模型顯式計算概率,改用間接目標函數(shù),讓模型學(xué)會生成與數(shù)據(jù)分布相似的樣本。

簡單來說,模型不再告訴你“這個詞的概率是多少”,而是直接生成一個向量,讓它盡可能接近真實的語義向量分布。

CALM的作者團隊嘗試了多種無似然方法(如 Diffusion、Flow Matching),但最終提出并驗證了最優(yōu)方案——基于能量評分(Energy Score)的生成頭(generative head)。


▲CALM的模型架構(gòu)

這一生成頭接收Transformer的隱藏狀態(tài)和一個隨機噪聲向量作為輸入,在連續(xù)空間中預(yù)測下一個語義向量。通過優(yōu)化能量得分,模型能夠在不計算顯式概率的情況下,學(xué)會生成既多樣又符合語義規(guī)律的向量序列。

能量得分是一種嚴格正確的評分規(guī)則,不依賴概率密度,而以樣本間距離衡量預(yù)測分布的好壞。它同時平衡兩種目標:

(1)多樣性項懲罰過度自信、鼓勵多樣化生成;

(2)保真項獎勵預(yù)測與真實向量接近。

模型通過最大化能量得分,使其隱式分布逼近真實數(shù)據(jù)分布。為了實現(xiàn)高效訓(xùn)練,作者采用蒙特卡洛估計,僅需少量樣本即可獲得無偏梯度。

這種方法帶來了兩大優(yōu)勢。首先,不同于擴散模型需上百次采樣,Energy Head一步即可生成下一個向量;其次,這一方法的通用性強,只需能采樣即可訓(xùn)練,無需顯式概率公式。

在推理時,CALM將預(yù)測向量傳入預(yù)訓(xùn)練的解碼器,還原出離散token,再經(jīng)輕量MLP壓縮輸入到Transformer,實現(xiàn)完整的自回歸循環(huán)。

在傳統(tǒng)的LLM中,調(diào)整溫度(temperature)是控制生成“創(chuàng)造力”的關(guān)鍵手段。模型在生成時會輸出一組logits——也就是每個候選token的未歸一化得分。通過將這些logits除以溫度參數(shù)T,再經(jīng)過softmax,就能得到新的概率分布。

然而,CALM沒有l(wèi)ogits。因此,其背后團隊提出了基于拒絕采樣與Bernoulli Factory理論的全新算法:

(1)當(dāng)溫度T=1/n時,只需抽取n個樣本,若全相同則接受;

(2)對任意T,可分解為整數(shù)與小數(shù)部分并通過二階段采樣實現(xiàn)。

CALM團隊還設(shè)計了批量近似算法,可顯著提升效率且在理論上無偏差。這使得CALM及其他隱式模型能夠像普通大語言模型一樣實現(xiàn)可控生成。

結(jié)語:大模型探索Scaling新路徑

未來,CALM的作者團隊計劃繼續(xù)在架構(gòu)和算法方面進行更多優(yōu)化,包括設(shè)計更優(yōu)的自編碼器、開發(fā)更強大的架構(gòu)以及提出更輕量級的采樣技術(shù)。

他們還希望探索CALM的Scaling特性,驗證一大關(guān)鍵假設(shè):更大模型是否具備支撐更高語義帶寬的必需容量。CALM的作者們認為,“語義帶寬K”已成為繼參數(shù)規(guī)模與數(shù)據(jù)量之后,大模型性能的第三個可擴展維度。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
突發(fā)!中國造防空導(dǎo)彈發(fā)威擊落伊爾-76運輸機,俄5名機組人員陣亡

突發(fā)!中國造防空導(dǎo)彈發(fā)威擊落伊爾-76運輸機,俄5名機組人員陣亡

頭條爆料007
2025-11-07 08:52:28
普京公開重要情報:“全國人民都該了解”

普京公開重要情報:“全國人民都該了解”

環(huán)球時報新聞
2025-11-06 23:08:31
找到了!吳石將軍戶籍卡首次公開

找到了!吳石將軍戶籍卡首次公開

極目新聞
2025-11-07 12:29:23
“眼科女王”曾琦,多張漂亮優(yōu)雅照片曝光,未來3大困境等著她

“眼科女王”曾琦,多張漂亮優(yōu)雅照片曝光,未來3大困境等著她

李昕言溫度空間
2025-11-06 21:03:20
寧波伯銳鍶董事長陳仲瑋去世

寧波伯銳鍶董事長陳仲瑋去世

界面新聞
2025-11-07 12:55:41
泡泡瑪特回應(yīng)直播事故:正在調(diào)查,不會開除涉事員工

泡泡瑪特回應(yīng)直播事故:正在調(diào)查,不會開除涉事員工

界面新聞
2025-11-07 10:35:44
湖南省人醫(yī)17分視頻風(fēng)波,女方膚白貌美、男方儒雅紳士,均被停職

湖南省人醫(yī)17分視頻風(fēng)波,女方膚白貌美、男方儒雅紳士,均被停職

鋭娛之樂
2025-11-07 08:39:22
痛心!失聯(lián)多日的17歲女生已去世,遺體在橋下找到

痛心!失聯(lián)多日的17歲女生已去世,遺體在橋下找到

南國今報
2025-11-06 13:35:37
豐田進博會的“出行味道”:一場滿足所有人移動出行的溫情盛宴

豐田進博會的“出行味道”:一場滿足所有人移動出行的溫情盛宴

買車大師
2025-11-06 18:05:47
我在部隊當(dāng)了5年通訊兵,退伍發(fā)現(xiàn)村后頭的信號塔每晚都準時閃3下

我在部隊當(dāng)了5年通訊兵,退伍發(fā)現(xiàn)村后頭的信號塔每晚都準時閃3下

五元講堂
2025-11-05 10:35:02
多名網(wǎng)友爆料,手機信號欄被運營商塞廣告

多名網(wǎng)友爆料,手機信號欄被運營商塞廣告

黑貓科技迷
2025-11-06 22:00:39
醫(yī)生和院長視頻是如何泄露的?攝像頭8月份拍下,為何如今才曝光

醫(yī)生和院長視頻是如何泄露的?攝像頭8月份拍下,為何如今才曝光

李昕言溫度空間
2025-11-06 20:33:13
C羅:世界杯不是我的夢想;7場比賽證明是否是歷史最佳不公平

C羅:世界杯不是我的夢想;7場比賽證明是否是歷史最佳不公平

懂球帝
2025-11-07 00:02:17
韓莉,被查

韓莉,被查

新京報政事兒
2025-11-07 11:50:27
山姆被罵上熱搜!800萬會員抵制阿里高管,集體喊退卡

山姆被罵上熱搜!800萬會員抵制阿里高管,集體喊退卡

吃瓜局
2025-11-05 15:22:55
太炸裂!副院長和主任縱歡后續(xù):手術(shù)單當(dāng)床單,身份被扒不簡單!

太炸裂!副院長和主任縱歡后續(xù):手術(shù)單當(dāng)床單,身份被扒不簡單!

千言娛樂記
2025-11-06 10:48:47
大瓜!網(wǎng)友爆料副院長和女醫(yī)生私情,視頻畫面流出,女方十分主動

大瓜!網(wǎng)友爆料副院長和女醫(yī)生私情,視頻畫面流出,女方十分主動

派大星紀錄片
2025-11-06 11:07:07
格林首秀29+6三分太陽送快船3連敗 布克24+6+7哈登小卡缺席

格林首秀29+6三分太陽送快船3連敗 布克24+6+7哈登小卡缺席

醉臥浮生
2025-11-07 12:27:59
全球首場“金箍棒發(fā)布會”!極氪金箍棒定義安全新模式

全球首場“金箍棒發(fā)布會”!極氪金箍棒定義安全新模式

齊魯壹點
2025-11-07 11:10:51
曾醫(yī)生年輕漂亮,已經(jīng)是主任了,為什么還要屈身副院長?解答扎心

曾醫(yī)生年輕漂亮,已經(jīng)是主任了,為什么還要屈身副院長?解答扎心

花心電影
2025-11-07 09:41:11
2025-11-07 13:20:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10708文章數(shù) 116894關(guān)注度
往期回顧 全部

科技要聞

75%贊成!特斯拉股東同意馬斯克天價薪酬

頭條要聞

美國試射洲際彈道導(dǎo)彈后 俄方幾乎整個領(lǐng)導(dǎo)層齊聚克宮

頭條要聞

美國試射洲際彈道導(dǎo)彈后 俄方幾乎整個領(lǐng)導(dǎo)層齊聚克宮

體育要聞

是天才更是強者,18歲的全紅嬋邁過三道坎

娛樂要聞

白百何回應(yīng)東京電影節(jié)爭議

財經(jīng)要聞

老登們的社交貨幣全崩了

汽車要聞

小鵬X9增程版綜合續(xù)航1606公里 有底氣挑戰(zhàn)賽那?

態(tài)度原創(chuàng)

旅游
時尚
親子
數(shù)碼
游戲

旅游要聞

立冬日 看成都錦江邊萬千“楓”情|圖集

美拉德失寵了?今年冬天最流行的3個顏色,誰穿誰好看!

親子要聞

一位二胎媽媽的血淚擇校史:耗資10萬,耗時6年,3天夢碎,終覺醒

數(shù)碼要聞

快訊|《移動終端通用快速充電解決方案》發(fā)布

免費玩還有絕版獎勵!國服《暗黑4》壓力測試

無障礙瀏覽 進入關(guān)懷版 大型成人社区亚精区| 国产老太123456| 国产野外嫖妓视频播放| 久久精品夜夜夜夜夜久久| 无码av高潮喷水无码专区线| 国产无套内射在线观看| 亚洲毛片不卡AV在线播放一区 | 色噜噜噜亚洲男人的天堂| 少妇激情av一区二区三区| 国产成人欧美视频在线观看| 国产精品永久免费成人av| 日本一卡2卡3卡4卡5卡精品视频 | 久久久波多野结衣无码中文字幕av| 日日躁18摸日日摸夜夜爽| 国产SUV精品一区二区五| xxx性黄色国产| avttav亚洲天堂网站| 极品少妇的粉嫩小泬视频| 成人福利国产精品视频| 狠狠躁夜夜躁波多野结衣| 久久亚洲人成网站| 少妇熟女肥臀| 中文字幕 - 色哟哟| 中文字幕巨乱亚洲| 99久久精品国产交换| 日B在线视频| 亚洲Av午夜精品a区| 亚洲午夜福利在线视频| 九色自拍视频资源| 精品av国产一区二区三区| 99热精品国产| 国产激情免费视频在线观看| 亚洲一国产一区二区三区| 大屁股肥臀巨臀一区二区| 蜜桃AV一区在线| 中文熟女乱伦| 9久9久热精品视频在线观看| 黄色视频网站在线| 99re8这里只有精品在线播放| 黄色在线不卡| 自拍偷拍另类|