夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Cursor為Blackwell構(gòu)建MXFP8內(nèi)核,MoE層提速3.5倍,端到端1.5倍

0
分享至



機(jī)器之心報(bào)道

編輯:+0

在構(gòu)建更強(qiáng)大的 AI 模型的這場(chǎng)競(jìng)賽中,傳統(tǒng)路徑很簡單:升級(jí)到最新最強(qiáng)大的硬件。但 Cursor 發(fā)現(xiàn)釋放下一代 GPU 的真正潛力遠(yuǎn)非即插即用那么簡單。



在從 NVIDIA 的 Hopper H100s 升級(jí)到新旗艦 Blackwell B200s 后,該團(tuán)隊(duì)遇到了一個(gè)「升級(jí)陷阱」:硬件性能翻倍,但實(shí)際訓(xùn)練速度卻被 MoE 層的效率拖慢,新架構(gòu)的設(shè)計(jì)反而放大了數(shù)據(jù)搬運(yùn)和量化的開銷。

這就像給一輛賽車換上了動(dòng)力翻倍的新引擎,卻發(fā)現(xiàn)原有的輪胎完全無法承載這股力量,導(dǎo)致速度反而下降。

他們的解決方案是回歸基礎(chǔ),自己定制「賽車胎」:在 GPU 內(nèi)核級(jí)別從零開始重寫整個(gè)混合專家(MoE)訓(xùn)練層。

Cursor 不僅解決了瓶頸問題,還徹底釋放了 Blackwell 架構(gòu)的潛能。通過拋棄對(duì)現(xiàn)有 CUDA 庫的依賴,他們能夠:

  • 直接針對(duì)TMEM 的新特性設(shè)計(jì)數(shù)據(jù)流管線,避免無謂的寄存器搬運(yùn)開銷;
  • 量化與反量化邏輯融入內(nèi)核計(jì)算流程,大幅壓縮了內(nèi)存帶寬占用;
  • 優(yōu)化MXFP8 的 microscaling 實(shí)現(xiàn),在保證訓(xùn)練收斂質(zhì)量的同時(shí),把性能推到極限。

最終效果是:MoE 層在前向和反向傳播中都實(shí)現(xiàn)了3.5倍提速,端到端訓(xùn)練速度在 Blackwell 上快了1.5倍,相比最初的 Hopper GPU 方案實(shí)現(xiàn)了2倍的加速。



與 BF16 相比,MXFP8 MoE 的相對(duì)加速(歸一化為 1.0)。

Cursor 團(tuán)隊(duì)在博客中詳細(xì)介紹了相關(guān)技術(shù)細(xì)節(jié),并分享了他們的工程經(jīng)驗(yàn)和性能數(shù)據(jù)。

  • 博客地址:https://cursor.com/en/blog/kernels

為什么現(xiàn)有 MoE 內(nèi)核在 Blackwell 上失效?

為了降低計(jì)算成本,模型訓(xùn)練普遍采用低精度數(shù)據(jù)格式(如 FP8)。但簡單地將高精度數(shù)字(如 0.0001)轉(zhuǎn)換為 FP8 會(huì)導(dǎo)致其被四舍五入為零,丟失信息。

微縮放(MX)通過將張量(Tensor)分割成許多小數(shù)據(jù)塊(例如每 32 個(gè)元素一塊),并為每個(gè)塊計(jì)算一個(gè)獨(dú)立的縮放因子(scale factor)來解決這個(gè)問題。



MXFP8 量化示例:每個(gè) 1x32 塊共享一個(gè)縮放因子。

這樣,每個(gè)塊內(nèi)的數(shù)據(jù)都能被有效縮放到 FP8 的可表示范圍內(nèi),從而在保留精度的同時(shí)享受低精度計(jì)算帶來的性能優(yōu)勢(shì)。Cursor 使用的MXFP8就是這樣一種格式。

張量內(nèi)存(TMEM)瓶頸

在 Hopper (H100) 架構(gòu)上,張量核心的計(jì)算結(jié)果直接累積在寄存器中,后續(xù)的「反量化」等操作可以流暢地進(jìn)行。

然而,Blackwell (B200) 引入了新的張量內(nèi)存(TMEM)來存儲(chǔ)累加結(jié)果。這意味著任何自定義的算術(shù)操作都必須經(jīng)歷一次低效的數(shù)據(jù)往返:TMEM → 寄存器 → CUDA 核心處理 → TMEM。

這種異步數(shù)據(jù)傳輸會(huì)在張量核心的計(jì)算管線中產(chǎn)生「氣泡」,大幅降低執(zhí)行效率。更關(guān)鍵的是,盡管 Blackwell 的 FP8 張量核心吞吐量翻倍,其 CUDA 核心性能僅提升了約 33%,導(dǎo)致反量化速度嚴(yán)重滯后于計(jì)算速度。



該甘特圖截取自我們定制的 Blackwell 注意力核。第一行顯示了張量核心(QKT)的活動(dòng)情況;第二行顯示了 CUDA 核心的活動(dòng)情況(數(shù)據(jù)從 TMEM 加載至寄存器,然后執(zhí)行 softmax)。從 TMEM 到寄存器的加載延遲,導(dǎo)致了張量核心出現(xiàn)流水線氣泡。

數(shù)據(jù)顯示,在特定配置下,Blackwell 上的反量化耗時(shí)是矩陣乘法本身的 1.76 倍,遠(yuǎn)高于 Hopper 上的 1.03 倍。



Hopper 與 Blackwell 上的相對(duì)反量化成本。

被忽視的「量化稅」

除了 TMEM 瓶頸,數(shù)據(jù)「量化」過程本身也成了性能殺手。

以一個(gè)典型的 MoE 矩陣乘法為例,計(jì)算本身可能僅需 1.16 毫秒,但將輸入矩陣量化為 MXFP8 格式并寫回內(nèi)存就需要搬運(yùn)近 2.9 GB 的數(shù)據(jù),耗時(shí)約 0.44 毫秒,占到計(jì)算時(shí)間的近 40%。

在反向傳播中,這個(gè)開銷因需要轉(zhuǎn)置-量化而翻倍,達(dá)到 0.88 毫秒,占比高達(dá)76%。這意味著,如果優(yōu)化不當(dāng),MXFP8 帶來的性能提升可能被完全抵消

此外,現(xiàn)有的開源量化內(nèi)核不僅帶寬利用率低,其生成的縮放因子(scale factor)布局還與 Blackwell 的硬件指令不兼容,需要額外的、拖慢性能的重塑操作。

Cursor 如何從零重寫MoE 層?

面對(duì)這些挑戰(zhàn),并發(fā)現(xiàn)現(xiàn)有的開源庫(如 NVIDIA 的 TransformerEngine)并非最佳選擇,Cursor 團(tuán)隊(duì)選擇放棄高層依賴,使用純 CUDA 和 PTX 匯編語言親自編寫 MoE 層的 GPU 代碼。

優(yōu)化策略

  • 擁抱原生硬件指令

他們沒有與 TMEM 架構(gòu)對(duì)抗,而是圍繞原生的 tcgen05.mma 指令構(gòu)建內(nèi)核。這使得 GPU 硬件自身能夠處理 MXFP8 所需的縮放,完全消除了 TMEM 和 CUDA 核心之間低效的數(shù)據(jù)移動(dòng)。

  • 設(shè)計(jì)高效的數(shù)據(jù)流水線

他們實(shí)現(xiàn)了一個(gè)復(fù)雜的流水線,采用了諸如「Warp 專精」(將特定任務(wù)分配給不同的線程組)和 2-CTA(協(xié)同線程陣列)模式等技術(shù)。

Warp 專精將特定的任務(wù)分配給不同的線程組(Warp)。例如,Warp 0 負(fù)責(zé)從主內(nèi)存加載數(shù)據(jù)到共享內(nèi)存,Warp 1 負(fù)責(zé)加載縮放因子,Warp 2 負(fù)責(zé)將縮放因子從共享內(nèi)存移至 TMEM,而 Warp 3 則專門負(fù)責(zé)啟動(dòng)矩陣乘法計(jì)算。這使得各個(gè)環(huán)節(jié)可以高度并行。

2-CTA 模式允許兩個(gè) GPU 流式多處理器(SM)協(xié)同完成單個(gè)矩陣乘法,通過共享 B 矩陣來減少內(nèi)存流量,帶來了 15-20% 的性能提升。

  • 針對(duì) MoE 工作負(fù)載進(jìn)行優(yōu)化

對(duì)于 MoE 訓(xùn)練中特有的分組矩陣乘法,他們應(yīng)用了一種名為「專家級(jí)超分組」的 L2 緩存優(yōu)化啟發(fā)式算法。這確保了內(nèi)存訪問模式保持高效,將標(biāo)準(zhǔn)矩陣乘法與分組矩陣乘法之間的性能下降限制在僅 4%。

「秘密武器」:量化內(nèi)核與低精度配方

該團(tuán)隊(duì)開發(fā)了一個(gè)自定義的 MXFP8 量化內(nèi)核,他們稱這是目前用于 MoE 訓(xùn)練的最快內(nèi)核。微基準(zhǔn)測(cè)試顯示,其內(nèi)核持續(xù)的內(nèi)存帶寬超過 6.2 TB/s,相比他們從現(xiàn)有開源工具測(cè)得的約 4.5 TB/s 有了顯著提升。

至關(guān)重要的是,他們的內(nèi)核輸出的數(shù)據(jù)內(nèi)存布局與 tcgen05.mma 指令所要求的完全一致,避免了其他工具所必需的、耗時(shí)的額外「重塑」步驟。



基于內(nèi)存帶寬利用率的 MXFP8 量化內(nèi)核比較(E4M3,32 塊大小的縮放)。

團(tuán)隊(duì)還確定了一種特定的低精度「配方」,能夠在不影響訓(xùn)練質(zhì)量的情況下提供最高速度。通過使用元素類型為 FP8E4M3、塊大小為 32 的 MXFP8 格式,他們能夠使訓(xùn)練損失的收斂情況與速度慢得多的 BF16 格式幾乎完全匹配。

團(tuán)隊(duì)公布的訓(xùn)練損失曲線顯示,兩種方法幾乎沒有區(qū)別,證明了性能的提升并未以犧牲準(zhǔn)確性為代價(jià)。



BF16 與 MXFP8 訓(xùn)練損失超過 10k 步:幾乎無法區(qū)分。

更多技術(shù)細(xì)節(jié)請(qǐng)閱讀原博客。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
四年賠光64億,華誼兄弟的倒臺(tái),從背刺周星馳的時(shí)候,就早有預(yù)兆

四年賠光64億,華誼兄弟的倒臺(tái),從背刺周星馳的時(shí)候,就早有預(yù)兆

查爾菲的筆記
2025-08-15 13:25:33
好大的威風(fēng),又是民警半夜上門,當(dāng)?shù)鼗貞?yīng)和平交流,無數(shù)網(wǎng)友不滿

好大的威風(fēng),又是民警半夜上門,當(dāng)?shù)鼗貞?yīng)和平交流,無數(shù)網(wǎng)友不滿

眼光很亮
2025-08-23 14:13:12
央視罕見發(fā)聲!尖扎黃河大橋事故最新進(jìn)展!

央視罕見發(fā)聲!尖扎黃河大橋事故最新進(jìn)展!

火土輕創(chuàng)業(yè)
2025-08-24 00:20:29
微妙時(shí)刻,韓總統(tǒng)特使團(tuán)明起訪華,很可能向中方“發(fā)出邀請(qǐng)”

微妙時(shí)刻,韓總統(tǒng)特使團(tuán)明起訪華,很可能向中方“發(fā)出邀請(qǐng)”

上觀新聞
2025-08-23 18:00:09
酒吧里一女子跪地上喝酒,圍觀群眾羨慕又鄙視:喝完一桶給58萬

酒吧里一女子跪地上喝酒,圍觀群眾羨慕又鄙視:喝完一桶給58萬

唐小糖說情感
2025-08-22 15:11:47
孫怡人設(shè)崩塌!吃相難看,知三當(dāng)三,難怪王京花看不上她

孫怡人設(shè)崩塌!吃相難看,知三當(dāng)三,難怪王京花看不上她

查爾菲的筆記
2025-08-16 15:07:57
“他們逼我說臺(tái)灣是中國的,不然就不救我!”一石激起千層浪

“他們逼我說臺(tái)灣是中國的,不然就不救我!”一石激起千層浪

壹知眠羊
2025-08-10 07:29:29
曼城0-2落后,福登在替補(bǔ)席開心大笑,其余人臉色嚴(yán)肅

曼城0-2落后,福登在替補(bǔ)席開心大笑,其余人臉色嚴(yán)肅

雷速體育
2025-08-23 20:52:07
大雨后,十堰男子在水邊撿到的!專家:約1800年歷史

大雨后,十堰男子在水邊撿到的!專家:約1800年歷史

混沌錄
2025-08-23 19:27:57
第一個(gè)公然拒絕93閱兵的總統(tǒng),李在明通告全球,韓國降格對(duì)待中國

第一個(gè)公然拒絕93閱兵的總統(tǒng),李在明通告全球,韓國降格對(duì)待中國

卷史
2025-08-22 13:44:36
什么?浙江已經(jīng)發(fā)展到這種程度了嗎?

什么?浙江已經(jīng)發(fā)展到這種程度了嗎?

地理研究所
2025-08-23 20:13:18
搞笑!韓國網(wǎng)民問:首爾舉行反華游行,為什么中國人沒有感到緊張

搞笑!韓國網(wǎng)民問:首爾舉行反華游行,為什么中國人沒有感到緊張

小李子體育
2025-08-24 00:37:46
祁連山8月突降鵝毛大雪,下了三四個(gè)小時(shí),廣東游客:遇到人生第一場(chǎng)大雪,還是夏天的雪,太幸運(yùn)

祁連山8月突降鵝毛大雪,下了三四個(gè)小時(shí),廣東游客:遇到人生第一場(chǎng)大雪,還是夏天的雪,太幸運(yùn)

極目新聞
2025-08-21 11:59:01
曾卓君奪冠選Punk當(dāng)?shù)鬃裏嶙h:改變世界線的一局!

曾卓君奪冠選Punk當(dāng)?shù)鬃裏嶙h:改變世界線的一局!

游民星空
2025-08-24 10:16:30
小雷:我第一次見道曼他才七八歲,從未見過一個(gè)孩子如此有天賦

小雷:我第一次見道曼他才七八歲,從未見過一個(gè)孩子如此有天賦

懂球帝
2025-08-24 10:23:39
1986年葉劍英去世,六位遺孀排序讓工作人員犯難,聶帥拍板解難題

1986年葉劍英去世,六位遺孀排序讓工作人員犯難,聶帥拍板解難題

覓史
2025-08-14 15:03:52
諾貝爾獎(jiǎng)獲得者:死亡可能只是一種幻覺,宇宙生生不息,往復(fù)循環(huán)

諾貝爾獎(jiǎng)獲得者:死亡可能只是一種幻覺,宇宙生生不息,往復(fù)循環(huán)

第一心理
2023-10-23 17:42:32
女教師擔(dān)心老公出去野,勸家中保姆幫忙:幫幫姐,一次給500

女教師擔(dān)心老公出去野,勸家中保姆幫忙:幫幫姐,一次給500

蘇大強(qiáng)專欄
2024-07-10 20:56:36
美高官說漏嘴,一旦“臺(tái)灣有事”,美國最操心的不是臺(tái)灣的生死

美高官說漏嘴,一旦“臺(tái)灣有事”,美國最操心的不是臺(tái)灣的生死

呂璐說
2025-08-23 19:36:15
董璇再婚被罵慘,高云翔發(fā)文“耐人尋味”!

董璇再婚被罵慘,高云翔發(fā)文“耐人尋味”!

默默有話說
2025-08-23 11:44:01
2025-08-24 10:47:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11138文章數(shù) 142426關(guān)注度
往期回顧 全部

科技要聞

DeepSeek暗示國產(chǎn)芯片有望大規(guī)模使用

頭條要聞

胡雷披露女孩溺亡當(dāng)晚情形 女孩生前成績一直名列前茅

頭條要聞

胡雷披露女孩溺亡當(dāng)晚情形 女孩生前成績一直名列前茅

體育要聞

遇刺、喪父、罕見病三重?fù)簦?冠傳奇死磕人生

娛樂要聞

“魔嫂降世”??藘?nèi)娛最不正道的男人

財(cái)經(jīng)要聞

跌麻了,央媽又拋售國債?

汽車要聞

"三進(jìn)大宅" 吉利銀河M9預(yù)售價(jià)19.38萬元起

態(tài)度原創(chuàng)

手機(jī)
本地
時(shí)尚
教育
公開課

手機(jī)要聞

華為Mate80標(biāo)準(zhǔn)版:測(cè)試散熱風(fēng)扇,ID設(shè)計(jì)也有大變化!

本地新聞

22℃的吉林夏天 | 江風(fēng)沁心涼,游艇畫中行!

今年秋天最美的4件針織,怎么搭都好看!

教育要聞

讓父母幫忙帶孩子也算變相啃老嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 国产精品久久久久无码| 欧美gv在线观看| 五月丁香六月激情基地婷婷五月 | 99久久国产综合精品1| 亚洲性网站| 日韩高清无码四区| 国产熟女高潮一区二区三区| 国产偷自视频区视频| 人人爽人人爽人人片av| 欧美丰满熟妇XXXX性ppx人 | 少妇无码av无码一区| 午夜福利精品国产二区| 人人操一区二区| 亚洲综合一二三区| www.天天色.天天艹| 很黄很黄无遮挡| 久久久亚洲欧洲日产国码是av| 婷婷六月天在线观看| 国产成人免费一区二区三区| 99久久人妻精品无码二区| 人人妻人人爱人人操| 国产精品小蝌蚪福利| xxxxx性bbbbb欧美| 国产精品亚洲专区无码不卡| 日韩欧美二区| 一本色道无码道dvd在线多彩学生妹| 人妻AV无码AV中文AV日韩AV| 精品人妻无码专区在中文字幕| 啊,舔的好舒服视频| 国产99久久久国产四虎| 亚洲免费人成在线视频观看| 国内熟妇人妻色在线视频| 天天日天天干天天考| 三上悠亚精品一区二区久久| 一本色综合网久久| 中国AV高清电影| 日韩中字码精品| 国产成人亚洲精品无码车a| 亚洲欧洲精品成人久久av18| 国产精品乱码久久久| 国产在线永久视频|