網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

推理成本驟降75%！gpt-oss用新數(shù)據(jù)類(lèi)型實(shí)現(xiàn)4倍推理速度

2025-08-11 15:14:24　來(lái)源: 量子位

北京舉報(bào)

分享至

henry 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

OpenAI在最新的開(kāi)源模型gpt-oss上采用的MXFP4數(shù)據(jù)類(lèi)型，直接讓推理成本暴降75%！

更驚人的是，MXFP4在把內(nèi)存占用降為同規(guī)模BF16模型的四分之一的同時(shí)，還把生成token的速度提升了整整4倍。

換句話說(shuō)，這一操作直接把參數(shù)的大模型塞進(jìn)80GB顯存的顯卡，哪怕是只有16GB顯存的顯卡也能跑200億參數(shù)的版本。

（注：顯存容量通常會(huì)大于Checkpoint Size）

相比以往的數(shù)據(jù)類(lèi)型，MXFP4提供了極高的性?xún)r(jià)比，模型運(yùn)行所需的硬件資源僅為之前的四分之一。

MXFP4有什么魔力？

在gpt-oss中，OpenAI將MXFP4量化應(yīng)用于大約90%的權(quán)重，這一操作的直接動(dòng)機(jī)（收益）就是讓模型運(yùn)行成本變得更加便宜。

將gpt-oss模型量化為MXFP4 后，大語(yǔ)言模型的占用內(nèi)存僅為等規(guī)模BF16模型的1/4，而且生成token的速度最高可提升4倍。

如何通過(guò)改變數(shù)據(jù)類(lèi)型降低模型運(yùn)行成本？這里的邏輯是這樣的：

模型的運(yùn)行成本主要由權(quán)重存儲(chǔ)內(nèi)存帶寬兩個(gè)部分組成。

前者是模型參數(shù)存放和占用的空間，也就是存儲(chǔ)它們所需要的字節(jié)數(shù)。

后者則是模型在推理時(shí)，數(shù)據(jù)讀寫(xiě)速度和容量的限制。

數(shù)據(jù)類(lèi)型的變化將直接影響權(quán)重存儲(chǔ)和內(nèi)存帶寬的占用。

例如，傳統(tǒng)模型權(quán)重通常用FP32（32位浮點(diǎn)數(shù)）存儲(chǔ)，每個(gè)參數(shù)占用4字節(jié)內(nèi)存。

如果用MXFP4，那么每個(gè)權(quán)重只有半字節(jié)權(quán)重存儲(chǔ)大小是FP32的1/8，這就極大地壓縮了權(quán)重?cái)?shù)據(jù)量的大小。

這一壓縮不僅降低了模型的存儲(chǔ)空間，還能讓模型在同樣的帶寬下完成更快地?cái)?shù)據(jù)讀取和寫(xiě)入，從而提高推理速度。

由此，通過(guò)改變數(shù)據(jù)類(lèi)型就能實(shí)現(xiàn)推理成本的降本增效。

那么，MXFP4是怎么實(shí)現(xiàn)這一點(diǎn)的？

MXFP4

MXFP4的全稱(chēng)是微縮放4位浮點(diǎn)數(shù)（Micro-scaling Floating Point 4-bit），是由Open Compute Project (OCP) 定義的4位浮點(diǎn)數(shù)據(jù)類(lèi)型。

（注：OCP是Facebook于2011年發(fā)起的超大規(guī)模數(shù)據(jù)中心合作組織，旨在降低數(shù)據(jù)中心組件成本并提高可獲取性。）

在深度學(xué)習(xí)領(lǐng)域中，數(shù)據(jù)類(lèi)型的精度和效率一直是研究者取舍的重點(diǎn)。

例如，傳統(tǒng)的FP4只有四位，1位符號(hào)位（表示正負(fù)），2位指數(shù)位（決定數(shù)值的量級(jí)），1位尾數(shù)位（表示小數(shù)部分）。

這種表示方法雖然壓縮了數(shù)據(jù)量，但也導(dǎo)致了非常有限的可表示的數(shù)值范圍，它只能表示8個(gè)正數(shù)和8個(gè)負(fù)數(shù)。

相較之下，BF16（1位符號(hào)位，8位指數(shù)位和7 位尾數(shù)位）則能表示 65,536個(gè)數(shù)值，不過(guò)表示范圍的增加也帶來(lái)了計(jì)算成本的上升。

如果為了提高計(jì)算效率，直接把這4個(gè)BF16數(shù)值：0.0625、0.375、0.078125、0.25直接轉(zhuǎn)換成FP4，那么它們會(huì)變成 0、0.5、0、0.5。

不難看出，這樣的誤差顯然是無(wú)法接受的。

于是，為了在減少數(shù)據(jù)量的同時(shí)確保一定的精度，MXFP4通過(guò)將一組高精度數(shù)值（默認(rèn)32個(gè)）乘以一個(gè)公共縮放因子（這個(gè)縮放因子是一個(gè)8位二進(jìn)制指數(shù)）。這樣，我們前面那4個(gè)BF16數(shù)值就會(huì)變成 1、6、1.5、4。

這樣就既實(shí)現(xiàn)了極致的數(shù)據(jù)大小，又維持了數(shù)值間大小關(guān)系的精度。

此外，這一過(guò)程的實(shí)現(xiàn)還與計(jì)算硬件相關(guān)

一般規(guī)律是，每將浮點(diǎn)精度減半，芯片的浮點(diǎn)吞吐量就能翻倍。

比如，一個(gè)B200SXM模塊的稠密BF16運(yùn)算性能約為2.2 petaFLOPS，降到FP4（Nvidia Blackwell 芯片提供硬件加速）后，就能提升到9petaFLOPS

雖然這會(huì)在吞吐量上帶來(lái)一些提升，但在推理階段，更多FLOPS的意義主要是減少模型開(kāi)始生成答案的等待時(shí)間

值得注意的是，運(yùn)行MXFP4模型并不要求硬件必須原生支持FP4

用于訓(xùn)練gpt-oss的Nvidia H100就不支持原生FP4，不過(guò)它依然可以運(yùn)行，只是無(wú)法享受該數(shù)據(jù)類(lèi)型的全部?jī)?yōu)勢(shì)。

低精度與計(jì)算量的取舍

事實(shí)上，MXFP4并不是新概念。早在2023年的報(bào)告中，OCP就在報(bào)告《OCP Microscaling Formats (MX) Specification Version 1.0》中詳細(xì)介紹過(guò)這一數(shù)據(jù)類(lèi)型。

然而，這種低精度的數(shù)據(jù)類(lèi)型通常被認(rèn)為是對(duì)性?xún)r(jià)比的妥協(xié)，因?yàn)榫认陆禃?huì)導(dǎo)致質(zhì)量損失。損失的程度取決于具體的量化方法。

不過(guò)，已經(jīng)有足夠多的研究表明，將數(shù)據(jù)精度從16位降到8位，在大語(yǔ)言模型場(chǎng)景下幾乎沒(méi)有質(zhì)量損失，這種精度已經(jīng)足夠支撐模型的正常工作。

事實(shí)上，一些模型開(kāi)發(fā)者，例如DeepSeek已經(jīng)開(kāi)始直接用FP8進(jìn)行訓(xùn)練。

此外，雖然MXFP4比標(biāo)準(zhǔn)FP4好得多，但它也有缺陷

例如，英偉達(dá)就認(rèn)為這種數(shù)據(jù)類(lèi)型相比FP8仍可能出現(xiàn)質(zhì)量下降，部分原因是其縮放塊大?。⊿caling Block Size）為32，不夠細(xì)?；?/strong>

為此，英偉達(dá)推出了自己的微縮放數(shù)據(jù)類(lèi)型NVFP4，通過(guò)將縮放塊大小降至16和使用FP8縮放因子來(lái)提高質(zhì)量。

這幾乎等同于FP8的工作方式。只不過(guò)MXFP4是在張量?jī)?nèi)部的小塊上應(yīng)用縮放因子，而不是作用于整個(gè)張量，從而在數(shù)值之間實(shí)現(xiàn)更細(xì)的粒度。

最后，在gpt-oss上，OpenAI只使用了MXFP4。

鑒于OpenAI在AI領(lǐng)域上的影響力，這基本上就等于在說(shuō)：

如果MXFP4對(duì)我們夠用，那對(duì)你也應(yīng)該夠用。

[1]https://www.theregister.com/2025/08/10/openai_mxfp4/

[2]https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

[3]https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁(yè) 下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

OpenAI沒(méi)開(kāi)源的gpt-oss基礎(chǔ)模型，他去掉強(qiáng)化學(xué)習(xí)逆轉(zhuǎn)出來(lái)了

機(jī)器之心Pro 2025-08-13 11:51:33
3 跟貼 3

專(zhuān)訪星海圖趙行：熱鬧的Demo不等于泛化能力，具身智能勝負(fù)仍在數(shù)據(jù)量

36氪 2025-08-13 11:36:59
0 跟貼 0

深度評(píng)測(cè)：PromptPilot，字節(jié)跳動(dòng)的“提示詞工廠”

鈦媒體APP 2025-08-01 08:20:11
0 跟貼 0

Agent狂歡下的冷思考:Data&AI數(shù)據(jù)基礎(chǔ)設(shè)施,是AI時(shí)代Infra新范式

機(jī)器之心Pro 2025-08-13 14:33:48
0 跟貼 0

機(jī)器學(xué)習(xí)臨床預(yù)測(cè)模型構(gòu)建的一般流程

醫(yī)咖會(huì) 2025-08-11 19:56:31
0 跟貼 0

如何理解GPT-5？商業(yè)價(jià)值大于技術(shù)價(jià)值，OpenAI很快要成“全球最值錢(qián)非上市公司”

華爾街見(jiàn)聞官方 2025-08-13 15:57:46
0 跟貼 0

《人民日?qǐng)?bào)》專(zhuān)訪王興興：受到關(guān)注后壓力比較大，過(guò)程會(huì)有起伏，最終會(huì)回歸理性

政知新媒體 2025-08-13 10:32:02
377 跟貼 377

二季度營(yíng)收同比增長(zhǎng)15%！騰訊緊盯AI開(kāi)發(fā)進(jìn)度，將持續(xù)加注但并非一味“All in”

每日經(jīng)濟(jì)新聞 2025-08-14 02:12:53
0 跟貼 0

十年怪病求醫(yī)無(wú)果，GPT一眼看穿基因突變

機(jī)器之心Pro 2025-07-07 19:48:49
0 跟貼 0

超算互聯(lián)網(wǎng)上線開(kāi)源AI社區(qū)！模型+數(shù)據(jù)+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0

每天一睜眼就進(jìn)賬6700萬(wàn)！字節(jié)、京東為啥上趕著給這湖南女人送錢(qián)

八斗小先生 2025-08-10 09:28:31
207 跟貼 207

GPT-5編程成績(jī)有貓膩！自刪23道測(cè)試題，關(guān)鍵基準(zhǔn)還是自己提的

量子位 2025-08-12 13:12:51
6 跟貼 6

“專(zhuān)為我開(kāi)了一個(gè)新課題”，頂尖博士為什么偏愛(ài)去字節(jié)實(shí)習(xí)？

機(jī)器之心Pro 2025-03-10 18:59:01
0 跟貼 0

Speed-Beez快裝彈夾由高強(qiáng)度塑料打造可提升實(shí)戰(zhàn)和競(jìng)技效率

武器知識(shí) 2025-08-13 20:51:41
0 跟貼 0

反超Meta后，字節(jié)加強(qiáng)英文培訓(xùn)

天天開(kāi)柒 2025-08-11 20:44:51
0 跟貼 0

每一幕皆可控！字節(jié)發(fā)布多主體視頻生成神器，人人皆主角

量子位 2025-06-13 17:12:08
0 跟貼 0

One image is all you need多模態(tài)指令數(shù)據(jù)合成，只管給圖給Oasis

機(jī)器之心Pro 2025-07-18 18:03:34
0 跟貼 0

磁帶大小塞入75TB數(shù)據(jù)，日本巨頭掏出AI存儲(chǔ)黑科技

智東西 2025-08-13 13:14:52
0 跟貼 0

洲明科技：公司現(xiàn)行接入?yún)f(xié)議已覆蓋后續(xù)大版本升級(jí)，GPT-5可無(wú)縫沿用既有通道，無(wú)需另行申請(qǐng)

每日經(jīng)濟(jì)新聞 2025-08-13 17:39:04
0 跟貼 0

測(cè)血糖要關(guān)注這7個(gè)關(guān)鍵數(shù)值，糖友一定要知道！

藥師方健 2025-08-09 22:03:26
3 跟貼 3

縫紉機(jī)與透析機(jī)：尿毒癥工廠里的生存實(shí)驗(yàn)

剝洋蔥people 2025-08-13 09:28:11
6570 跟貼 6570

劉禹彤奪冠后接受采訪，中英文銜接邏輯清晰，就是口音有點(diǎn)重

小蕊愛(ài)搞笑 2025-08-12 16:53:59
1 跟貼 1

藍(lán)星趣事：大戶別問(wèn)，一問(wèn)就是誤差大，看一遍笑一遍

霞霞聊影視 2025-08-12 12:04:57
1 跟貼 1

樊綱：我國(guó)居民消費(fèi)處于嚴(yán)重不足狀態(tài) 完善社保體制有助于當(dāng)前消費(fèi)提高

財(cái)經(jīng)網(wǎng) 2025-08-13 12:05:01
20574 跟貼 20574

美女搭訕高富帥，硬件卻出大問(wèn)題！結(jié)局反轉(zhuǎn)驚呆眾人

趣梗挖掘機(jī) 2025-08-12 16:40:38
2 跟貼 2

南京網(wǎng)約車(chē)一夜“封號(hào)”幾千輛？南京交通執(zhí)法部門(mén)：6月啟動(dòng)網(wǎng)約車(chē)非合規(guī)專(zhuān)項(xiàng)治理，依法實(shí)施“一案雙罰”

揚(yáng)子晚報(bào) 2025-08-12 22:03:38
411 跟貼 411

央視罕見(jiàn)披露東風(fēng)5洲際導(dǎo)彈參數(shù)

三叔胡侃 2025-08-11 19:58:38
0 跟貼 0

有人帶鏟子在烏蘭察布一景區(qū)挖“瑪瑙和黃金”，官方：嚴(yán)禁挖掘行為

澎湃新聞 2025-08-10 11:08:31
12533 跟貼 12533

這樣測(cè)量沒(méi)有誤差嗎

超市王小小 2025-08-11 13:47:01
1 跟貼 1

這是什么邏輯？就因?yàn)椴辉敢獠缓线m就說(shuō)我是釘子戶，這不欺負(fù)人嗎

小奶羊 2025-08-13 11:01:17
6 跟貼 6

告別"空中潛艇" 《戰(zhàn)地6》直升機(jī)操控將調(diào)整革新

游民星空 2025-08-13 21:06:31
1 跟貼 1

俄回應(yīng)"普特會(huì)"涉領(lǐng)土問(wèn)題：俄憲法已列明

央視新聞客戶端 2025-08-13 19:25:43
2193 跟貼 2193

深度科普：上帝真的擲骰子嗎？為何要用概率描述粒子狀態(tài)？

宇宙時(shí)空 2025-08-13 13:31:56
2 跟貼 2

央行：前七個(gè)月人民幣存款增加18.44萬(wàn)億元

財(cái)聯(lián)社 2025-08-13 17:06:12
858 跟貼 858

樊綱：大家習(xí)慣過(guò)去掙錢(qián)容易，其實(shí)大多國(guó)家都曾面臨經(jīng)濟(jì)波動(dòng)

南方都市報(bào) 2025-08-13 18:53:44
348 跟貼 348

為什么拉完屎體重沒(méi)變輕？有時(shí)候還更重了？

科普中國(guó) 2025-08-13 11:31:21
116 跟貼 116

四川一高校宿舍收空調(diào)租賃費(fèi)，“4年1680能買(mǎi)一臺(tái)”，校方：今年收不收還不確定

瀟湘晨報(bào) 2025-08-13 12:10:53
312 跟貼 312

峨眉山騾子“累到發(fā)抖”視頻引發(fā)網(wǎng)友破防后，騾隊(duì)被無(wú)人機(jī)代替失業(yè)，騾隊(duì)村委講述現(xiàn)狀

極目新聞 2025-08-13 14:30:40
996 跟貼 996

新款問(wèn)界M7參數(shù)曝光，軸距3030毫米！將于9月份發(fā)布，定價(jià)多少？

車(chē)圈小隆哥 2025-08-12 10:53:12
6 跟貼 6

字節(jié)短劇，帶崩暑期檔，電影院繃不住了

源媒匯 2025-08-11 16:53:28
20 跟貼 20

女兒被霸凌,對(duì)方家長(zhǎng)態(tài)度惡劣,我問(wèn)老公怎么辦,老公:咱們先離婚
罪案洞察者
2025-08-13 11:54:14

日本房?jī)r(jià)崩盤(pán)回憶：當(dāng)年那些“沒(méi)買(mǎi)房”的人，后來(lái)都怎么樣了？
知鑒明史
2025-08-13 09:50:08

山東未來(lái)三天全省大范圍降雨！本輪降雨中心明確，暴雨分布如下
望東升
2025-08-13 20:46:33

問(wèn)界M9在全球最高公路埡口陷車(chē)被營(yíng)救，車(chē)主發(fā)視頻感謝遭網(wǎng)暴，當(dāng)事人回應(yīng)
極目新聞
2025-08-12 18:04:26

最后4小時(shí)，特朗普才簽字！美官員氣得想辭職，中美新時(shí)代開(kāi)啟了
標(biāo)體
2025-08-13 21:17:44

淚目！在江西景區(qū)遇害的19歲大學(xué)生是家中獨(dú)生女，自小就非常優(yōu)秀
巷子里的歷史
2025-08-13 10:24:09

偃旗息鼓了？美記清點(diǎn)自由市場(chǎng)：海量后衛(wèi)可簽底薪扎堆等工作
直播吧
2025-08-13 08:48:20

暑期檔黑馬《浪浪山》翻車(chē)！片方請(qǐng)傅首爾蘇敏站臺(tái)，網(wǎng)友高喊退票
老吳教育課堂
2025-08-14 02:47:58

朝鮮發(fā)話，普京可大膽見(jiàn)特朗普，不會(huì)有去無(wú)回，中國(guó)表態(tài)耐人尋味
董董歷史燴
2025-08-14 01:19:22

靈丘屠城多慘烈？檔案記載：剝?nèi)D女的衣物，逼她們做屈辱的事情
牛牛叨史
2025-08-10 02:49:26

鐵證擊碎謊言！宗慶后婚姻真相曝光，杜建英敗局已定，宗澤后無(wú)語(yǔ)
快樂(lè)的小青瓦
2025-08-13 08:41:17

兩岸統(tǒng)一刻不容緩，臺(tái)灣“新加坡化”已經(jīng)愈演愈烈，真不能再等了
老范談史
2025-08-08 19:54:17

王曉晨身材爆火！前凸后翹曲線拉滿，網(wǎng)友直呼太吸睛?
娛樂(lè)領(lǐng)航家
2025-08-13 22:00:04

1990年，在楊開(kāi)慧紀(jì)念活動(dòng)上，67歲的毛岸青說(shuō)了一番話令人淚目
紅夢(mèng)史說(shuō)
2025-08-06 07:55:39

中央紀(jì)委披露多個(gè)家族式腐敗案例：鄭小燕與丈夫、弟弟、妹妹、女婿等8名親屬共同涉案
政知新媒體
2025-08-12 22:24:27

李嘉誠(chéng)，這次嗅到了危險(xiǎn)
互聯(lián)網(wǎng)思維
2025-08-13 23:34:18

臺(tái)球廳淪為風(fēng)月場(chǎng)？988 元 “一桿進(jìn)洞” 曝光！不齒勾當(dāng)令人發(fā)指
詩(shī)意世界
2025-08-02 11:21:29

重大泄密，誰(shuí)出賣(mài)了胡塞武裝？武器走私網(wǎng)絡(luò)被以色列扒了個(gè)底朝天
荷蘭豆愛(ài)健康
2025-08-13 18:56:44

釋永信事件再度升級(jí)，涉及多位中央電視臺(tái)女主播
鄉(xiāng)野小珥
2025-08-12 15:02:22

江蘇最大的體育場(chǎng)在哪？一起來(lái)看看江蘇13城最大的體育場(chǎng)
柳覽城市發(fā)展
2025-08-13 11:18:08

2025-08-14 04:40:49