夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

推理成本驟降75%!gpt-oss用新數(shù)據(jù)類(lèi)型實(shí)現(xiàn)4倍推理速度

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

OpenAI在最新的開(kāi)源模型gpt-oss上采用的MXFP4數(shù)據(jù)類(lèi)型,直接讓推理成本暴降75%!

更驚人的是,MXFP4在把內(nèi)存占用降為同規(guī)模BF16模型的四分之一的同時(shí),還把生成token的速度提升了整整4倍。

換句話說(shuō),這一操作直接把參數(shù)的大模型塞進(jìn)80GB顯存的顯卡,哪怕是只有16GB顯存的顯卡也能跑200億參數(shù)的版本。



(注:顯存容量通常會(huì)大于Checkpoint Size)

相比以往的數(shù)據(jù)類(lèi)型,MXFP4提供了極高的性?xún)r(jià)比,模型運(yùn)行所需的硬件資源僅為之前的四分之一。

MXFP4有什么魔力?

在gpt-oss中,OpenAI將MXFP4量化應(yīng)用于大約90%的權(quán)重,這一操作的直接動(dòng)機(jī)(收益)就是讓模型運(yùn)行成本變得更加便宜。

將gpt-oss模型量化為MXFP4 后,大語(yǔ)言模型的占用內(nèi)存僅為等規(guī)模BF16模型的1/4,而且生成token的速度最高可提升4倍。



如何通過(guò)改變數(shù)據(jù)類(lèi)型降低模型運(yùn)行成本?這里的邏輯是這樣的:

模型的運(yùn)行成本主要由權(quán)重存儲(chǔ)內(nèi)存帶寬兩個(gè)部分組成。

前者是模型參數(shù)存放和占用的空間,也就是存儲(chǔ)它們所需要的字節(jié)數(shù)。

后者則是模型在推理時(shí),數(shù)據(jù)讀寫(xiě)速度和容量的限制。

數(shù)據(jù)類(lèi)型的變化將直接影響權(quán)重存儲(chǔ)和內(nèi)存帶寬的占用。

例如,傳統(tǒng)模型權(quán)重通常用FP32(32位浮點(diǎn)數(shù))存儲(chǔ),每個(gè)參數(shù)占用4字節(jié)內(nèi)存。

如果用MXFP4,那么每個(gè)權(quán)重只有半字節(jié)權(quán)重存儲(chǔ)大小是FP32的1/8,這就極大地壓縮了權(quán)重?cái)?shù)據(jù)量的大小。

這一壓縮不僅降低了模型的存儲(chǔ)空間,還能讓模型在同樣的帶寬下完成更快地?cái)?shù)據(jù)讀取和寫(xiě)入,從而提高推理速度。

由此,通過(guò)改變數(shù)據(jù)類(lèi)型就能實(shí)現(xiàn)推理成本的降本增效。

那么,MXFP4是怎么實(shí)現(xiàn)這一點(diǎn)的?

MXFP4

MXFP4的全稱(chēng)是微縮放4位浮點(diǎn)數(shù)(Micro-scaling Floating Point 4-bit),是由Open Compute Project (OCP) 定義的4位浮點(diǎn)數(shù)據(jù)類(lèi)型。

(注:OCP是Facebook于2011年發(fā)起的超大規(guī)模數(shù)據(jù)中心合作組織,旨在降低數(shù)據(jù)中心組件成本并提高可獲取性。)

在深度學(xué)習(xí)領(lǐng)域中,數(shù)據(jù)類(lèi)型的精度和效率一直是研究者取舍的重點(diǎn)。

例如,傳統(tǒng)的FP4只有四位,1位符號(hào)位(表示正負(fù)),2位指數(shù)位(決定數(shù)值的量級(jí)),1位尾數(shù)位(表示小數(shù)部分)。

這種表示方法雖然壓縮了數(shù)據(jù)量,但也導(dǎo)致了非常有限的可表示的數(shù)值范圍,它只能表示8個(gè)正數(shù)和8個(gè)負(fù)數(shù)。

相較之下,BF16(1位符號(hào)位,8位指數(shù)位和7 位尾數(shù)位)則能表示 65,536個(gè)數(shù)值,不過(guò)表示范圍的增加也帶來(lái)了計(jì)算成本的上升。

如果為了提高計(jì)算效率,直接把這4個(gè)BF16數(shù)值:0.0625、0.375、0.078125、0.25直接轉(zhuǎn)換成FP4,那么它們會(huì)變成 0、0.5、0、0.5。

不難看出,這樣的誤差顯然是無(wú)法接受的。

于是,為了在減少數(shù)據(jù)量的同時(shí)確保一定的精度,MXFP4通過(guò)將一組高精度數(shù)值(默認(rèn)32個(gè))乘以一個(gè)公共縮放因子(這個(gè)縮放因子是一個(gè)8位二進(jìn)制指數(shù))。這樣,我們前面那4個(gè)BF16數(shù)值就會(huì)變成 1、6、1.5、4。



這樣就既實(shí)現(xiàn)了極致的數(shù)據(jù)大小,又維持了數(shù)值間大小關(guān)系的精度。

此外,這一過(guò)程的實(shí)現(xiàn)還與計(jì)算硬件相關(guān)

一般規(guī)律是,每將浮點(diǎn)精度減半,芯片的浮點(diǎn)吞吐量就能翻倍。

比如,一個(gè)B200SXM模塊的稠密BF16運(yùn)算性能約為2.2 petaFLOPS,降到FP4(Nvidia Blackwell 芯片提供硬件加速)后,就能提升到9petaFLOPS

雖然這會(huì)在吞吐量上帶來(lái)一些提升,但在推理階段,更多FLOPS的意義主要是減少模型開(kāi)始生成答案的等待時(shí)間

值得注意的是,運(yùn)行MXFP4模型并不要求硬件必須原生支持FP4

用于訓(xùn)練gpt-oss的Nvidia H100就不支持原生FP4,不過(guò)它依然可以運(yùn)行,只是無(wú)法享受該數(shù)據(jù)類(lèi)型的全部?jī)?yōu)勢(shì)。

低精度與計(jì)算量的取舍

事實(shí)上,MXFP4并不是新概念。早在2023年的報(bào)告中,OCP就在報(bào)告《OCP Microscaling Formats (MX) Specification Version 1.0》中詳細(xì)介紹過(guò)這一數(shù)據(jù)類(lèi)型。



然而,這種低精度的數(shù)據(jù)類(lèi)型通常被認(rèn)為是對(duì)性?xún)r(jià)比的妥協(xié),因?yàn)榫认陆禃?huì)導(dǎo)致質(zhì)量損失。損失的程度取決于具體的量化方法。

不過(guò),已經(jīng)有足夠多的研究表明,將數(shù)據(jù)精度從16位降到8位,在大語(yǔ)言模型場(chǎng)景下幾乎沒(méi)有質(zhì)量損失,這種精度已經(jīng)足夠支撐模型的正常工作。

事實(shí)上,一些模型開(kāi)發(fā)者,例如DeepSeek已經(jīng)開(kāi)始直接用FP8進(jìn)行訓(xùn)練。

此外,雖然MXFP4比標(biāo)準(zhǔn)FP4好得多,但它也有缺陷

例如,英偉達(dá)就認(rèn)為這種數(shù)據(jù)類(lèi)型相比FP8仍可能出現(xiàn)質(zhì)量下降,部分原因是其縮放塊大?。⊿caling Block Size)為32,不夠細(xì)?;?/strong>

為此,英偉達(dá)推出了自己的微縮放數(shù)據(jù)類(lèi)型NVFP4,通過(guò)將縮放塊大小降至16和使用FP8縮放因子來(lái)提高質(zhì)量。

這幾乎等同于FP8的工作方式。只不過(guò)MXFP4是在張量?jī)?nèi)部的小塊上應(yīng)用縮放因子,而不是作用于整個(gè)張量,從而在數(shù)值之間實(shí)現(xiàn)更細(xì)的粒度。

最后,在gpt-oss上,OpenAI只使用了MXFP4。

鑒于OpenAI在AI領(lǐng)域上的影響力,這基本上就等于在說(shuō):

如果MXFP4對(duì)我們夠用,那對(duì)你也應(yīng)該夠用。

[1]https://www.theregister.com/2025/08/10/openai_mxfp4/

[2]https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

[3]https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女兒被霸凌,對(duì)方家長(zhǎng)態(tài)度惡劣,我問(wèn)老公怎么辦,老公:咱們先離婚

女兒被霸凌,對(duì)方家長(zhǎng)態(tài)度惡劣,我問(wèn)老公怎么辦,老公:咱們先離婚

罪案洞察者
2025-08-13 11:54:14
日本房?jī)r(jià)崩盤(pán)回憶:當(dāng)年那些“沒(méi)買(mǎi)房”的人,后來(lái)都怎么樣了?

日本房?jī)r(jià)崩盤(pán)回憶:當(dāng)年那些“沒(méi)買(mǎi)房”的人,后來(lái)都怎么樣了?

知鑒明史
2025-08-13 09:50:08
山東未來(lái)三天全省大范圍降雨!本輪降雨中心明確,暴雨分布如下

山東未來(lái)三天全省大范圍降雨!本輪降雨中心明確,暴雨分布如下

望東升
2025-08-13 20:46:33
問(wèn)界M9在全球最高公路埡口陷車(chē)被營(yíng)救,車(chē)主發(fā)視頻感謝遭網(wǎng)暴,當(dāng)事人回應(yīng)

問(wèn)界M9在全球最高公路埡口陷車(chē)被營(yíng)救,車(chē)主發(fā)視頻感謝遭網(wǎng)暴,當(dāng)事人回應(yīng)

極目新聞
2025-08-12 18:04:26
最后4小時(shí),特朗普才簽字!美官員氣得想辭職,中美新時(shí)代開(kāi)啟了

最后4小時(shí),特朗普才簽字!美官員氣得想辭職,中美新時(shí)代開(kāi)啟了

標(biāo)體
2025-08-13 21:17:44
淚目!在江西景區(qū)遇害的19歲大學(xué)生是家中獨(dú)生女,自小就非常優(yōu)秀

淚目!在江西景區(qū)遇害的19歲大學(xué)生是家中獨(dú)生女,自小就非常優(yōu)秀

巷子里的歷史
2025-08-13 10:24:09
偃旗息鼓了?美記清點(diǎn)自由市場(chǎng):海量后衛(wèi)可簽 底薪扎堆等工作

偃旗息鼓了?美記清點(diǎn)自由市場(chǎng):海量后衛(wèi)可簽 底薪扎堆等工作

直播吧
2025-08-13 08:48:20
暑期檔黑馬《浪浪山》翻車(chē)!片方請(qǐng)傅首爾蘇敏站臺(tái),網(wǎng)友高喊退票

暑期檔黑馬《浪浪山》翻車(chē)!片方請(qǐng)傅首爾蘇敏站臺(tái),網(wǎng)友高喊退票

老吳教育課堂
2025-08-14 02:47:58
朝鮮發(fā)話,普京可大膽見(jiàn)特朗普,不會(huì)有去無(wú)回,中國(guó)表態(tài)耐人尋味

朝鮮發(fā)話,普京可大膽見(jiàn)特朗普,不會(huì)有去無(wú)回,中國(guó)表態(tài)耐人尋味

董董歷史燴
2025-08-14 01:19:22
靈丘屠城多慘烈?檔案記載:剝?nèi)D女的衣物,逼她們做屈辱的事情

靈丘屠城多慘烈?檔案記載:剝?nèi)D女的衣物,逼她們做屈辱的事情

牛牛叨史
2025-08-10 02:49:26
鐵證擊碎謊言!宗慶后婚姻真相曝光,杜建英敗局已定,宗澤后無(wú)語(yǔ)

鐵證擊碎謊言!宗慶后婚姻真相曝光,杜建英敗局已定,宗澤后無(wú)語(yǔ)

快樂(lè)的小青瓦
2025-08-13 08:41:17
兩岸統(tǒng)一刻不容緩,臺(tái)灣“新加坡化”已經(jīng)愈演愈烈,真不能再等了

兩岸統(tǒng)一刻不容緩,臺(tái)灣“新加坡化”已經(jīng)愈演愈烈,真不能再等了

老范談史
2025-08-08 19:54:17
王曉晨身材爆火!前凸后翹曲線拉滿,網(wǎng)友直呼太吸睛?

王曉晨身材爆火!前凸后翹曲線拉滿,網(wǎng)友直呼太吸睛?

娛樂(lè)領(lǐng)航家
2025-08-13 22:00:04
1990年,在楊開(kāi)慧紀(jì)念活動(dòng)上,67歲的毛岸青說(shuō)了一番話令人淚目

1990年,在楊開(kāi)慧紀(jì)念活動(dòng)上,67歲的毛岸青說(shuō)了一番話令人淚目

紅夢(mèng)史說(shuō)
2025-08-06 07:55:39
中央紀(jì)委披露多個(gè)家族式腐敗案例:鄭小燕與丈夫、弟弟、妹妹、女婿等8名親屬共同涉案

中央紀(jì)委披露多個(gè)家族式腐敗案例:鄭小燕與丈夫、弟弟、妹妹、女婿等8名親屬共同涉案

政知新媒體
2025-08-12 22:24:27
李嘉誠(chéng),這次嗅到了危險(xiǎn)

李嘉誠(chéng),這次嗅到了危險(xiǎn)

互聯(lián)網(wǎng)思維
2025-08-13 23:34:18
臺(tái)球廳淪為風(fēng)月場(chǎng)?988 元 “一桿進(jìn)洞” 曝光!不齒勾當(dāng)令人發(fā)指

臺(tái)球廳淪為風(fēng)月場(chǎng)?988 元 “一桿進(jìn)洞” 曝光!不齒勾當(dāng)令人發(fā)指

詩(shī)意世界
2025-08-02 11:21:29
重大泄密,誰(shuí)出賣(mài)了胡塞武裝?武器走私網(wǎng)絡(luò)被以色列扒了個(gè)底朝天

重大泄密,誰(shuí)出賣(mài)了胡塞武裝?武器走私網(wǎng)絡(luò)被以色列扒了個(gè)底朝天

荷蘭豆愛(ài)健康
2025-08-13 18:56:44
釋永信事件再度升級(jí),涉及多位中央電視臺(tái)女主播

釋永信事件再度升級(jí),涉及多位中央電視臺(tái)女主播

鄉(xiāng)野小珥
2025-08-12 15:02:22
江蘇最大的體育場(chǎng)在哪?一起來(lái)看看江蘇13城最大的體育場(chǎng)

江蘇最大的體育場(chǎng)在哪?一起來(lái)看看江蘇13城最大的體育場(chǎng)

柳覽城市發(fā)展
2025-08-13 11:18:08
2025-08-14 04:40:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11098文章數(shù) 176226關(guān)注度
往期回顧 全部

科技要聞

叫板遠(yuǎn)親黃仁勛 蘇姿豐放話"性能超英偉達(dá)"

頭條要聞

女大學(xué)生拒絕搭訕被捅死 嫌疑人戶籍地村支書(shū)發(fā)聲

頭條要聞

女大學(xué)生拒絕搭訕被捅死 嫌疑人戶籍地村支書(shū)發(fā)聲

體育要聞

擁有133年歷史,張玉寧老東家被逐出職業(yè)聯(lián)賽

娛樂(lè)要聞

趙露思掀桌,這局能贏?

財(cái)經(jīng)要聞

7月M2同比增8.8% 前7月存款增18.44萬(wàn)億

汽車(chē)要聞

全新家族式設(shè)計(jì) 新款豐田鋒蘭達(dá)假想圖曝光

態(tài)度原創(chuàng)

房產(chǎn)
親子
藝術(shù)
手機(jī)
公開(kāi)課

房產(chǎn)要聞

嚇人!海口這個(gè)盤(pán)剛交房,外墻裂成蜘蛛網(wǎng)!

親子要聞

養(yǎng)育是陪伴一個(gè)生命的綻放,教會(huì)TA跌倒后勇氣站起來(lái)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

手機(jī)要聞

榮耀Magic V Flip2下周見(jiàn),閃光燈位置有變化

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 99精品国产99久久久久97| 位美女人人操人人| 好了AV在线第四站综合网站| 日韩人妻无吗| 久久精品国产久精国产一老狼| 中文AV无码AV| 波多野结衣电影A区| 久久婷婷六月综合| 中文偷拍视频| 日日躁夜夜躁mv老熟女| 欧美浓毛大泬视频| 操骚逼五月天激情| 亚洲熟女乱综合一区二区在线| 国产乱伦一级视频| WW国产精品| 国外av片免费看一区二区三区| 久久久精品人妻一区二区无码99| 国产成人一区二区精品非洲| 超碰人妻澡澡| 你懂的中文字幕| 丁香六月国产| 综合偷自拍亚洲乱中文字幕| 综合在线视频精品专区| 国产情侣作爱视频免费观看| 欧美性色老妇人| 亚洲人成绝费网站色www| 黑人大战少妇| 亚洲欧美激情精品一区二区| 九九精品热在线| 国产成人无码一区二区三区在线观看 | 日韩av无码资源| 一区二区三区高清视频一| 日本老熟妇乱子伦精品| 国内熟妇人妻色在线视频| 色欲av国内精品久久久夜夜百度 | 精品一区二区无码人妖| 亚洲欧美人成视频一区在线| 无码高清成人 视频| 日本XXXX18野外无毒不卡| 午夜内射高潮视频| 一本色道久久综合亚州精品蜜桃 |