OpenAI 預(yù)熱了好幾周的 GPT-5 還沒來,但傳聞中的開源模型先來了。
當(dāng)?shù)貢r(shí)間 8 月 5 號,OpenAI 發(fā)布了兩款新的開源推理模型:gpt-oss-120b 和 gpt-oss-20b,分別包含約 1170 億和 210 億參數(shù)。
(來源:OpenAI)
它們的權(quán)重均可在 Hugging Face 上免費(fèi)下載,并采用 MXFP4 原生量化。兩款模型均采用 Apache 2.0 許可協(xié)議,免費(fèi)開放給開發(fā)者和企業(yè)使用,包括商業(yè)用途。但訓(xùn)練數(shù)據(jù)集沒有披露。
算起來,OpenAI 上次發(fā)布開放權(quán)重的模型,還要追溯到 2019 年的 GPT-2。
與開源模型一同發(fā)布的還有一篇論文,討論了開源大模型權(quán)重的最糟情況及其風(fēng)險(xiǎn)。
(來源:OpenAI)
兩款開源模型各有所長。較大的 gpt-oss-120b 擁有 1170 億參數(shù),在推理任務(wù)上的表現(xiàn)幾乎能與 OpenAI 的 o4-mini 模型分庭抗禮,可在單張 80GB 顯存的 GPU 上流暢運(yùn)行。
較小的 gpt-oss-20b 雖然只有 200 億參數(shù),但在多項(xiàng)基準(zhǔn)測試中的表現(xiàn)卻能匹敵 o3-mini 模型,而且僅需 16GB 內(nèi)存就能在筆記本電腦上本地運(yùn)行,便于快速迭代開發(fā)。
Reddit 論壇上已經(jīng)有人曬出了自己在 16GB RAM 本地跑的 gpt-oss-20b:
(來源:Reddit)
OpenAI CEO 山姆·奧特曼(Sam Altman)在聲明中表示:“我們很興奮能夠?qū)⑦@個耗費(fèi)數(shù)十億美元研發(fā)的模型免費(fèi)提供給全世界,讓 AI 惠及更多人?!?/p>
這兩款模型都采用了 Apache 2.0 許可證發(fā)布,用戶可以自由進(jìn)行商業(yè)使用、重新分發(fā),甚至進(jìn)行定制化改造。
在架構(gòu)設(shè)計(jì)方面,這兩款模型都采用了稀疏專家(MoE,Mixture-of-Experts)結(jié)構(gòu)。gpt-oss-120b 含有 128 個專家,每個 token 激活 4 個;gpt-oss-20b 則有 32 個專家。兩款模型的上下文窗口均為 128k。
圖 | 兩個新模型的架構(gòu)(來源:OpenAI)
兩者均在大規(guī)模文本數(shù)據(jù)集上訓(xùn)練,這些數(shù)據(jù)聚焦于 STEM 學(xué)科、通識知識和編程內(nèi)容,并過濾掉了危險(xiǎn)或敏感數(shù)據(jù),如化學(xué)、生物、放射性與核相關(guān)內(nèi)容。
同時(shí),OpenAI 還宣布,為了促進(jìn)更安全的開源生態(tài)系統(tǒng),他們將舉辦紅隊(duì)挑戰(zhàn)賽,旨在鼓勵世界各地的開發(fā)者幫助識別新的安全問題。挑戰(zhàn)賽將設(shè)立高達(dá) 50 萬美元的獎金,根據(jù) OpenAI 和其他實(shí)驗(yàn)室的專家評審團(tuán)的評審結(jié)果進(jìn)行發(fā)放。
模型能力方面,gpt-oss 系列模型在多項(xiàng)推理和代碼任務(wù)基準(zhǔn)測試中都表現(xiàn)不俗。
在AIME、GPQA、MMLU 等推理任務(wù)上,120b 模型達(dá)到了與 o4-mini 相當(dāng)甚至更好的成績。在工具調(diào)用任務(wù)如 SWE-bench、Codeforces 和 Tau-Bench 上,gpt-oss 同樣展示出極強(qiáng)的執(zhí)行能力。
在 HealthBench 測試中甚至能超越 OpenAI o1 和 GPT-4o 等專有模型。
具體成績?nèi)缦拢?/p>
圖 | 多項(xiàng)基準(zhǔn)測試成績中的其中一項(xiàng)(來源:OpenAI)
雖然 OpenAI 沒有放出跟 DeepSeek 的成績對比圖,但已有 Reddit 網(wǎng)友總結(jié)出來:在考慮 AIME(DeepSeek 沒用工具,gpt-oss 用了)的情況下,gpt-oss-120b 的超越幅度在 5.7% 左右;如果不考慮 AIME,差距是微乎其微的。
(來源:Reddit)
此外,它們也支持思維鏈(Chain-of-Thought)、結(jié)構(gòu)化輸出和工具調(diào)用,可直接集成 OpenAI 的 Responses API,并用于構(gòu)建基于代理的復(fù)雜工作流。
值得注意的是,兩個模型的思維鏈?zhǔn)菬o監(jiān)督的,能夠讓開發(fā)者和研究人員有機(jī)會研究和實(shí)現(xiàn)他們自己的思維鏈監(jiān)控系統(tǒng)。
OpenAI 解釋稱,“監(jiān)控推理模型的思維鏈有助于檢測不當(dāng)行為……秉承我們自推出 OpenAI o1?preview 以來的原則,我們沒有對兩個開源模型的思維鏈進(jìn)行任何直接監(jiān)督。我們認(rèn)為這對于監(jiān)控模型的不當(dāng)行為、欺騙和誤用至關(guān)重要。”
安全性是 OpenAI 推出此類模型時(shí)的核心考慮之一。他們對模型進(jìn)行了全面的能力評估和濫用風(fēng)險(xiǎn)測試,包括模擬將模型通過微調(diào)訓(xùn)練至生物學(xué)和網(wǎng)絡(luò)安全等敏感領(lǐng)域的高能力水平。
評估結(jié)果表明,即便經(jīng)過對抗性微調(diào),gpt-oss-120b 也未達(dá)到 OpenAI 內(nèi)部定義的“高風(fēng)險(xiǎn)”能力門檻。
作為開源模型,用戶可通過 Hugging Face、GitHub 等平臺下載模型權(quán)重,并在 LM Studio、Ollama 等 PC 程序上運(yùn)行。同時(shí),亞馬遜云(AWS)、微軟云(Azure)、Baseten 及 Databricks 等主流云服務(wù)商也已提供對新模型的支持。
早在今年 1 月底,OpenAI CEO 奧特曼就曾罕見表態(tài)稱,公司此前在 AI 開源道路上“站到了錯誤的一邊”,尤其是在見證了中國 DeepSeek、Qwen 等開源模型的迅速崛起后。此次 OpenAI 的兩款最新開源模型,也被視為對其他開源項(xiàng)目競爭壓力的直接回應(yīng)。
最后,奧特曼也是在最新聲明中表示:“回顧 2015 年我們成立之初,OpenAI 的使命就是確保通用人工智能(AGI)造福全人類。為此,我們很高興看到世界能夠構(gòu)建一個基于民主價(jià)值觀、由美國創(chuàng)建的開放人工智能堆棧,該堆棧對所有人免費(fèi)開放,并造福于廣大民眾。”
參考資料:
https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf
https://openai.com/index/introducing-gpt-oss/
https://www.reddit.com/r/LocalLLaMA/comments/1mifuqk/gptoss120b_outperforms_deepseekr10528_in/
https://cdn.openai.com/pdf/231bf018-659a-494d-976c-2efdfc72b652/oai_gpt-oss_Model_Safety.pdf
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.