今日凌晨,,這是繼 6 年前 GPT-2 之后的首次開(kāi)源嘗試。
據(jù)官方稱(chēng),在核心推理基準(zhǔn)測(cè)試中,gpt-oss-120b 的性能表現(xiàn)與 OpenAI 的 o4 mini 不相上下(模型的實(shí)際性能表現(xiàn),還是要等網(wǎng)友們一手測(cè)評(píng))。且相比于 o4 mini 的定價(jià)(每百萬(wàn)輸入 token 1.1 美元;每百萬(wàn)輸出 token 4.4 美元),成本降低了至少 10 倍。
不惜沖擊自家的產(chǎn)品線(xiàn),也要推出這款開(kāi)源模型,為什么?OpenAI 要做什么?
在 gpt-oss 發(fā)布后,推特、Reddit 等社交平臺(tái)發(fā)酵了不少探討。但 Ai2 研究科學(xué)家 Nathan Lambert 今天發(fā)布的一篇分析文章,可以說(shuō)算是直指要點(diǎn),他認(rèn)為,OpenAI 開(kāi)源動(dòng)作的背后有許多潛在的戰(zhàn)略考量,但都指向一點(diǎn):OpenAI 對(duì)自身的價(jià)值定位有著更清晰的認(rèn)識(shí)。
隨著ChatGPT的周活躍用戶(hù)即將突破十億大關(guān), OpenAI 可能意識(shí)到,模型本身已不再是其核心競(jìng)爭(zhēng)力,真正的護(hù)城河在于龐大的用戶(hù)基礎(chǔ)和應(yīng)用生態(tài)。
OpenAI 的目標(biāo)用戶(hù)并不是真正的開(kāi)源AI社區(qū),而是那些希望為自己的業(yè)務(wù)嘗試「開(kāi)源 AI 模型」的企業(yè)。
在文章中,Nathan Lambert 從「圈內(nèi)人」的視角出發(fā),分析了 OpenAI 的「?jìng)伍_(kāi)源」、OpenAI 開(kāi)源給整個(gè) AI 生態(tài)系統(tǒng)帶來(lái)的影響、gpt-oss 模型的架構(gòu)以及對(duì)中美開(kāi)源模型競(jìng)賽的影響等。
原文章:https://www.interconnects.ai/p/gpt-oss-openai-validates-the-open?utm_campaign=email-half-post&r=1yej8&utm_source=substack&utm_medium=email
超 10000 人的「AI 產(chǎn)品市集」社群!不錯(cuò)過(guò)每一款有價(jià)值的 AI 應(yīng)用。
邀請(qǐng)從業(yè)者、開(kāi)發(fā)人員和創(chuàng)業(yè)者,飛書(shū)掃碼加群:
進(jìn)群后,你有機(jī)會(huì)得到:
最新、最值得關(guān)注的 AI 新品資訊;
不定期贈(zèng)送熱門(mén)新品的邀請(qǐng)碼、會(huì)員碼;
最精準(zhǔn)的AI產(chǎn)品曝光渠道
OpenAI 今天發(fā)布了兩款開(kāi)源純文本推理模型。這兩款模型都是混合專(zhuān)家( MoE )架構(gòu),經(jīng)過(guò)專(zhuān)門(mén)設(shè)計(jì),能夠在從消費(fèi)級(jí) GPU 到云服務(wù)器的各種硬件上高效運(yùn)行。由于采用了 Apache 2.0 許可證,這些模型可以被自由地用于「蒸餾」成其他推理模型或部署到商業(yè)產(chǎn)品中,并且沒(méi)有下游使用限制。
其中,較小的 gpt-oss-20B 模型擁有 36 億活躍參數(shù)(總參數(shù) 210 億),而較大尺寸的 gpt-oss-120B 模型擁有 51 億的活躍參數(shù)。它們的架構(gòu)選擇,也延續(xù)了我們?cè)谄渌敿忾_(kāi)源模型中觀(guān)察到的趨勢(shì)。
這次發(fā)布之所以引人注目,是因?yàn)?OpenAI 作為 AI 領(lǐng)域的領(lǐng)導(dǎo)者,推出了一款足以沖擊自家部分 API 產(chǎn)品的開(kāi)源模型,這給開(kāi)源模型的性能和策略帶來(lái)了巨大變化。
01OpenAI 開(kāi)源并不是單純的技術(shù)分享,而是為構(gòu)建應(yīng)用生態(tài)鋪路
模型的技術(shù)細(xì)節(jié)我們稍后討論,但這次發(fā)布的重點(diǎn)在于,這是 OpenAI 自 GPT-2 以來(lái)首次發(fā)布開(kāi)源語(yǔ)言模型,其意義重大。其中,較大尺寸的 120B 模型「在核心推理基準(zhǔn)測(cè)試中,表現(xiàn)與 OpenAI o4 mini 已不相上下」,這對(duì)整個(gè)生態(tài)系統(tǒng)來(lái)說(shuō)是一個(gè)重要時(shí)刻。
首先, OpenAI 推出了一款性能達(dá)到當(dāng)前開(kāi)源模型頂尖水平的模型,這說(shuō)明他們的領(lǐng)導(dǎo)層在 2023 年對(duì)開(kāi)源模型的種種擔(dān)憂(yōu)有些過(guò)度了。事實(shí)證明,開(kāi)源模型的邊際風(fēng)險(xiǎn)遠(yuǎn)沒(méi)有許多人想的那么極端(至少對(duì)純文本模型是這樣,多模態(tài)的風(fēng)險(xiǎn)要大得多)。一旦 Meta 和中國(guó)等其他力量向 OpenAI 證明了其中的風(fēng)險(xiǎn)可控,發(fā)布新模型的道路也就此打開(kāi)。
其次,OpenAI此次披露的技術(shù)細(xì)節(jié)遠(yuǎn)超以往。盡管官方博文對(duì)模型內(nèi)部的許多信息只是簡(jiǎn)單帶過(guò),但社區(qū)的技術(shù)愛(ài)好者們將通過(guò)動(dòng)手實(shí)踐,逐步揭開(kāi)它的「面紗」。這其中既包括一些基礎(chǔ)信息,比如我們首次看到了 OpenAI 推理模型未經(jīng)處理的「思維鏈」( CoT );也包括一些更有趣的發(fā)現(xiàn),比如該模型是如何被訓(xùn)練在「思維鏈」中調(diào)用工具的(類(lèi)似于其 o3 模型)。此外,還有一些其他細(xì)節(jié)包括:研究者將能直接通過(guò)模型的原始權(quán)重,探索 OpenAI 的指令層級(jí)(這其中一部分在 API 中是無(wú)法觸及的);一種名為「 harmony 」的新型提示詞格式;與 API 中一致的低、中、高三檔「推理能效」;以及一個(gè)重要的概念驗(yàn)證,展示了基礎(chǔ)的社區(qū)標(biāo)準(zhǔn)架構(gòu)究竟能達(dá)到何種性能高度。這些都有待 AI 社區(qū)進(jìn)一步挖掘。
再者, OpenAI 對(duì) API 市場(chǎng)也采取了更激進(jìn)的競(jìng)爭(zhēng)策略,不惜沖擊自身產(chǎn)品線(xiàn),推出了這樣一款極具競(jìng)爭(zhēng)力的開(kāi)源模型。盡管開(kāi)源模型的采用速度因測(cè)試、配置等環(huán)節(jié),通常慢于 API ,但這款模型的各項(xiàng)準(zhǔn)備工作都旨在盡可能地加速進(jìn)行。任何與 OpenAI o4 mini 、 Claude Haiku 、 Gemini Flash 、 DeepSeek R1 等現(xiàn)有模型競(jìng)爭(zhēng)的 API 產(chǎn)品,都將面臨這款新模型的直接挑戰(zhàn)。
目前, OpenAI 的 o4 mini 模型定價(jià)為每百萬(wàn)輸入 token 1.1 美元,每百萬(wàn)輸出 token 4.4 美元。相比之下,部署這款新的開(kāi)源模型的成本預(yù)計(jì)將降低至少 10 倍。這一舉動(dòng)背后有許多潛在的戰(zhàn)略考量,但都指向一點(diǎn):OpenAI對(duì)自身的價(jià)值定位有著更清晰的認(rèn)識(shí)。
有趣的是,OpenAI 在這款模型中有意避開(kāi)了一些功能,官方表示:「對(duì)于尋求多模態(tài)支持、內(nèi)置工具以及與我們平臺(tái)無(wú)縫集成的用戶(hù),通過(guò)我們 API 平臺(tái)獲取模型仍是最佳選擇?!?舍棄這些功能,除了上述原因外,也與后文將討論的一些「頭疼問(wèn)題」有關(guān)。
總結(jié)一下, OpenAI 如何掌控未來(lái) AI 生態(tài)的藍(lán)圖已經(jīng)愈發(fā)清晰了。在我看來(lái),其中最有可能的幾個(gè)原因是:
OpenAI 可能正在試圖在 GPT-5 發(fā)布前,通過(guò)成本優(yōu)勢(shì)讓所有同類(lèi) API 模型顯得過(guò)時(shí),他們希望借此占領(lǐng)高端市場(chǎng)。
隨著ChatGPT的周活躍用戶(hù)即將突破十億大關(guān), OpenAI 可能意識(shí)到,模型本身已不再是其核心競(jìng)爭(zhēng)力,真正的護(hù)城河在于龐大的用戶(hù)基礎(chǔ)和應(yīng)用生態(tài)。
當(dāng)然,背后還有很多其他原因,比如我們接下來(lái)要提到的政治博弈。但 OpenAI 向來(lái)是一家目標(biāo)明確的公司,他們的決策往往都服務(wù)于自身的核心利益。
02「?jìng)伍_(kāi)源」,目標(biāo)是吸引希望快速部署「開(kāi)源 AI」的企業(yè)
此外,這次發(fā)布中還有許多令人費(fèi)解或意在言外之處,它們?yōu)槲覀兝斫?OpenAI 的戰(zhàn)略提供了更多線(xiàn)索。不出所料,OpenAI 并沒(méi)有公布訓(xùn)練數(shù)據(jù)、代碼或技術(shù)報(bào)告。他們希望借助「開(kāi)源」這個(gè)名號(hào)在企業(yè)市場(chǎng)中掀起波瀾,但這無(wú)疑會(huì)對(duì)學(xué)術(shù)研究和真正的「開(kāi)源」 AI 社區(qū)造成一些負(fù)面影響。未來(lái)的問(wèn)題包括:
命名很糟糕——既尷尬又容易讓人迷惑,但對(duì)于實(shí)現(xiàn)他的營(yíng)銷(xiāo)目標(biāo)卻很有效。對(duì)于長(zhǎng)期關(guān)注開(kāi)源 AI 的圈內(nèi)人而言,大型科技公司模糊「開(kāi)源」義已經(jīng)是司空見(jiàn)慣了。我理解 OpenAI 為什么要這樣做,但這種命名上的沖突恰恰說(shuō)明,他們的目標(biāo)用戶(hù)并不是真正的開(kāi)源 AI 社區(qū),而是那些希望為自己的業(yè)務(wù)嘗試「開(kāi)源 AI 模型」的企業(yè),而 OpenAI 拋出的這個(gè)目標(biāo),大到讓企業(yè)難以忽視。
OpenAI并沒(méi)有發(fā)布基礎(chǔ)模型。這一點(diǎn)業(yè)內(nèi)早有預(yù)料,但對(duì)研究人員而言卻是至關(guān)重要的。這兩款稀疏、低數(shù)值精度的 MoE 模型,對(duì)研究人員來(lái)說(shuō),用起來(lái)并不容易。對(duì)于研究人員和技術(shù)愛(ài)好者,最佳的研究工具是參數(shù)量在 10 億到 70 億之間的稠密型基礎(chǔ)模型。這類(lèi)模型才是開(kāi)放社區(qū)中生命力更強(qiáng)的「成果」,現(xiàn)在大家基本用的都是 Qwen 系列模型。
03模型架構(gòu)向 DeepSeek 的稀疏 MoE 看齊
在討論未知數(shù)之前,我必須先談?wù)勀P偷募軜?gòu)。這些模型再次印證了整個(gè)行業(yè)在模型設(shè)計(jì)上的共同趨勢(shì)。近期頂尖的開(kāi)源模型,幾乎都是受 DeepSeek 架構(gòu)啟發(fā)的稀疏 MoE 模型。例如, DeepSeek V3 擁有 370 億活躍參數(shù)和 6710 億總參數(shù),而 Kimi K2 則有 320 億活躍參數(shù)和 1 萬(wàn)億總參數(shù)。而 gpt-oss 有 50 億活躍參數(shù)和 1210 億總參數(shù),其稀疏度也正好處于正常的范圍內(nèi)??梢哉f(shuō), MoE 架構(gòu)的稀疏性設(shè)計(jì)目前完全占據(jù)主導(dǎo)地位。雖然規(guī)模較小的 gpt-oss 模型比 Qwen 的小模型(30 億活躍,300 億總參數(shù))稀疏度略低,但預(yù)計(jì),這些模型的稀疏化程度將持續(xù)提高。
以下是一些需要進(jìn)一步測(cè)試才能明確其影響的方面。
模型在發(fā)布時(shí)就已經(jīng)進(jìn)行了量化。官方稱(chēng)其「原生支持 MXFP4 量化」。目前尚不清楚具體會(huì)影響哪些用戶(hù),但這可能意味著擁有最新硬件的用戶(hù)將受益最多,同時(shí)也可能在不同的 Torch/Cuda 版本間引發(fā)兼容性問(wèn)題,甚至可能導(dǎo)致其行為與訓(xùn)練版本相比出現(xiàn)一些異常。
當(dāng)然,這也可能是一個(gè)優(yōu)勢(shì)。由于大模型被量化到 4 比特精度,它將能夠在 80GB 顯存的 GPU (如 NVIDIA 的 A/H100 系列)上運(yùn)行,這取決于實(shí)際性能表現(xiàn)。
官方采取了安全措施來(lái)改變模型的可微調(diào)程度。OpenAI 正在或即將發(fā)布一篇研究論文,介紹其研發(fā)的新方法,旨在防止用戶(hù)通過(guò)微調(diào)來(lái)「繞開(kāi)」已發(fā)布指令模型的安全設(shè)置。這是開(kāi)源模型發(fā)布中一個(gè)長(zhǎng)期存在的棘手問(wèn)題。核心疑問(wèn)在于: OpenAI 此次發(fā)布的模型是否還具備良好的可微調(diào)性?官方在其博文中聲稱(chēng)可以,但最終的答案需要社區(qū)來(lái)檢驗(yàn)。或者說(shuō),「能夠輕易去除安全限制」本身,算不算是「易用模型」的一個(gè)特性呢?
例如, Google 的 Gemma 模型由于采用了不同的注意力機(jī)制,并且是蒸餾而來(lái),參數(shù)空間也不同,因此一直以來(lái)都較難微調(diào)。目前主流的開(kāi)源微調(diào)工具鏈仍然是為 Llama 和 Qwen 優(yōu)化的,要改變這種局面需要很長(zhǎng)時(shí)間。
未來(lái),許多人會(huì)將「我們讓這個(gè)模型無(wú)法被‘反審查’」的聲明視為一種挑戰(zhàn)。關(guān)注「越獄」研究社區(qū)的動(dòng)態(tài)將會(huì)非常有趣,畢竟,對(duì)可修改模型的需求市場(chǎng)是真實(shí)存在的。
04開(kāi)源模型的工具使用生態(tài)仍很混亂,評(píng)分高的模型不一定易用
模型經(jīng)過(guò)訓(xùn)練可以使用工具,但開(kāi)源模型的工具使用生態(tài)目前仍相當(dāng)混亂。我在設(shè)計(jì)一款具備原生 o3 風(fēng)格工具調(diào)用能力的 OLMo 模型時(shí),最擔(dān)心的問(wèn)題之一,就是如何確保用戶(hù)在推理時(shí)能夠像訓(xùn)練時(shí)一樣無(wú)縫地使用工具。一位早期測(cè)試者曾提到,模型有時(shí)會(huì)「幻覺(jué)」出訓(xùn)練時(shí)使用的工具調(diào)用(這和 o3 模型正式發(fā)布時(shí)遇到的問(wèn)題有些相似)。我不認(rèn)為這是個(gè)無(wú)法解決的問(wèn)題,但它可能會(huì)拖慢模型的普及速度。當(dāng)然,這也可能為社區(qū)提供一個(gè)逆向工程 OpenAI 訓(xùn)練工具集的機(jī)會(huì)。
我們需要在開(kāi)放的硬件設(shè)施上重新進(jìn)行基準(zhǔn)測(cè)試。 OpenAI 在這次發(fā)布中,將模型整合到了各大平臺(tái),做得相當(dāng)不錯(cuò)。但我們需要社區(qū)來(lái)驗(yàn)證,其官方公布的評(píng)估分?jǐn)?shù)是否可以被輕松復(fù)現(xiàn)。封閉式實(shí)驗(yàn)室的評(píng)估方法日益為滿(mǎn)足內(nèi)部需求而「定制化」,這本身無(wú)可厚非,但在發(fā)布開(kāi)源模型時(shí),這種差異會(huì)增加社區(qū)使用的摩擦成本。
我想在此聲明,這篇文章并不是一篇嚴(yán)格意義上的模型性能評(píng)測(cè),而是旨在分析 OpenAI 此舉的戰(zhàn)略意義(以及它為我們其他人創(chuàng)造的機(jī)會(huì))。好的模型不一定易用。有些模型評(píng)測(cè)分?jǐn)?shù)很高,也確實(shí)好用,比如 Qwen ;有些則分?jǐn)?shù)很高,卻很快被人遺忘。但無(wú)論分?jǐn)?shù)如何,我預(yù)計(jì)這會(huì)是一款實(shí)用的模型。
總的來(lái)說(shuō),對(duì)于 OpenAI 時(shí)隔多年的首次開(kāi)源嘗試,表現(xiàn)非常出色,他們確實(shí)聽(tīng)取了社區(qū)的反饋。但想真正贏得開(kāi)源社區(qū),特別是研究人員的好感,未來(lái)的路在于承擔(dān)更多風(fēng)險(xiǎn),發(fā)布更易于修改(甚至更具啟發(fā)性)的模型,例如公布這些模型的檢查點(diǎn)所對(duì)應(yīng)的基礎(chǔ)模型。
05中美的開(kāi)源模型仍存在不確定性,小模型將有很大的機(jī)會(huì)
美國(guó)的實(shí)驗(yàn)室在開(kāi)源模型方面曾一度陷入困境,任何向正確方向邁出的一步都至關(guān)重要。
所以, OpenAI 已經(jīng)是新的開(kāi)源領(lǐng)袖了嗎?還用用擔(dān)心來(lái)自中國(guó)的風(fēng)險(xiǎn)嗎?我們還需要 Llama 模型嗎?
OpenAI 作為 AI 領(lǐng)域的領(lǐng)頭公司,回歸開(kāi)源,對(duì)于整個(gè)開(kāi)放生態(tài),特別是西方及其盟友而言,是意義非凡的一步。這股勢(shì)頭可能成為一個(gè)轉(zhuǎn)折點(diǎn),扭轉(zhuǎn)此前開(kāi)源模型在應(yīng)用和影響力上相對(duì)于中國(guó)的落后局面。
開(kāi)放生態(tài)的發(fā)展有快有慢。由于 Qwen 模型發(fā)布頻繁、易于獲取,許多工作流和技術(shù)專(zhuān)長(zhǎng)已圍繞其建立。當(dāng)這些人下次需要更新?lián)Q代時(shí),部分會(huì)嘗試 OpenAI 的新模型,但這絕不意味著所有人都會(huì)立刻轉(zhuǎn)投新陣營(yíng)。
在我看來(lái), OpenAI 此次拋出的重磅模型,改變了開(kāi)源模型規(guī)模發(fā)展的趨勢(shì)。美國(guó)及其盟友持續(xù)落后的局面(這曾是 2025 年的主旋律)的這種情況,將不會(huì)再加劇了。但如果想在未來(lái)數(shù)月而不是幾年的時(shí)間內(nèi),為所有應(yīng)用場(chǎng)景提供有競(jìng)爭(zhēng)力的開(kāi)源模型,我們必須乘勝追擊。
開(kāi)源模型的激勵(lì)機(jī)制充滿(mǎn)不確定性。一些我認(rèn)識(shí)的優(yōu)秀中國(guó)分析師都認(rèn)為,中國(guó)方面已意識(shí)到,發(fā)布開(kāi)源模型是一項(xiàng)成功的國(guó)家戰(zhàn)略,并正加倍投入。這是一個(gè)非常合理的看法。但反過(guò)來(lái)看,如果我們認(rèn)為美國(guó)生態(tài)系統(tǒng)過(guò)度依賴(lài) Meta 的 Llama 或如今的 GPT OSS 是一個(gè)弱點(diǎn),那么同樣的問(wèn)題也可能發(fā)生在 Qwen 身上。如果阿里巴巴認(rèn)為, Qwen 的持續(xù)優(yōu)秀發(fā)布不再符合其自身利益,會(huì)發(fā)生什么呢?
在這種情況下,參數(shù)量在 10 億到 700 億之間的小模型系列將有很大的機(jī)會(huì)。但在更大規(guī)模的模型上,來(lái)自中國(guó)的競(jìng)爭(zhēng)非常激烈,例如 DeepSeek V3/R1 、智譜的 GLM 4.5 、 Kimi K2 等大型 MoE 模型。此外,中國(guó)還有更多接近這一性能水平的模型,如 MiniMax 或騰訊的模型。
所有這些公司其實(shí)都不穩(wěn)定,但數(shù)量多了就能形成標(biāo)準(zhǔn)做法。發(fā)布強(qiáng)大、大型的開(kāi)源模型,如今已是中國(guó)的行業(yè)標(biāo)準(zhǔn)。而美國(guó)公司則再次回到了那個(gè)建立標(biāo)準(zhǔn)的微妙時(shí)期,它們面臨著巨大的法律風(fēng)險(xiǎn),比如面臨版權(quán)等領(lǐng)域的眾多訴訟,一旦模型發(fā)布便難以撤回。
開(kāi)放生態(tài)的這兩大陣營(yíng),正處于截然不同的發(fā)展階段,需要采取截然不同的行動(dòng)。在某種程度上,我們之所以在此時(shí)發(fā)起「The ATOM Project」*,是因?yàn)槲覀兣袛啵鞣皆?AI 開(kāi)源領(lǐng)域的貢獻(xiàn)正處于一個(gè)關(guān)鍵的低谷期。我們希望這已經(jīng)是最低點(diǎn),因此現(xiàn)在也正是扭轉(zhuǎn)局勢(shì)、觸底反彈的最佳時(shí)機(jī)。
注:「The ATOM Project」:https://www.atomproject.ai/
OpenAI 的此次發(fā)布是向正確方向邁出的一步,但整體局勢(shì)依然不穩(wěn)定。從政府的 AI 行動(dòng)計(jì)劃到風(fēng)險(xiǎn)投資家和學(xué)者,許多人都在為創(chuàng)建開(kāi)源模型搖旗吶喊。但他們所有人的共同點(diǎn)是:這并非是他們的首要任務(wù)。而 The ATOM Project 的目標(biāo),正是為像我這樣,愿意將此作為首要目標(biāo)的人們提供一個(gè)平臺(tái)。
這便是為何我們需要持續(xù)扶持那些愿意將自家最好的模型投入開(kāi)源領(lǐng)域的新生力量。這正是 Llama 早年成功的秘訣,也將是 ATOM 未來(lái)成果的決定性因素。只有那些從第一性原理出發(fā),為可修改、可解釋、可擴(kuò)展而設(shè)計(jì)的模型,才能催生下一個(gè) AI 研究的黃金十年。而這恰恰需要基礎(chǔ)模型、訓(xùn)練細(xì)節(jié)、合適的尺寸以及其他許多在近期開(kāi)源模型(包括 OpenAI 的這次發(fā)布)中所缺失的小細(xì)節(jié)。
轉(zhuǎn)載原創(chuàng)文章請(qǐng)?zhí)砑游⑿牛篺ounderparker
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.