GPT-5，放了個啞炮

2025-08-09 16:16:58　來源: 財天COVER

北京舉報

分享至

自2022年11月ChatGPT隆重登場后，OpenAI的新品發(fā)布會就成了科技春晚，每場都格外引人關(guān)注，科技巨頭們也是嚴(yán)陣以待。但OpenAI剛剛發(fā)布的GPT-5恐怕讓用戶失望了，這款大模型確實更強，但遠沒有科技圈預(yù)期的那么驚艷。

距離GPT-4發(fā)布兩年半，GPT-5姍姍來遲。

從去年底開始，GPT-5的發(fā)布時間便備受矚目，在業(yè)內(nèi)被視為最被期待的大模型。社交媒體上，OpenAI的CEO山姆·奧特曼更將其稱為“世界最強模型”，科技粉們被吊足了胃口。

但發(fā)布當(dāng)日，GPT-5的表現(xiàn)似乎并不如奧特曼預(yù)言的那般神奇，也沒有在業(yè)內(nèi)激起如前作GPT-4那樣兇猛的水花。

北京時間8月8日凌晨，GPT-5家族正式亮相。OpenAI共為其推出了4個版本，分別是主流模型GPT-5、面向開發(fā)者和企業(yè)的輕量版GPT?5 Mini、超輕量版GPT?5 Nano，以及只對企業(yè)版和每月需付費200美元的高級版開放的GPT-5 Pro模式?？梢哉f，對企業(yè)、開發(fā)者、普通用戶的需求進行了全套覆蓋。

發(fā)布會上，山姆·奧特曼高調(diào)形容GPT-4到GPT-5的跨越，可以比作iPhone從像素屏進化到視網(wǎng)膜屏的跨越。他還類比以往模型舉例：不管什么問題，GPT-5都能給你博士級別的解答。

事實是否果真如此？從性能上看，GPT-5是否仍具備此前OpenAI發(fā)布的多款模型產(chǎn)品的技術(shù)底氣和行業(yè)領(lǐng)導(dǎo)力？

01、馬斯克不服OpenAI

從產(chǎn)品端看，GPT-5最顯而易見的改變，是在使用上更加簡潔統(tǒng)一。過去，OpenAI的模型名稱讓用戶眼花繚亂，如GPT-4o、o4、GPT-4.1等。這一次， GPT-5整合了所有模型，直接終結(jié)了用戶的選擇困難癥。

價格方面，OpenAI也亮出了“殺手锏”。針對普通用戶，GPT-5推出了限量免費策略，每5小時可免費發(fā)送10條信息，人人都可試用。在API價格方面，GPT-5每百萬Token輸入僅為1.25美元，輸出為10美元。

曾經(jīng)“高冷”的OpenAI這次算是拿出了誠意。和兩個主要競爭對手相比，GPT-5的價格已降至Claude Opus 4.1的1/15，也比Gemini 2.5 Pro使用價格更低。

但不少熬夜看完整場發(fā)布會的應(yīng)用者仍難掩對GPT-5的失望。

大模型從業(yè)者秦嵐對《財經(jīng)天下》說道，“整體看下來，沒有感覺出GPT-5除了‘刷榜’之外的模型架構(gòu)優(yōu)勢。雖然數(shù)據(jù)集提升了，（功能）沒有給人眼前一亮的感覺”。

另一位大模型從業(yè)者觀點更為理性：“畢竟以前GPT-4太轟動了，大家對GPT-5仍有碾壓式的效果期待，但技術(shù)的發(fā)展從來都不是線性的?！?/p>

實事求是地說，GPT-5各項基準(zhǔn)測試的表現(xiàn)，相較于上一代模型GPT-4o和o3都有所提升。特別是在編程表現(xiàn)上，GPT-5刷新了OpenAI歷代模型紀(jì)錄。

在1小時20分鐘的發(fā)布會上，OpenAI高層率先介紹了GPT-5的編碼性能，并自信地表示，“GPT-5是當(dāng)今市場上最好的編碼模型”。

如今AI編程能力，已成為科技巨頭們的必爭之地。在國內(nèi)企業(yè)中，7月21日到7月23日的3天內(nèi)，字節(jié)、騰訊、阿里三大巨頭已相繼推出了AI編程領(lǐng)域的新一代產(chǎn)品。

其中，字節(jié)推出了AI編程助手TRAE 2.0版本，騰訊云宣布CodeBuddy IDE開啟內(nèi)測，阿里云則發(fā)布通義千問AI編程大模型Qwen3-Coder。此外，Kimi、智譜AI等也于近日相繼推出包含編程能力的K2模型和GLM-4.5模型。

國外企業(yè)中，谷歌旗下的Gemini 2.5 Pro被稱為最強AI編程模型，主打長文本、多模態(tài)和多語言理解。同時，人工智能新“頂流”Anthropic也在今年4月推出了Claude 4系列大模型。

巨頭火熱入局，或是看中AI編程正在成為Agent（智能體）商業(yè)化的突破口。西部證券指出，企業(yè)開發(fā)效率的剛需創(chuàng)造了明確付費意愿，AI編程領(lǐng)域已逐步形成“技術(shù)驗證-產(chǎn)品迭代-商業(yè)變現(xiàn)”的完整閉環(huán)。

相比之下，GPT-5雖然暫時坐上了“榜一大哥”的位置，卻還沒有與其他對手明顯拉開差距。

OpenAI數(shù)據(jù)顯示，在SWE-bench編程測試中，GPT-5的成績?yōu)?4.9%。幾天前Anthropic公司發(fā)布的Claude Opus 4.1成績則為74.5%，GPT-5只高出了0.4%。

由于GPT-5效果“不夠驚艷”，馬斯克甚至在社交媒體公開表示“不服”：GPT-5在ARC-AGI-2（一項專門評測AI流體智能的基準(zhǔn)測試）上沒有打敗xAI公司開發(fā)的Grok 4。

02、基模訓(xùn)練摸到天花板

實際上，在對GPT-5褒貶不一的背后，還隱藏著大模型訓(xùn)練已逐漸摸到天花板的困局。

科技媒體“The Information”曾報道，GPT-5的研發(fā)遇到了比較大的困難。“一方面，高質(zhì)量訓(xùn)練數(shù)據(jù)供應(yīng)不足。另一方面，大規(guī)模預(yù)訓(xùn)練收益下降，使得GPT-5的提升難以像GPT-3到GPT-4那樣實現(xiàn)明顯飛躍?！?/p>

作為權(quán)宜之計，在GPT-5發(fā)布之前，曾堅持走閉源模型路線的OpenAI，也加入了大模型“開源生態(tài)”的競技場。

8月6日，OpenAI發(fā)布了自2019年以來的首批開源大語言模型：GPT-oss-120b和GPT-oss-20b，二者分別有1168億個參數(shù)和209億個參數(shù)，并一舉躋身全球人工智能領(lǐng)域權(quán)威的HuggingFace模型榜單前兩名。

所謂“oss”，即“Open Source Series”的縮寫，意為開源系列。OpenAI公布開源模型后，奧特曼驕傲地表示，“GPT-oss是OpenAI花費數(shù)十億美元研究成果的結(jié)晶”。

不過對比之下，據(jù)報道，國內(nèi)科技公司如DeepSeek、MiniMax等僅花了幾百萬美元，便訓(xùn)練出了同樣開源的DeepSeek-R1和MiniMax M1模型。

那么，OpenAI數(shù)十億美元的巨資花得值嗎？從性能方面看，據(jù)OpenAI披露，GPT-oss-120b在核心推理基準(zhǔn)測試中接近OpenAI o4-mini的表現(xiàn)，較小的GPT-oss-20b模型在相同評估中，達到或超過了OpenAI o3-mini的性能。

特別之處在于，兩款GPT-oss模型采用了最先進的預(yù)訓(xùn)練和后訓(xùn)練技術(shù)，尤其注重推理、效率和跨部署環(huán)境的實用性。此外，它們都使用了混合專家（MoE）架構(gòu)設(shè)計的Transformer，以減少處理輸入所需的活躍參數(shù)數(shù)量。

盡管OpenAI誠意滿滿地入局開源，但一個顯而易見的問題也被人詬病——模型“幻覺”比例太高了。OpenAI表示，在公司內(nèi)部用于評估人物知識準(zhǔn)確性的PersonQA測試中，GPT-oss-20b有53%的回答存在事實錯誤。

要知道，如今DeepSeek-R1模型的幻覺率已經(jīng)控制到了10.5%，若對比OpenAI自家最新的GPT-5閉源模型，其幻覺率已經(jīng)降到了1%以下，這樣的差距更是斷崖式的。

“其實，各大開源模型廠商都在通過算法迭代的方式，持續(xù)攻克幻覺率高的難題，也已經(jīng)有了顯著提升。而GPT-oss-20b的53%幻覺率，不僅明顯落后于DeepSeek-R1，也顯著低于它自身閉源大模型的能力?！贝竽Ｐ退惴üこ處熽悅Α敦斀?jīng)天下》表示。

不過，OpenAI對開源態(tài)度的扭轉(zhuǎn)，仍有重大的意義。在OpenAI成立之初，其2018年發(fā)布的GPT-1模型，以及2019年發(fā)布的GPT-2模型，在一定程度上都體現(xiàn)了開源的理念。

2020年后，OpenAI拿出石破天驚的GPT-3模型，才全面踏入了閉源路線。這一次，OpenAI再次扭轉(zhuǎn)態(tài)度，核心原因在于開源生態(tài)實在太繁榮了。

2025年1月，我國的DeepSeek掀起開源熱潮后，奧特曼首次承認，OpenAI在開源技術(shù)上“站在了歷史的錯誤一邊”。

在DeepSeek的強勢帶動下，一眾國產(chǎn)大模型開源大軍齊頭并進。到7月30日，全球知名AI開源社區(qū)Hugging Face趨勢熱門榜單更新中，前10名席位里，中國大模型已占據(jù)9席。

要想持續(xù)保持技術(shù)領(lǐng)導(dǎo)地位，OpenAI已難再躺贏。“開源模型廠商需要依靠開發(fā)者貢獻的微調(diào)數(shù)據(jù)、評測集和RLHF等改進方案，來持續(xù)優(yōu)化模型性能。如果只憑單一款模型實力，缺少持續(xù)的生態(tài)產(chǎn)出，就不能獲得足夠的市場聲量?！标悅Α敦斀?jīng)天下》說。

而在開源生態(tài)伙伴建設(shè)方面，OpenAI已經(jīng)有所行動。兩款開源模型發(fā)布不久，OpenAI便與其大股東微軟的Windows設(shè)備“建聯(lián)”，同時獲得全球最大云廠商亞馬遜AWS的“帶貨認證”。

不過，OpenAI的開源也不忘給自己留“后手”：禁止年收入超過1億美元，或日活躍用戶超過100萬的商業(yè)實體使用GPT-oss開發(fā)與OpenAI核心產(chǎn)品競爭的服務(wù)——這也幾乎包含了OpenAI所有的競爭對手。

03、周活躍用戶7億，OpenAI仍不輕松

等待OpenAI亮出GPT-5的同時，眾多科技巨頭也不甘示弱，紛紛展開AI技術(shù)正面對壘。

8月6日，谷歌推出了一款通用型世界模型Genie 3，號稱能以每秒24幀的速度實時生成可供自由探索的動態(tài)世界，并在720P分辨率下保持數(shù)分鐘的畫面一致性。不過，由于目前還在樣本階段，真實效果有待檢驗。

趕在GPT-5發(fā)布前夜，Anthropic也搶先出牌，發(fā)布了新模型Claude 4.1，在編程能力上搶了個風(fēng)頭。在定價上，Claude 4.1維持了前版的原價，“加量不加價”，繼續(xù)捍衛(wèi)其在編程領(lǐng)域的護城河。

國內(nèi)市場中，大模型產(chǎn)品的競爭更加焦灼。7月以來，阿里曾在一周四次連發(fā)模型產(chǎn)品，Kimi、階躍星辰、商湯科技也都你追我趕，亮出技術(shù)底牌。

反觀OpenAI，最新數(shù)據(jù)顯示，今年8月ChatGPT周活躍用戶已達7億，同比增長4倍。其付費用戶數(shù)從2024年的300萬增至500萬，Pro會員和企業(yè)版用戶貢獻了超60%的收入。

龐大的用戶規(guī)模，幫助ChatGPT的商業(yè)收入再創(chuàng)新高。曾有媒體報道，截至今年7月末，OpenAI預(yù)計將實現(xiàn)120億美元的年度經(jīng)常性收入，成為全球最大的AI創(chuàng)業(yè)公司。它的最大競爭對手Anthropic同期收入預(yù)計僅為50億美元。

不過，OpenAI的挑戰(zhàn)也顯而易見。尤其是在企業(yè)級市場，OpenAI的市場份額正在迅速被競爭對手蠶食。

近期，海外投資機構(gòu)Menlo Ventures發(fā)布的一份報告顯示，Anthropic在企業(yè)大語言模型市場占有率已達32%。相比之下，OpenAI的市場份額僅為25%。

海內(nèi)外開源大模型玩家也在悄然蠶食OpenAI的競爭優(yōu)勢。數(shù)據(jù)顯示，截至今年7月，阿里Qwen系列已開源300余個模型，全球下載量超4億次，衍生模型數(shù)超14萬個，穩(wěn)坐全球開源模型榜首。

最近兩個月，Meta挖走十多位OpenAI研究員的消息，更讓OpenAI的發(fā)展蒙上陰影。Meta不惜開出數(shù)億美元天價年薪，這樣的瘋狂挖角終于讓奧特曼坐不住了。據(jù)市場消息，OpenAI在內(nèi)部已開啟新一期比照5000億美元估值的員工期權(quán)兌現(xiàn)計劃。

這場人工智能的競賽還遠未到終點，未來的淘汰賽只會更加殘酷。低垂的果實已被采摘殆盡，OpenAI想要繼續(xù)橫掃市場，已經(jīng)越來越吃力。

（文中秦嵐、陳偉為化名）

（作者 | 豆蔻，編輯 | 李不清，圖片來源 | 視覺中國，本內(nèi)容來自財經(jīng)天下WEEKLY）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.