自2022年11月ChatGPT隆重登場后,OpenAI的新品發(fā)布會就成了科技春晚,每場都格外引人關(guān)注,科技巨頭們也是嚴(yán)陣以待。但OpenAI剛剛發(fā)布的GPT-5恐怕讓用戶失望了,這款大模型確實更強,但遠沒有科技圈預(yù)期的那么驚艷。
距離GPT-4發(fā)布兩年半,GPT-5姍姍來遲。
從去年底開始,GPT-5的發(fā)布時間便備受矚目,在業(yè)內(nèi)被視為最被期待的大模型。社交媒體上,OpenAI的CEO山姆·奧特曼更將其稱為“世界最強模型”,科技粉們被吊足了胃口。
但發(fā)布當(dāng)日,GPT-5的表現(xiàn)似乎并不如奧特曼預(yù)言的那般神奇,也沒有在業(yè)內(nèi)激起如前作GPT-4那樣兇猛的水花。
北京時間8月8日凌晨,GPT-5家族正式亮相。OpenAI共為其推出了4個版本,分別是主流模型GPT-5、面向開發(fā)者和企業(yè)的輕量版GPT?5 Mini、超輕量版GPT?5 Nano,以及只對企業(yè)版和每月需付費200美元的高級版開放的GPT-5 Pro模式??梢哉f,對企業(yè)、開發(fā)者、普通用戶的需求進行了全套覆蓋。
發(fā)布會上,山姆·奧特曼高調(diào)形容GPT-4到GPT-5的跨越,可以比作iPhone從像素屏進化到視網(wǎng)膜屏的跨越。他還類比以往模型舉例:不管什么問題,GPT-5都能給你博士級別的解答。
事實是否果真如此?從性能上看,GPT-5是否仍具備此前OpenAI發(fā)布的多款模型產(chǎn)品的技術(shù)底氣和行業(yè)領(lǐng)導(dǎo)力?
01、馬斯克不服OpenAI
從產(chǎn)品端看,GPT-5最顯而易見的改變,是在使用上更加簡潔統(tǒng)一。過去,OpenAI的模型名稱讓用戶眼花繚亂,如GPT-4o、o4、GPT-4.1等。這一次, GPT-5整合了所有模型,直接終結(jié)了用戶的選擇困難癥。
價格方面,OpenAI也亮出了“殺手锏”。針對普通用戶,GPT-5推出了限量免費策略,每5小時可免費發(fā)送10條信息,人人都可試用。在API價格方面,GPT-5每百萬Token輸入僅為1.25美元,輸出為10美元。
曾經(jīng)“高冷”的OpenAI這次算是拿出了誠意。和兩個主要競爭對手相比,GPT-5的價格已降至Claude Opus 4.1的1/15,也比Gemini 2.5 Pro使用價格更低。
但不少熬夜看完整場發(fā)布會的應(yīng)用者仍難掩對GPT-5的失望。
大模型從業(yè)者秦嵐對《財經(jīng)天下》說道,“整體看下來,沒有感覺出GPT-5除了‘刷榜’之外的模型架構(gòu)優(yōu)勢。雖然數(shù)據(jù)集提升了,(功能)沒有給人眼前一亮的感覺”。
另一位大模型從業(yè)者觀點更為理性:“畢竟以前GPT-4太轟動了,大家對GPT-5仍有碾壓式的效果期待,但技術(shù)的發(fā)展從來都不是線性的?!?/p>
實事求是地說,GPT-5各項基準(zhǔn)測試的表現(xiàn),相較于上一代模型GPT-4o和o3都有所提升。特別是在編程表現(xiàn)上,GPT-5刷新了OpenAI歷代模型紀(jì)錄。
在1小時20分鐘的發(fā)布會上,OpenAI高層率先介紹了GPT-5的編碼性能,并自信地表示,“GPT-5是當(dāng)今市場上最好的編碼模型”。
如今AI編程能力,已成為科技巨頭們的必爭之地。在國內(nèi)企業(yè)中,7月21日到7月23日的3天內(nèi),字節(jié)、騰訊、阿里三大巨頭已相繼推出了AI編程領(lǐng)域的新一代產(chǎn)品。
其中,字節(jié)推出了AI編程助手TRAE 2.0版本,騰訊云宣布CodeBuddy IDE開啟內(nèi)測,阿里云則發(fā)布通義千問AI編程大模型Qwen3-Coder。此外,Kimi、智譜AI等也于近日相繼推出包含編程能力的K2模型和GLM-4.5模型。
國外企業(yè)中,谷歌旗下的Gemini 2.5 Pro被稱為最強AI編程模型,主打長文本、多模態(tài)和多語言理解。同時,人工智能新“頂流”Anthropic也在今年4月推出了Claude 4系列大模型。
巨頭火熱入局,或是看中AI編程正在成為Agent(智能體)商業(yè)化的突破口。西部證券指出,企業(yè)開發(fā)效率的剛需創(chuàng)造了明確付費意愿,AI編程領(lǐng)域已逐步形成“技術(shù)驗證-產(chǎn)品迭代-商業(yè)變現(xiàn)”的完整閉環(huán)。
相比之下,GPT-5雖然暫時坐上了“榜一大哥”的位置,卻還沒有與其他對手明顯拉開差距。
OpenAI數(shù)據(jù)顯示,在SWE-bench編程測試中,GPT-5的成績?yōu)?4.9%。幾天前Anthropic公司發(fā)布的Claude Opus 4.1成績則為74.5%,GPT-5只高出了0.4%。
由于GPT-5效果“不夠驚艷”,馬斯克甚至在社交媒體公開表示“不服”:GPT-5在ARC-AGI-2(一項專門評測AI流體智能的基準(zhǔn)測試)上沒有打敗xAI公司開發(fā)的Grok 4。
02、基模訓(xùn)練摸到天花板
實際上,在對GPT-5褒貶不一的背后,還隱藏著大模型訓(xùn)練已逐漸摸到天花板的困局。
科技媒體“The Information”曾報道,GPT-5的研發(fā)遇到了比較大的困難。“一方面,高質(zhì)量訓(xùn)練數(shù)據(jù)供應(yīng)不足。另一方面,大規(guī)模預(yù)訓(xùn)練收益下降,使得GPT-5的提升難以像GPT-3到GPT-4那樣實現(xiàn)明顯飛躍?!?/p>
作為權(quán)宜之計,在GPT-5發(fā)布之前,曾堅持走閉源模型路線的OpenAI,也加入了大模型“開源生態(tài)”的競技場。
8月6日,OpenAI發(fā)布了自2019年以來的首批開源大語言模型:GPT-oss-120b和GPT-oss-20b,二者分別有1168億個參數(shù)和209億個參數(shù),并一舉躋身全球人工智能領(lǐng)域權(quán)威的HuggingFace模型榜單前兩名。
所謂“oss”,即“Open Source Series”的縮寫,意為開源系列。OpenAI公布開源模型后,奧特曼驕傲地表示,“GPT-oss是OpenAI花費數(shù)十億美元研究成果的結(jié)晶”。
不過對比之下,據(jù)報道,國內(nèi)科技公司如DeepSeek、MiniMax等僅花了幾百萬美元,便訓(xùn)練出了同樣開源的DeepSeek-R1和MiniMax M1模型。
那么,OpenAI數(shù)十億美元的巨資花得值嗎?從性能方面看,據(jù)OpenAI披露,GPT-oss-120b在核心推理基準(zhǔn)測試中接近OpenAI o4-mini的表現(xiàn),較小的GPT-oss-20b模型在相同評估中,達到或超過了OpenAI o3-mini的性能。
特別之處在于,兩款GPT-oss模型采用了最先進的預(yù)訓(xùn)練和后訓(xùn)練技術(shù),尤其注重推理、效率和跨部署環(huán)境的實用性。此外, 它們都使用了混合專家(MoE)架構(gòu)設(shè)計的Transformer,以減少處理輸入所需的活躍參數(shù)數(shù)量。
盡管OpenAI誠意滿滿地入局開源,但一個顯而易見的問題也被人詬病——模型“幻覺”比例太高了。OpenAI表示,在公司內(nèi)部用于評估人物知識準(zhǔn)確性的PersonQA測試中,GPT-oss-20b有53%的回答存在事實錯誤。
要知道,如今DeepSeek-R1模型的幻覺率已經(jīng)控制到了10.5%,若對比OpenAI自家最新的GPT-5閉源模型,其幻覺率已經(jīng)降到了1%以下,這樣的差距更是斷崖式的。
“其實,各大開源模型廠商都在通過算法迭代的方式,持續(xù)攻克幻覺率高的難題,也已經(jīng)有了顯著提升。而GPT-oss-20b的53%幻覺率,不僅明顯落后于DeepSeek-R1,也顯著低于它自身閉源大模型的能力?!贝竽P退惴üこ處熽悅Α敦斀?jīng)天下》表示。
不過,OpenAI對開源態(tài)度的扭轉(zhuǎn),仍有重大的意義。在OpenAI成立之初,其2018年發(fā)布的GPT-1模型,以及2019年發(fā)布的GPT-2模型,在一定程度上都體現(xiàn)了開源的理念。
2020年后,OpenAI拿出石破天驚的GPT-3模型,才全面踏入了閉源路線。這一次,OpenAI再次扭轉(zhuǎn)態(tài)度,核心原因在于開源生態(tài)實在太繁榮了。
2025年1月,我國的DeepSeek掀起開源熱潮后,奧特曼首次承認,OpenAI在開源技術(shù)上“站在了歷史的錯誤一邊”。
在DeepSeek的強勢帶動下,一眾國產(chǎn)大模型開源大軍齊頭并進。到7月30日,全球知名AI開源社區(qū)Hugging Face趨勢熱門榜單更新中,前10名席位里,中國大模型已占據(jù)9席。
要想持續(xù)保持技術(shù)領(lǐng)導(dǎo)地位,OpenAI已難再躺贏。“開源模型廠商需要依靠開發(fā)者貢獻的微調(diào)數(shù)據(jù)、評測集和RLHF等改進方案,來持續(xù)優(yōu)化模型性能。如果只憑單一款模型實力,缺少持續(xù)的生態(tài)產(chǎn)出,就不能獲得足夠的市場聲量?!标悅Α敦斀?jīng)天下》說。
而在開源生態(tài)伙伴建設(shè)方面,OpenAI已經(jīng)有所行動。兩款開源模型發(fā)布不久,OpenAI便與其大股東微軟的Windows設(shè)備“建聯(lián)”,同時獲得全球最大云廠商亞馬遜AWS的“帶貨認證”。
不過,OpenAI的開源也不忘給自己留“后手”:禁止年收入超過1億美元,或日活躍用戶超過100萬的商業(yè)實體使用GPT-oss開發(fā)與OpenAI核心產(chǎn)品競爭的服務(wù)——這也幾乎包含了OpenAI所有的競爭對手。
03、周活躍用戶7億,OpenAI仍不輕松
等待OpenAI亮出GPT-5的同時,眾多科技巨頭也不甘示弱,紛紛展開AI技術(shù)正面對壘。
8月6日,谷歌推出了一款通用型世界模型Genie 3,號稱能以每秒24幀的速度實時生成可供自由探索的動態(tài)世界,并在720P分辨率下保持數(shù)分鐘的畫面一致性。不過,由于目前還在樣本階段,真實效果有待檢驗。
趕在GPT-5發(fā)布前夜,Anthropic也搶先出牌,發(fā)布了新模型Claude 4.1,在編程能力上搶了個風(fēng)頭。在定價上,Claude 4.1維持了前版的原價,“加量不加價”,繼續(xù)捍衛(wèi)其在編程領(lǐng)域的護城河。
國內(nèi)市場中,大模型產(chǎn)品的競爭更加焦灼。7月以來,阿里曾在一周四次連發(fā)模型產(chǎn)品,Kimi、階躍星辰、商湯科技也都你追我趕,亮出技術(shù)底牌。
反觀OpenAI,最新數(shù)據(jù)顯示,今年8月ChatGPT周活躍用戶已達7億,同比增長4倍。其付費用戶數(shù)從2024年的300萬增至500萬,Pro會員和企業(yè)版用戶貢獻了超60%的收入。
龐大的用戶規(guī)模,幫助ChatGPT的商業(yè)收入再創(chuàng)新高。曾有媒體報道,截至今年7月末,OpenAI預(yù)計將實現(xiàn)120億美元的年度經(jīng)常性收入,成為全球最大的AI創(chuàng)業(yè)公司。它的最大競爭對手Anthropic同期收入預(yù)計僅為50億美元。
不過,OpenAI的挑戰(zhàn)也顯而易見。尤其是在企業(yè)級市場,OpenAI的市場份額正在迅速被競爭對手蠶食。
近期,海外投資機構(gòu)Menlo Ventures發(fā)布的一份報告顯示,Anthropic在企業(yè)大語言模型市場占有率已達32%。相比之下,OpenAI的市場份額僅為25%。
海內(nèi)外開源大模型玩家也在悄然蠶食OpenAI的競爭優(yōu)勢。數(shù)據(jù)顯示,截至今年7月,阿里Qwen系列已開源300余個模型,全球下載量超4億次,衍生模型數(shù)超14萬個,穩(wěn)坐全球開源模型榜首。
最近兩個月,Meta挖走十多位OpenAI研究員的消息,更讓OpenAI的發(fā)展蒙上陰影。Meta不惜開出數(shù)億美元天價年薪,這樣的瘋狂挖角終于讓奧特曼坐不住了。據(jù)市場消息,OpenAI在內(nèi)部已開啟新一期比照5000億美元估值的員工期權(quán)兌現(xiàn)計劃。
這場人工智能的競賽還遠未到終點,未來的淘汰賽只會更加殘酷。低垂的果實已被采摘殆盡,OpenAI想要繼續(xù)橫掃市場,已經(jīng)越來越吃力。
(文中秦嵐、陳偉為化名)
(作者 | 豆蔻,編輯 | 李不清,圖片來源 | 視覺中國,本內(nèi)容來自財經(jīng)天下WEEKLY)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.