作者 | 王啟隆
出品 | CSDN(ID:CSDNnews)
2023 年 3 月 15 日,GPT-4 發(fā)布。當(dāng)時大部分人還在搞清楚 ChatGPT 到底怎么用、官網(wǎng)地址在哪里,而我也只是淺嘗輒止地試了試 GPT-3.5 的效果,玩了玩 ChatBox,問了一些無聊的問題就不知道問什么了。
所以,至今仍清晰地記得,第一次與 GPT-4 認(rèn)真對話后的那種感覺,腦子里盤旋的只有一個念頭:天變了。
那時的互聯(lián)網(wǎng),洋溢著一種既興奮又慌亂的淘金熱氛圍。每個人都在瘋狂轉(zhuǎn)發(fā)匪夷所思的截圖,討論著哪些職業(yè)即將消失。我們真的以為,那就是奇跡本身了。
誰也沒想到,那僅僅是長夜的序章。
在漫長的 939 天等待后,北京時間 2025 年 8 月 8 日凌晨,OpenAI 終于揭開了GPT-5的面紗。世界屏息以待,期待著又一次“天變了”的奇跡。
然而,當(dāng)大幕拉開,我們看到的,卻是一場遠(yuǎn)比想象中更復(fù)雜、更矛盾、不可言說、不知從何說起的演出。就像今年 OpenAI 的常態(tài):普通用戶贊不絕口、DAU 日益暴增;而硬核用戶罵聲遍天,我自己其實(shí)也早就經(jīng)歷了從 GPT 到 Claude 和 Gemini 的幾次主力模型的更迭,很久不用 ChatGPT 了。而從去年 GPT-4o 那場驚艷的春季發(fā)布會之后,每次 OpenAI 的發(fā)布會都令人五味雜陳,炒作大于驚喜。
發(fā)布會伊始,Sam Altman 的定調(diào)就充滿了實(shí)用主義色彩:“GPT-3 像高中生,GPT-4o 像大學(xué)生,而 GPT-5,就像一個隨需應(yīng)變的博士級專家團(tuán)隊。” 關(guān)鍵詞不再是“聊天”,而是“做事”。
而實(shí)現(xiàn)這一點(diǎn)的核心,并非簡單地堆砌參數(shù),而是一次架構(gòu)上的哲學(xué)革命。
過去,用戶在 GPT-4o 的速度、o3 的深度推理之間痛苦抉擇,像是在一個擺滿了各色武器的軍火庫里猶豫不決。而 GPT-5 試圖終結(jié)這種“選擇的煩惱”。
它是一個統(tǒng)一的智能系統(tǒng)。其內(nèi)部包含一個處理多數(shù)問題的快速模型( gpt-5-main ),一個為高難度問題設(shè)計的深度推理模型( gpt-5-thinking ),以及一個最關(guān)鍵的角色——實(shí)時路由器(real-time router)。 這個路由器會像一位經(jīng)驗豐富的項目經(jīng)理,根據(jù)你的問題類型、復(fù)雜度、甚至是你的一句“認(rèn)真思考這個”,來動態(tài)決定調(diào) 動哪位“專家”出馬。
通過 API 使用 GPT-5 更簡單:它提供三種模型——常規(guī)(regular)、迷你(mini)和納米(nano),每種模型都可以在四種推理級別中的任意一種運(yùn)行:最?。ㄒ粋€以前其他 OpenAI 推理模型中沒有的新級別)、低、中或高。 這些模型的輸入限制為 272,000 個 token,輸出限制(包括不可見的推理 token)為 128,000 個 token。它們支持文本和圖像作為輸入,僅支持文本作為輸出。
OpenAI 研究員 Tina Kim 在發(fā)布會上也表示:“有了 GPT-5,我們將淘汰所有舊模型”,與其說是自信,不如說是一種宣言。那個讓用戶眼花繚亂的“模型動物園”時代結(jié)束了,取而代之的,是一個擁有統(tǒng)一意志的、高度協(xié)同的智能有機(jī)體。
GPT-5 System Card,展示了新舊模型的繼承關(guān)系
任何新王的登基,都離不開一場盛大的“肌肉秀”。GPT-5 在各大基準(zhǔn)測試中,交出了一份近乎屠榜的成績單。
數(shù)學(xué)能力:在被譽(yù)為“國際數(shù)學(xué)奧林匹克資格賽”的 AIME 2025 測試中,無工具輔助下取得了 94.6% 的驚人成績。
編程能力:在衡量真實(shí)世界軟件工程任務(wù)的 SWE-Bench 上創(chuàng)下 74.9% 的新高,在多語言編程測試 Aider Polyglot 上也達(dá)到了 88%。
多模態(tài)理解:在極具挑戰(zhàn)的 MMMU 基準(zhǔn)上得分 84.2%。
但就是這個慣例的 benchmark 砸數(shù)據(jù)環(huán)節(jié),居然翻車了。
眼尖的網(wǎng)友發(fā)現(xiàn),發(fā)布會剛開始五分鐘,現(xiàn)場 PPT 上的柱狀圖畫得“相當(dāng)隨心所欲”。例如,在一張圖中,69.1% 的柱子竟然比 52.8% 的還要短。
這個小小的插曲,連同馬斯克在 X 上立刻轉(zhuǎn)發(fā)的“Grok 4 在 ARC-AGI-2 上擊敗了 GPT-5”的“賀電”,共同構(gòu)成了一個有趣的注腳。
跑分終究是冰冷的。真正的分野,發(fā)生在鮮活的、滾燙的實(shí)際體驗中。
這,正是 GPT-5 最核心、最令人著迷,也最讓人不安的地方。它沒有普惠所有創(chuàng)造者,而是做出 了明確的取舍。
首先是多模態(tài)。音頻輸入/輸出和圖像生成,目前不在 GPT-5 的技能范疇。這些功能仍由如 GPT-4o Audio、GPT-4o Realtime 及其迷你版本和 GPT Image 1 以及 DALL-E 圖像生成模型所覆蓋。
但沒準(zhǔn)馬上就會有 GPT-5o 了,也說不定。
然后就是開發(fā)者最關(guān)心的AI 編程。今年是開發(fā)者幸福的一年,GPT-5 發(fā)布的同一天就有 Cursor CLI 的同期發(fā)布,各式各樣的 Coding Agent 全在今年井噴。
發(fā)布會上的演示已經(jīng)足夠驚艷:短短兩分鐘,僅憑一句“為我的伴侶構(gòu)建一個學(xué)習(xí)法語的 Web 應(yīng)用”,GPT-5 便生成了包含閃卡、測驗、甚至是一個“老鼠吃奶酪”版貪吃蛇游戲的完整交互式網(wǎng)站。
更關(guān)鍵的考驗,在于對生產(chǎn)級代碼的精準(zhǔn)修改能力。在另一個測試中,開發(fā)者要求 AI 在一個復(fù)雜的生產(chǎn)項目中,對一個 .ts 文件的特定 props 進(jìn)行修改,并同步更新所有引用了該組件的文件。這是一個極易出錯、牽一發(fā)而動全身的繁瑣任務(wù)。
結(jié)果是,Gemini 2.5 Pro 和 Claude 4 Opus “全崩了”。而 GPT-5,完美地完成了任務(wù)。它不再是一個只會“寫”代碼的工具,它開始“理解”項目,像一個真正的資深同事那樣思考。
AI 編程創(chuàng)企 Cursor 的 CEO Michael Truell 受邀在發(fā)布會上演示,他讓 GPT-5 解決了一個在 OpenAI Python SDK 的 GitHub 上掛了三周的 issue。GPT-5 快速地制定計劃、搜索代碼庫、定位問題、進(jìn)行修改,整個過程行云流水。Truell 的評價是:“這是我第一次信任一個模型來完成我最重要的工作?!?/p>
而要讓這種“值得信賴”的能力真正普及,成為開發(fā)者生態(tài)的基石,一個顛覆性的商業(yè)策略必不可少。這里先來聊聊 GPT-5 的 API 定價,堪稱一場市場屠殺。每百萬輸入 Token 僅 1.25 美元,比 GPT-4o 便宜一半,甚至比谷歌、Anthropic 的同級模型都更具競爭力。這背后是清晰的戰(zhàn)略意圖:以利潤換市場,以低價換生態(tài)。
引用自 Simon Willison 最新文章
價格對比,讓我想到了今年那個被譽(yù)為 OpenAI 翻車之作的 GPT-4.5,也就是后來被蒸餾成了 GPT-4.1 的那款模型(這波反向命名,到現(xiàn)在也覺得很離譜)。
當(dāng)時也還不是圖上 GPT-4.1 的每百萬輸出 8 美元,而是 180 美元,被稱為天價。它實(shí)際上就是 GPT-5 預(yù)訓(xùn)練失敗的產(chǎn)物,內(nèi)部代號“orion”,正好發(fā)布的時候撞上了 DeepSeek-R1 降價,自然而然成為群嘲的對象。
但這個天價模型,卻一度成為了許多用戶心中最強(qiáng)的寫作模型,GPT-4.5 在當(dāng)時的官方宣傳里,也是主打情感推理和真實(shí)人類體驗。
而文本寫作正是 GPT-5 當(dāng)前引起爭議的能力,能提供自主選擇模型的智能混合體 GPT-5,似乎沒有一個模型能和情感特化的 GPT-4.5 媲美寫作能力:
Sam Altman 本人則是發(fā)了個推,用“GPT-4o 的悼詞”這個黑色幽默,來證明 GPT-5 的寫作能力獲得了極大地增強(qiáng):
但就在他推文底下的評論也有人反饋,GPT-5 的寫作似乎確實(shí)不盡人意。
之所以要提編程和寫作,是因為在 GPT-5 的系統(tǒng)卡片里,編程、寫作和健康被官方認(rèn)定為 ChatGPT 最常用的三大場景。
我們在減少幻覺、提高指令遵循能力以及最小化阿諛奉承方面取得了顯著進(jìn)展,并在聊天機(jī)器人 ChatGPT 最常見的三種用途——寫作、編程和健康領(lǐng)域提升了 GPT-5 的表現(xiàn)。所有 GPT-5 模型還配備了我們最新的安全訓(xùn)練方法——安全完成,以防止生成不允許的內(nèi)容。
在不久前 OpenAI 的兩款全新開源模型 gpt-oss-120b 和 gpt-oss-20b 中,也投入了許多努力在醫(yī) 療健康相關(guān)的問題。
無論是編程、寫作還是事關(guān)生死的健康咨詢,一個無法繞開的達(dá)摩克利斯之劍,便是模型的可靠性。實(shí) 際 應(yīng)用中,大家最關(guān)心的還是模型幻覺的問題,和今年幾乎所有發(fā)布會的演講者一樣,Sam Altman 也宣稱 GPT-5 大幅減少了幻覺。( 這里我想到的其實(shí)是皮查伊和馬斯克,尤其是皮查伊經(jīng)常喜歡強(qiáng)調(diào)谷歌模型的幻覺問題 )
今天看 Simon Willison 的文章有個很有意思的觀點(diǎn),今年很多模型幻覺普遍減少,Gemini 2.5 Pro 和 Claude 4 也都沒什么幻覺,其實(shí)有一部分原因是大家更會用 AI 了。
用 AI 多的人,會自然規(guī)避掉那些容易引發(fā)幻覺的提示詞,比如向不具備搜索功能的模型請求 URL 或論文引用,或者是資料不給全就直接讓 AI 寫篇萬字長文等等,全是兩年前常犯的毛病。
除了直接生成錯誤答案,還有一種模型幻覺叫作“AI 自己以為自己完成了任務(wù)”,這個在去年的很多模型堪稱通病。所以 OpenAI 在 GPT-5 的系統(tǒng)卡片還寫道:
我們讓 gpt-5-thinking 在一些部分或完全無法完成的任務(wù)中進(jìn)行各種嘗試,并獎勵模型誠實(shí)地承認(rèn)它無法完成該任務(wù)。 在需要使用工具(如網(wǎng)絡(luò)瀏覽工具)來回答用戶查詢的任務(wù)中,以前的模型在工具不可靠時會編造信息。我們通過故意禁用工具或讓它們返回錯誤代碼來模擬這種場景。
談到幻覺就得說說提示注入攻擊。OpenAI 慷慨地分享了一個很詳盡的圖表,展示 GPT-5 抵抗提示注入攻擊的能力:
56.8%,前所未有的成績。但換個角度想想,就是仍有一半以上的提示注入攻擊仍對 AI 有效,所以這個問題還是沒得到本質(zhì)上的解決。
回到開頭那個問題,GPT-5 發(fā)布,天變了嗎?
目前我還是打算讓 Claude 來完成編程任務(wù),讓 Gemini 去寫作,對于專業(yè)用戶而言,我們可以在網(wǎng)絡(luò)上看到大量專業(yè)用戶對 GPT-5 的抨擊。但正如前文所述, OpenAI 的 DAU 日益暴增,ChatGPT 的用戶體驗對普通用戶非常有吸引力,今年 GPT-4o 引起的 吉卜力 畫風(fēng)熱潮就是佐證,到現(xiàn)在筆者的朋友圈還有很多吉卜力畫風(fēng)的頭像。
這是產(chǎn)品層面上的碎碎念,而更深遠(yuǎn)上,我看到了一些很有意思的觀點(diǎn),其中不乏“Transformer 架構(gòu)已經(jīng)到瓶頸期”的結(jié)論,呼吁新的架構(gòu)突破:
畢竟,許多人期望 GPT-5 能和當(dāng)年的 GPT-4 一樣大殺特殺,斬下 ARC-AGI,而不是如今四平八穩(wěn)的提升,甚至被馬斯克當(dāng)天打臉。
或許,AI 發(fā)展的第一個篇章——那個充滿了驚奇、狂想與無限可能的“大航海時代”,或許已經(jīng)結(jié)束了。我們迎來的,是一個更成熟、更專業(yè)、目標(biāo)更明確的“工業(yè)時代”。
至少對于開發(fā)者而言,這無疑是一個黃金時代。而對于依賴 AI 進(jìn)行創(chuàng)意寫作的人來說,這或許是一個警示,也是一個新的起點(diǎn)。
現(xiàn)在不妨再觀望幾天,也歡迎在評論區(qū),分享你使用 GPT-5 的那些實(shí)際體驗感受。
2025 全球產(chǎn)品經(jīng)理大會
8月15–16日·北京威斯汀酒店
互聯(lián)網(wǎng)大廠&AI 創(chuàng)業(yè)公司產(chǎn)品人齊聚
12 大專題,趨勢洞察 × 實(shí)戰(zhàn)拆解
掃碼領(lǐng)取大會 PPT,搶占 AI 產(chǎn)品新紅利
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.