GPT-5 之后，我們離 AGI 更近了，還是更遠(yuǎn)了？

2025-08-08 14:04:10　來源: AI科技大本營

北京舉報

分享至

作者 | 王啟隆

出品 | CSDN（ID：CSDNnews）

2023 年 3 月 15 日，GPT-4 發(fā)布。當(dāng)時大部分人還在搞清楚 ChatGPT 到底怎么用、官網(wǎng)地址在哪里，而我也只是淺嘗輒止地試了試 GPT-3.5 的效果，玩了玩 ChatBox，問了一些無聊的問題就不知道問什么了。

所以，至今仍清晰地記得，第一次與 GPT-4 認(rèn)真對話后的那種感覺，腦子里盤旋的只有一個念頭：天變了。

那時的互聯(lián)網(wǎng)，洋溢著一種既興奮又慌亂的淘金熱氛圍。每個人都在瘋狂轉(zhuǎn)發(fā)匪夷所思的截圖，討論著哪些職業(yè)即將消失。我們真的以為，那就是奇跡本身了。

誰也沒想到，那僅僅是長夜的序章。

在漫長的 939 天等待后，北京時間 2025 年 8 月 8 日凌晨，OpenAI 終于揭開了GPT-5的面紗。世界屏息以待，期待著又一次“天變了”的奇跡。

然而，當(dāng)大幕拉開，我們看到的，卻是一場遠(yuǎn)比想象中更復(fù)雜、更矛盾、不可言說、不知從何說起的演出。就像今年 OpenAI 的常態(tài)：普通用戶贊不絕口、DAU 日益暴增；而硬核用戶罵聲遍天，我自己其實(shí)也早就經(jīng)歷了從 GPT 到 Claude 和 Gemini 的幾次主力模型的更迭，很久不用 ChatGPT 了。而從去年 GPT-4o 那場驚艷的春季發(fā)布會之后，每次 OpenAI 的發(fā)布會都令人五味雜陳，炒作大于驚喜。

發(fā)布會伊始，Sam Altman 的定調(diào)就充滿了實(shí)用主義色彩：“GPT-3 像高中生，GPT-4o 像大學(xué)生，而 GPT-5，就像一個隨需應(yīng)變的博士級專家團(tuán)隊。” 關(guān)鍵詞不再是“聊天”，而是“做事”。

而實(shí)現(xiàn)這一點(diǎn)的核心，并非簡單地堆砌參數(shù)，而是一次架構(gòu)上的哲學(xué)革命。

過去，用戶在 GPT-4o 的速度、o3 的深度推理之間痛苦抉擇，像是在一個擺滿了各色武器的軍火庫里猶豫不決。而 GPT-5 試圖終結(jié)這種“選擇的煩惱”。

它是一個統(tǒng)一的智能系統(tǒng)。其內(nèi)部包含一個處理多數(shù)問題的快速模型（ gpt-5-main ），一個為高難度問題設(shè)計的深度推理模型（ gpt-5-thinking ），以及一個最關(guān)鍵的角色——實(shí)時路由器（real-time router）。這個路由器會像一位經(jīng)驗豐富的項目經(jīng)理，根據(jù)你的問題類型、復(fù)雜度、甚至是你的一句“認(rèn)真思考這個”，來動態(tài)決定調(diào) 動哪位“專家”出馬。

通過 API 使用 GPT-5 更簡單：它提供三種模型——常規(guī)（regular）、迷你（mini）和納米（nano），每種模型都可以在四種推理級別中的任意一種運(yùn)行：最?。ㄒ粋€以前其他 OpenAI 推理模型中沒有的新級別）、低、中或高。這些模型的輸入限制為 272,000 個 token，輸出限制（包括不可見的推理 token）為 128,000 個 token。它們支持文本和圖像作為輸入，僅支持文本作為輸出。

OpenAI 研究員 Tina Kim 在發(fā)布會上也表示：“有了 GPT-5，我們將淘汰所有舊模型”，與其說是自信，不如說是一種宣言。那個讓用戶眼花繚亂的“模型動物園”時代結(jié)束了，取而代之的，是一個擁有統(tǒng)一意志的、高度協(xié)同的智能有機(jī)體。

GPT-5 System Card，展示了新舊模型的繼承關(guān)系

任何新王的登基，都離不開一場盛大的“肌肉秀”。GPT-5 在各大基準(zhǔn)測試中，交出了一份近乎屠榜的成績單。

數(shù)學(xué)能力：在被譽(yù)為“國際數(shù)學(xué)奧林匹克資格賽”的 AIME 2025 測試中，無工具輔助下取得了 94.6% 的驚人成績。
編程能力：在衡量真實(shí)世界軟件工程任務(wù)的 SWE-Bench 上創(chuàng)下 74.9% 的新高，在多語言編程測試 Aider Polyglot 上也達(dá)到了 88%。
多模態(tài)理解：在極具挑戰(zhàn)的 MMMU 基準(zhǔn)上得分 84.2%。

但就是這個慣例的 benchmark 砸數(shù)據(jù)環(huán)節(jié)，居然翻車了。

眼尖的網(wǎng)友發(fā)現(xiàn)，發(fā)布會剛開始五分鐘，現(xiàn)場 PPT 上的柱狀圖畫得“相當(dāng)隨心所欲”。例如，在一張圖中，69.1% 的柱子竟然比 52.8% 的還要短。

這個小小的插曲，連同馬斯克在 X 上立刻轉(zhuǎn)發(fā)的“Grok 4 在 ARC-AGI-2 上擊敗了 GPT-5”的“賀電”，共同構(gòu)成了一個有趣的注腳。

跑分終究是冰冷的。真正的分野，發(fā)生在鮮活的、滾燙的實(shí)際體驗中。

這，正是 GPT-5 最核心、最令人著迷，也最讓人不安的地方。它沒有普惠所有創(chuàng)造者，而是做出了明確的取舍。

首先是多模態(tài)。音頻輸入/輸出和圖像生成，目前不在 GPT-5 的技能范疇。這些功能仍由如 GPT-4o Audio、GPT-4o Realtime 及其迷你版本和 GPT Image 1 以及 DALL-E 圖像生成模型所覆蓋。

但沒準(zhǔn)馬上就會有 GPT-5o 了，也說不定。

然后就是開發(fā)者最關(guān)心的AI 編程。今年是開發(fā)者幸福的一年，GPT-5 發(fā)布的同一天就有 Cursor CLI 的同期發(fā)布，各式各樣的 Coding Agent 全在今年井噴。

發(fā)布會上的演示已經(jīng)足夠驚艷：短短兩分鐘，僅憑一句“為我的伴侶構(gòu)建一個學(xué)習(xí)法語的 Web 應(yīng)用”，GPT-5 便生成了包含閃卡、測驗、甚至是一個“老鼠吃奶酪”版貪吃蛇游戲的完整交互式網(wǎng)站。

更關(guān)鍵的考驗，在于對生產(chǎn)級代碼的精準(zhǔn)修改能力。在另一個測試中，開發(fā)者要求 AI 在一個復(fù)雜的生產(chǎn)項目中，對一個 .ts 文件的特定 props 進(jìn)行修改，并同步更新所有引用了該組件的文件。這是一個極易出錯、牽一發(fā)而動全身的繁瑣任務(wù)。

結(jié)果是，Gemini 2.5 Pro 和 Claude 4 Opus “全崩了”。而 GPT-5，完美地完成了任務(wù)。它不再是一個只會“寫”代碼的工具，它開始“理解”項目，像一個真正的資深同事那樣思考。

AI 編程創(chuàng)企 Cursor 的 CEO Michael Truell 受邀在發(fā)布會上演示，他讓 GPT-5 解決了一個在 OpenAI Python SDK 的 GitHub 上掛了三周的 issue。GPT-5 快速地制定計劃、搜索代碼庫、定位問題、進(jìn)行修改，整個過程行云流水。Truell 的評價是：“這是我第一次信任一個模型來完成我最重要的工作?！?/p>

而要讓這種“值得信賴”的能力真正普及，成為開發(fā)者生態(tài)的基石，一個顛覆性的商業(yè)策略必不可少。這里先來聊聊 GPT-5 的 API 定價，堪稱一場市場屠殺。每百萬輸入 Token 僅 1.25 美元，比 GPT-4o 便宜一半，甚至比谷歌、Anthropic 的同級模型都更具競爭力。這背后是清晰的戰(zhàn)略意圖：以利潤換市場，以低價換生態(tài)。

引用自 Simon Willison 最新文章

價格對比，讓我想到了今年那個被譽(yù)為 OpenAI 翻車之作的 GPT-4.5，也就是后來被蒸餾成了 GPT-4.1 的那款模型（這波反向命名，到現(xiàn)在也覺得很離譜）。

當(dāng)時也還不是圖上 GPT-4.1 的每百萬輸出 8 美元，而是 180 美元，被稱為天價。它實(shí)際上就是 GPT-5 預(yù)訓(xùn)練失敗的產(chǎn)物，內(nèi)部代號“orion”，正好發(fā)布的時候撞上了 DeepSeek-R1 降價，自然而然成為群嘲的對象。

但這個天價模型，卻一度成為了許多用戶心中最強(qiáng)的寫作模型，GPT-4.5 在當(dāng)時的官方宣傳里，也是主打情感推理和真實(shí)人類體驗。

而文本寫作正是 GPT-5 當(dāng)前引起爭議的能力，能提供自主選擇模型的智能混合體 GPT-5，似乎沒有一個模型能和情感特化的 GPT-4.5 媲美寫作能力：

Sam Altman 本人則是發(fā)了個推，用“GPT-4o 的悼詞”這個黑色幽默，來證明 GPT-5 的寫作能力獲得了極大地增強(qiáng)：

但就在他推文底下的評論也有人反饋，GPT-5 的寫作似乎確實(shí)不盡人意。

之所以要提編程和寫作，是因為在 GPT-5 的系統(tǒng)卡片里，編程、寫作和健康被官方認(rèn)定為 ChatGPT 最常用的三大場景。

我們在減少幻覺、提高指令遵循能力以及最小化阿諛奉承方面取得了顯著進(jìn)展，并在聊天機(jī)器人 ChatGPT 最常見的三種用途——寫作、編程和健康領(lǐng)域提升了 GPT-5 的表現(xiàn)。所有 GPT-5 模型還配備了我們最新的安全訓(xùn)練方法——安全完成，以防止生成不允許的內(nèi)容。

在不久前 OpenAI 的兩款全新開源模型 gpt-oss-120b 和 gpt-oss-20b 中，也投入了許多努力在醫(yī) 療健康相關(guān)的問題。

無論是編程、寫作還是事關(guān)生死的健康咨詢，一個無法繞開的達(dá)摩克利斯之劍，便是模型的可靠性。實(shí) 際應(yīng)用中，大家最關(guān)心的還是模型幻覺的問題，和今年幾乎所有發(fā)布會的演講者一樣，Sam Altman 也宣稱 GPT-5 大幅減少了幻覺。（這里我想到的其實(shí)是皮查伊和馬斯克，尤其是皮查伊經(jīng)常喜歡強(qiáng)調(diào)谷歌模型的幻覺問題）

今天看 Simon Willison 的文章有個很有意思的觀點(diǎn)，今年很多模型幻覺普遍減少，Gemini 2.5 Pro 和 Claude 4 也都沒什么幻覺，其實(shí)有一部分原因是大家更會用 AI 了。

用 AI 多的人，會自然規(guī)避掉那些容易引發(fā)幻覺的提示詞，比如向不具備搜索功能的模型請求 URL 或論文引用，或者是資料不給全就直接讓 AI 寫篇萬字長文等等，全是兩年前常犯的毛病。

除了直接生成錯誤答案，還有一種模型幻覺叫作“AI 自己以為自己完成了任務(wù)”，這個在去年的很多模型堪稱通病。所以 OpenAI 在 GPT-5 的系統(tǒng)卡片還寫道：

我們讓 gpt-5-thinking 在一些部分或完全無法完成的任務(wù)中進(jìn)行各種嘗試，并獎勵模型誠實(shí)地承認(rèn)它無法完成該任務(wù)。在需要使用工具（如網(wǎng)絡(luò)瀏覽工具）來回答用戶查詢的任務(wù)中，以前的模型在工具不可靠時會編造信息。我們通過故意禁用工具或讓它們返回錯誤代碼來模擬這種場景。

談到幻覺就得說說提示注入攻擊。OpenAI 慷慨地分享了一個很詳盡的圖表，展示 GPT-5 抵抗提示注入攻擊的能力：

56.8%，前所未有的成績。但換個角度想想，就是仍有一半以上的提示注入攻擊仍對 AI 有效，所以這個問題還是沒得到本質(zhì)上的解決。

回到開頭那個問題，GPT-5 發(fā)布，天變了嗎？

目前我還是打算讓 Claude 來完成編程任務(wù)，讓 Gemini 去寫作，對于專業(yè)用戶而言，我們可以在網(wǎng)絡(luò)上看到大量專業(yè)用戶對 GPT-5 的抨擊。但正如前文所述， OpenAI 的 DAU 日益暴增，ChatGPT 的用戶體驗對普通用戶非常有吸引力，今年 GPT-4o 引起的吉卜力畫風(fēng)熱潮就是佐證，到現(xiàn)在筆者的朋友圈還有很多吉卜力畫風(fēng)的頭像。

這是產(chǎn)品層面上的碎碎念，而更深遠(yuǎn)上，我看到了一些很有意思的觀點(diǎn)，其中不乏“Transformer 架構(gòu)已經(jīng)到瓶頸期”的結(jié)論，呼吁新的架構(gòu)突破：

畢竟，許多人期望 GPT-5 能和當(dāng)年的 GPT-4 一樣大殺特殺，斬下 ARC-AGI，而不是如今四平八穩(wěn)的提升，甚至被馬斯克當(dāng)天打臉。

或許，AI 發(fā)展的第一個篇章——那個充滿了驚奇、狂想與無限可能的“大航海時代”，或許已經(jīng)結(jié)束了。我們迎來的，是一個更成熟、更專業(yè)、目標(biāo)更明確的“工業(yè)時代”。

至少對于開發(fā)者而言，這無疑是一個黃金時代。而對于依賴 AI 進(jìn)行創(chuàng)意寫作的人來說，這或許是一個警示，也是一個新的起點(diǎn)。

現(xiàn)在不妨再觀望幾天，也歡迎在評論區(qū)，分享你使用 GPT-5 的那些實(shí)際體驗感受。

2025 全球產(chǎn)品經(jīng)理大會

8月15–16日·北京威斯汀酒店

互聯(lián)網(wǎng)大廠&AI 創(chuàng)業(yè)公司產(chǎn)品人齊聚

12 大專題，趨勢洞察 × 實(shí)戰(zhàn)拆解

掃碼領(lǐng)取大會 PPT，搶占 AI 產(chǎn)品新紅利

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.