夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5 之后,我們離 AGI 更近了,還是更遠(yuǎn)了?

0
分享至


作者 | 王啟隆

出品 | CSDN(ID:CSDNnews)

2023 年 3 月 15 日,GPT-4 發(fā)布。當(dāng)時大部分人還在搞清楚 ChatGPT 到底怎么用、官網(wǎng)地址在哪里,而我也只是淺嘗輒止地試了試 GPT-3.5 的效果,玩了玩 ChatBox,問了一些無聊的問題就不知道問什么了。

所以,至今仍清晰地記得,第一次與 GPT-4 認(rèn)真對話后的那種感覺,腦子里盤旋的只有一個念頭:天變了。

那時的互聯(lián)網(wǎng),洋溢著一種既興奮又慌亂的淘金熱氛圍。每個人都在瘋狂轉(zhuǎn)發(fā)匪夷所思的截圖,討論著哪些職業(yè)即將消失。我們真的以為,那就是奇跡本身了。

誰也沒想到,那僅僅是長夜的序章。

在漫長的 939 天等待后,北京時間 2025 年 8 月 8 日凌晨,OpenAI 終于揭開了GPT-5的面紗。世界屏息以待,期待著又一次“天變了”的奇跡。

然而,當(dāng)大幕拉開,我們看到的,卻是一場遠(yuǎn)比想象中更復(fù)雜、更矛盾、不可言說、不知從何說起的演出。就像今年 OpenAI 的常態(tài):普通用戶贊不絕口、DAU 日益暴增;而硬核用戶罵聲遍天,我自己其實(shí)也早就經(jīng)歷了從 GPT 到 Claude 和 Gemini 的幾次主力模型的更迭,很久不用 ChatGPT 了。而從去年 GPT-4o 那場驚艷的春季發(fā)布會之后,每次 OpenAI 的發(fā)布會都令人五味雜陳,炒作大于驚喜。


發(fā)布會伊始,Sam Altman 的定調(diào)就充滿了實(shí)用主義色彩:“GPT-3 像高中生,GPT-4o 像大學(xué)生,而 GPT-5,就像一個隨需應(yīng)變的博士級專家團(tuán)隊。” 關(guān)鍵詞不再是“聊天”,而是“做事”。

而實(shí)現(xiàn)這一點(diǎn)的核心,并非簡單地堆砌參數(shù),而是一次架構(gòu)上的哲學(xué)革命。

過去,用戶在 GPT-4o 的速度、o3 的深度推理之間痛苦抉擇,像是在一個擺滿了各色武器的軍火庫里猶豫不決。而 GPT-5 試圖終結(jié)這種“選擇的煩惱”。

它是一個統(tǒng)一的智能系統(tǒng)。其內(nèi)部包含一個處理多數(shù)問題的快速模型( gpt-5-main ),一個為高難度問題設(shè)計的深度推理模型( gpt-5-thinking ),以及一個最關(guān)鍵的角色——實(shí)時路由器(real-time router)。 這個路由器會像一位經(jīng)驗豐富的項目經(jīng)理,根據(jù)你的問題類型、復(fù)雜度、甚至是你的一句“認(rèn)真思考這個”,來動態(tài)決定調(diào) 動哪位“專家”出馬。

通過 API 使用 GPT-5 更簡單:它提供三種模型——常規(guī)(regular)、迷你(mini)和納米(nano),每種模型都可以在四種推理級別中的任意一種運(yùn)行:最?。ㄒ粋€以前其他 OpenAI 推理模型中沒有的新級別)、低、中或高。 這些模型的輸入限制為 272,000 個 token,輸出限制(包括不可見的推理 token)為 128,000 個 token。它們支持文本和圖像作為輸入,僅支持文本作為輸出。

OpenAI 研究員 Tina Kim 在發(fā)布會上也表示:“有了 GPT-5,我們將淘汰所有舊模型”,與其說是自信,不如說是一種宣言。那個讓用戶眼花繚亂的“模型動物園”時代結(jié)束了,取而代之的,是一個擁有統(tǒng)一意志的、高度協(xié)同的智能有機(jī)體。


GPT-5 System Card,展示了新舊模型的繼承關(guān)系

任何新王的登基,都離不開一場盛大的“肌肉秀”。GPT-5 在各大基準(zhǔn)測試中,交出了一份近乎屠榜的成績單。

  • 數(shù)學(xué)能力:在被譽(yù)為“國際數(shù)學(xué)奧林匹克資格賽”的 AIME 2025 測試中,無工具輔助下取得了 94.6% 的驚人成績。

  • 編程能力:在衡量真實(shí)世界軟件工程任務(wù)的 SWE-Bench 上創(chuàng)下 74.9% 的新高,在多語言編程測試 Aider Polyglot 上也達(dá)到了 88%。

  • 多模態(tài)理解:在極具挑戰(zhàn)的 MMMU 基準(zhǔn)上得分 84.2%。


但就是這個慣例的 benchmark 砸數(shù)據(jù)環(huán)節(jié),居然翻車了。

眼尖的網(wǎng)友發(fā)現(xiàn),發(fā)布會剛開始五分鐘,現(xiàn)場 PPT 上的柱狀圖畫得“相當(dāng)隨心所欲”。例如,在一張圖中,69.1% 的柱子竟然比 52.8% 的還要短。


這個小小的插曲,連同馬斯克在 X 上立刻轉(zhuǎn)發(fā)的“Grok 4 在 ARC-AGI-2 上擊敗了 GPT-5”的“賀電”,共同構(gòu)成了一個有趣的注腳。


跑分終究是冰冷的。真正的分野,發(fā)生在鮮活的、滾燙的實(shí)際體驗中。

這,正是 GPT-5 最核心、最令人著迷,也最讓人不安的地方。它沒有普惠所有創(chuàng)造者,而是做出 了明確的取舍。

首先是多模態(tài)。音頻輸入/輸出和圖像生成,目前不在 GPT-5 的技能范疇。這些功能仍由如 GPT-4o Audio、GPT-4o Realtime 及其迷你版本和 GPT Image 1 以及 DALL-E 圖像生成模型所覆蓋。

但沒準(zhǔn)馬上就會有 GPT-5o 了,也說不定。

然后就是開發(fā)者最關(guān)心的AI 編程。今年是開發(fā)者幸福的一年,GPT-5 發(fā)布的同一天就有 Cursor CLI 的同期發(fā)布,各式各樣的 Coding Agent 全在今年井噴。

發(fā)布會上的演示已經(jīng)足夠驚艷:短短兩分鐘,僅憑一句“為我的伴侶構(gòu)建一個學(xué)習(xí)法語的 Web 應(yīng)用”,GPT-5 便生成了包含閃卡、測驗、甚至是一個“老鼠吃奶酪”版貪吃蛇游戲的完整交互式網(wǎng)站。


更關(guān)鍵的考驗,在于對生產(chǎn)級代碼的精準(zhǔn)修改能力。在另一個測試中,開發(fā)者要求 AI 在一個復(fù)雜的生產(chǎn)項目中,對一個 .ts 文件的特定 props 進(jìn)行修改,并同步更新所有引用了該組件的文件。這是一個極易出錯、牽一發(fā)而動全身的繁瑣任務(wù)。

結(jié)果是,Gemini 2.5 Pro 和 Claude 4 Opus “全崩了”。而 GPT-5,完美地完成了任務(wù)。它不再是一個只會“寫”代碼的工具,它開始“理解”項目,像一個真正的資深同事那樣思考。

AI 編程創(chuàng)企 Cursor 的 CEO Michael Truell 受邀在發(fā)布會上演示,他讓 GPT-5 解決了一個在 OpenAI Python SDK 的 GitHub 上掛了三周的 issue。GPT-5 快速地制定計劃、搜索代碼庫、定位問題、進(jìn)行修改,整個過程行云流水。Truell 的評價是:“這是我第一次信任一個模型來完成我最重要的工作?!?/p>

而要讓這種“值得信賴”的能力真正普及,成為開發(fā)者生態(tài)的基石,一個顛覆性的商業(yè)策略必不可少。這里先來聊聊 GPT-5 的 API 定價,堪稱一場市場屠殺。每百萬輸入 Token 僅 1.25 美元,比 GPT-4o 便宜一半,甚至比谷歌、Anthropic 的同級模型都更具競爭力。這背后是清晰的戰(zhàn)略意圖:以利潤換市場,以低價換生態(tài)。


引用自 Simon Willison 最新文章

價格對比,讓我想到了今年那個被譽(yù)為 OpenAI 翻車之作的 GPT-4.5,也就是后來被蒸餾成了 GPT-4.1 的那款模型(這波反向命名,到現(xiàn)在也覺得很離譜)。

當(dāng)時也還不是圖上 GPT-4.1 的每百萬輸出 8 美元,而是 180 美元,被稱為天價。它實(shí)際上就是 GPT-5 預(yù)訓(xùn)練失敗的產(chǎn)物,內(nèi)部代號“orion”,正好發(fā)布的時候撞上了 DeepSeek-R1 降價,自然而然成為群嘲的對象。

但這個天價模型,卻一度成為了許多用戶心中最強(qiáng)的寫作模型,GPT-4.5 在當(dāng)時的官方宣傳里,也是主打情感推理和真實(shí)人類體驗。

而文本寫作正是 GPT-5 當(dāng)前引起爭議的能力,能提供自主選擇模型的智能混合體 GPT-5,似乎沒有一個模型能和情感特化的 GPT-4.5 媲美寫作能力:


Sam Altman 本人則是發(fā)了個推,用“GPT-4o 的悼詞”這個黑色幽默,來證明 GPT-5 的寫作能力獲得了極大地增強(qiáng):


但就在他推文底下的評論也有人反饋,GPT-5 的寫作似乎確實(shí)不盡人意。



之所以要提編程和寫作,是因為在 GPT-5 的系統(tǒng)卡片里,編程、寫作和健康被官方認(rèn)定為 ChatGPT 最常用的三大場景。

我們在減少幻覺、提高指令遵循能力以及最小化阿諛奉承方面取得了顯著進(jìn)展,并在聊天機(jī)器人 ChatGPT 最常見的三種用途——寫作、編程和健康領(lǐng)域提升了 GPT-5 的表現(xiàn)。所有 GPT-5 模型還配備了我們最新的安全訓(xùn)練方法——安全完成,以防止生成不允許的內(nèi)容。

在不久前 OpenAI 的兩款全新開源模型 gpt-oss-120b 和 gpt-oss-20b 中,也投入了許多努力在醫(yī) 療健康相關(guān)的問題。

無論是編程、寫作還是事關(guān)生死的健康咨詢,一個無法繞開的達(dá)摩克利斯之劍,便是模型的可靠性。實(shí) 際 應(yīng)用中,大家最關(guān)心的還是模型幻覺的問題,和今年幾乎所有發(fā)布會的演講者一樣,Sam Altman 也宣稱 GPT-5 大幅減少了幻覺。( 這里我想到的其實(shí)是皮查伊和馬斯克,尤其是皮查伊經(jīng)常喜歡強(qiáng)調(diào)谷歌模型的幻覺問題 )

今天看 Simon Willison 的文章有個很有意思的觀點(diǎn),今年很多模型幻覺普遍減少,Gemini 2.5 Pro 和 Claude 4 也都沒什么幻覺,其實(shí)有一部分原因是大家更會用 AI 了。

用 AI 多的人,會自然規(guī)避掉那些容易引發(fā)幻覺的提示詞,比如向不具備搜索功能的模型請求 URL 或論文引用,或者是資料不給全就直接讓 AI 寫篇萬字長文等等,全是兩年前常犯的毛病。

除了直接生成錯誤答案,還有一種模型幻覺叫作“AI 自己以為自己完成了任務(wù)”,這個在去年的很多模型堪稱通病。所以 OpenAI 在 GPT-5 的系統(tǒng)卡片還寫道:

我們讓 gpt-5-thinking 在一些部分或完全無法完成的任務(wù)中進(jìn)行各種嘗試,并獎勵模型誠實(shí)地承認(rèn)它無法完成該任務(wù)。 在需要使用工具(如網(wǎng)絡(luò)瀏覽工具)來回答用戶查詢的任務(wù)中,以前的模型在工具不可靠時會編造信息。我們通過故意禁用工具或讓它們返回錯誤代碼來模擬這種場景。

談到幻覺就得說說提示注入攻擊。OpenAI 慷慨地分享了一個很詳盡的圖表,展示 GPT-5 抵抗提示注入攻擊的能力:


56.8%,前所未有的成績。但換個角度想想,就是仍有一半以上的提示注入攻擊仍對 AI 有效,所以這個問題還是沒得到本質(zhì)上的解決。

回到開頭那個問題,GPT-5 發(fā)布,天變了嗎?

目前我還是打算讓 Claude 來完成編程任務(wù),讓 Gemini 去寫作,對于專業(yè)用戶而言,我們可以在網(wǎng)絡(luò)上看到大量專業(yè)用戶對 GPT-5 的抨擊。但正如前文所述, OpenAI 的 DAU 日益暴增,ChatGPT 的用戶體驗對普通用戶非常有吸引力,今年 GPT-4o 引起的 吉卜力 畫風(fēng)熱潮就是佐證,到現(xiàn)在筆者的朋友圈還有很多吉卜力畫風(fēng)的頭像。

這是產(chǎn)品層面上的碎碎念,而更深遠(yuǎn)上,我看到了一些很有意思的觀點(diǎn),其中不乏“Transformer 架構(gòu)已經(jīng)到瓶頸期”的結(jié)論,呼吁新的架構(gòu)突破:


畢竟,許多人期望 GPT-5 能和當(dāng)年的 GPT-4 一樣大殺特殺,斬下 ARC-AGI,而不是如今四平八穩(wěn)的提升,甚至被馬斯克當(dāng)天打臉。

或許,AI 發(fā)展的第一個篇章——那個充滿了驚奇、狂想與無限可能的“大航海時代”,或許已經(jīng)結(jié)束了。我們迎來的,是一個更成熟、更專業(yè)、目標(biāo)更明確的“工業(yè)時代”。

至少對于開發(fā)者而言,這無疑是一個黃金時代。而對于依賴 AI 進(jìn)行創(chuàng)意寫作的人來說,這或許是一個警示,也是一個新的起點(diǎn)。

現(xiàn)在不妨再觀望幾天,也歡迎在評論區(qū),分享你使用 GPT-5 的那些實(shí)際體驗感受。

2025 全球產(chǎn)品經(jīng)理大會

8月15–16日·北京威斯汀酒店

互聯(lián)網(wǎng)大廠&AI 創(chuàng)業(yè)公司產(chǎn)品人齊聚

12 大專題,趨勢洞察 × 實(shí)戰(zhàn)拆解

掃碼領(lǐng)取大會 PPT,搶占 AI 產(chǎn)品新紅利

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
44歲港星胡定欣新西蘭舉行婚禮,曬出結(jié)婚照,浪漫溫馨而甜蜜

44歲港星胡定欣新西蘭舉行婚禮,曬出結(jié)婚照,浪漫溫馨而甜蜜

話娛論影
2025-10-06 13:31:13
討債風(fēng)波7,加代再返吉林

討債風(fēng)波7,加代再返吉林

金昔說故事
2025-10-06 09:45:38
中國外交官已全部離開立陶宛,立總理對華遞交建議書,想重建關(guān)系

中國外交官已全部離開立陶宛,立總理對華遞交建議書,想重建關(guān)系

律便利
2025-07-03 15:20:03
36歲瞿秋白慷慨赴死,建國后毛主席卻說:以后少紀(jì)念他!有何隱情

36歲瞿秋白慷慨赴死,建國后毛主席卻說:以后少紀(jì)念他!有何隱情

浩舞默畫
2025-09-05 08:26:07
靠在美國賣假中餐,華人夫婦年入200億,買下NBA球隊成楊瀚森老板

靠在美國賣假中餐,華人夫婦年入200億,買下NBA球隊成楊瀚森老板

閱識
2025-10-02 17:24:16
哈蘭德:開局對手一直推我所以我上對抗;有孩子讓我表現(xiàn)更好

哈蘭德:開局對手一直推我所以我上對抗;有孩子讓我表現(xiàn)更好

懂球帝
2025-10-06 02:07:49
市長撥打電話,隨機(jī)抽查國慶中秋假期值班值守情況

市長撥打電話,隨機(jī)抽查國慶中秋假期值班值守情況

新京報政事兒
2025-10-06 13:39:27
1969年中蘇沖突,朝鮮企圖跨過鴨綠江,毛主席直言:一招搞定!

1969年中蘇沖突,朝鮮企圖跨過鴨綠江,毛主席直言:一招搞定!

冰雅憶史
2025-07-08 14:24:54
北青:國足有望在11月敲定新帥人選,選帥兼顧能力與性價比

北青:國足有望在11月敲定新帥人選,選帥兼顧能力與性價比

雷速體育
2025-10-06 10:50:13
網(wǎng)友分享山姆和普通超市同一款牛奶,一個歐盟標(biāo)準(zhǔn)另一個航天品質(zhì)

網(wǎng)友分享山姆和普通超市同一款牛奶,一個歐盟標(biāo)準(zhǔn)另一個航天品質(zhì)

映射生活的身影
2025-09-30 16:25:28
中國龍脈上只埋了3個人:一個挖不開,一個不敢挖,一個不能挖

中國龍脈上只埋了3個人:一個挖不開,一個不敢挖,一個不能挖

大千世界觀
2025-09-07 08:30:08
沒想到,閱兵結(jié)束僅一個月,唐國強(qiáng)因一個舉動,再次實(shí)現(xiàn)口碑暴漲

沒想到,閱兵結(jié)束僅一個月,唐國強(qiáng)因一個舉動,再次實(shí)現(xiàn)口碑暴漲

陳意小可愛
2025-10-04 13:27:06
澳大利亞悉尼發(fā)生無差別槍擊事件 至少20人受傷

澳大利亞悉尼發(fā)生無差別槍擊事件 至少20人受傷

新華社
2025-10-06 10:26:03
生活最無用的6個節(jié)儉行為,純屬沒苦硬吃,全是中國家庭的通病

生活最無用的6個節(jié)儉行為,純屬沒苦硬吃,全是中國家庭的通病

家居設(shè)計師蘇哥
2025-10-06 14:27:35
渡江戰(zhàn)役再晚一點(diǎn),后果不堪設(shè)想:胡璉短短幾個月,瘋狂擴(kuò)軍15萬

渡江戰(zhàn)役再晚一點(diǎn),后果不堪設(shè)想:胡璉短短幾個月,瘋狂擴(kuò)軍15萬

云霄紀(jì)史觀
2025-09-28 17:59:58
3000億芯片巨頭轟然倒下!中國芯的“遮羞布”,如今徹底被揭開

3000億芯片巨頭轟然倒下!中國芯的“遮羞布”,如今徹底被揭開

壹知眠羊
2025-09-10 21:24:15
慈禧下葬留下80名工匠陪葬,一人巧妙躲過,卻成為慈禧墓的掘墓人

慈禧下葬留下80名工匠陪葬,一人巧妙躲過,卻成為慈禧墓的掘墓人

興趣知識
2025-10-04 18:07:34
湖北女子駕車致5死8傷后續(xù):車是新買的,目擊者發(fā)聲,詳情被曝光

湖北女子駕車致5死8傷后續(xù):車是新買的,目擊者發(fā)聲,詳情被曝光

影像溫度
2025-10-06 10:40:03
砸2730億!福建2025十大超級工程,每一個都關(guān)乎民生

砸2730億!福建2025十大超級工程,每一個都關(guān)乎民生

金哥說新能源車
2025-10-06 10:31:20
韓媒:中國足協(xié)曾有意邀約徐正源掛帥國足 因300萬年薪被勸退

韓媒:中國足協(xié)曾有意邀約徐正源掛帥國足 因300萬年薪被勸退

愛奇藝體育
2025-10-06 09:59:05
2025-10-06 16:56:49
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術(shù)的創(chuàng)造者和使用者
2589文章數(shù) 7632關(guān)注度
往期回顧 全部

科技要聞

馬斯克腦機(jī)接口公司終于向科學(xué)界“交底”

頭條要聞

陳震接連發(fā)文回應(yīng)車禍后續(xù) 稱被撞車輛為網(wǎng)約車

頭條要聞

陳震接連發(fā)文回應(yīng)車禍后續(xù) 稱被撞車輛為網(wǎng)約車

體育要聞

5天12場!王楚欽拼到低血糖 央視點(diǎn)贊

娛樂要聞

董璇帶女兒逛樂高樂園 母女同框拍照

財經(jīng)要聞

暴漲前夜,大國博弈找到了新戰(zhàn)場!

汽車要聞

奇瑞全新大型SUV亮相!大六座+800V平臺

態(tài)度原創(chuàng)

本地
親子
游戲
旅游
公開課

本地新聞

讀港校想省錢,社恐輸在起跑線

親子要聞

媽媽,你把奶奶送回老家去吧,她身上都臭了!

《上古卷軸4:湮滅重制版》實(shí)體版還需要聯(lián)網(wǎng)

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 欧洲亚洲精品久久久久| 国产成人综合亚洲欧美日韩| 蜜月a∨精品一区二区三区| 日韩无码一区av| 97se亚洲综合在线天天| 无码人妻一区二区三区免费| 亚训成人AV一区| 色爱综合另类图片av| 欧美爱爱网站| 制服丝袜视频国产一区| 国产m3u8视频在线播放| 无码精品免费| 久久国产乱子伦精品免费乳及| 成人午夜视频在线观看免费播放| 国产精品视频一区二区三区| 黑人巨大无码| 日韩啪啪A| 亚洲激情成人AV| 99国产精品永久免费视频| 污黄啪啪网18以下勿进| 国产激情无码AV毛片久久| 亚洲精品女人久久| 国产丰满乱子伦无码专区| 国产人成高清在线视频99最全资源| 乆乆爆操老妇| 亚洲男人的天堂久久香蕉| 九九国产一区二区久久| 俺来也俺去了老熟女视频| 永久免费AV无码国产网站| 全国最大成人网站| 在线 | 一区二区三区四区 | 韩国午夜福利一区二区| 美国午夜精品无码电影| 无码av孕妇专区| 亚洲VA国产日韩欧美精品| 美女视频黄是免费| 日本高清视频色WWWWWW色| 秋霞在线观看片无码免费不卡| 国产伦精品一区二区三区照片91 | 国产真实偷乱视频| 亚洲精品无amm毛片|