出品|虎嗅科技組
作者|宋思杭
編輯|苗正卿
頭圖|視覺中國
昨晚,注定難眠。GPT-5,終于來了。
北京時間8月8日凌晨1點,OpenAI CEO Sam Altman沒有爽約。在發(fā)布會前一天,他在X(原Twitter)上寫道:“明天上午10點(太平洋時間)發(fā)布GPT-5,發(fā)布會會比以往更長,一個小時左右?!?/p>
結(jié)果,這場被全網(wǎng)盯緊的發(fā)布整整持續(xù)了1小時18分鐘,堪稱“最重頭戲”。
Altman的造勢從來不是空喊。這位硅谷最有話語權(quán)的“AI布道者”在會前甚至自曝:“測試完GPT5,我感覺自己一無是處?!笨此瓶鋸埖恼f法,卻意外地成為這場發(fā)布的真實注腳。
在開場介紹GPT-5時,奧特曼簡單回顧了下從GPT-3到4,再到5的歷程。他自己比喻說,“GPT-3像個高中生,GPT-4像個大學(xué)生,而GPT-5則已經(jīng)變成了一名專家,一名各個領(lǐng)域的專家?!?/p>
GPT-5并沒有讓人失望,它甚至可能讓打工人們開始焦慮,首當(dāng)其沖的就是程序員。
這次發(fā)布會最大的信息量,不是語言理解能力有多強、創(chuàng)作能力有多豐富,而是它在代碼編寫、調(diào)試、部署上的全新維度:GPT-5不再是“會寫代碼的語言模型”,它是一個工程級開發(fā)助手。
這場發(fā)布會上,OpenAI花了將近一半時間在“現(xiàn)場寫代碼”。它兩分鐘就可以搭建出一個完整網(wǎng)站,五分鐘做出一款語言學(xué)習(xí)App,并能精準(zhǔn)識別并修復(fù)Bug。它不僅聽懂復(fù)雜需求,還能結(jié)構(gòu)清晰地拆解任務(wù)、實現(xiàn)功能、給出部署建議——這種能力,已不是“輔助編程”,而是直接搶活干了。
對于熟悉AI編程工具的人來說,這意味著什么?意味著Copilot要退休了,意味著Replit要被重塑,意味著Cursor等“AI IDE”要被全面整合。Altman在現(xiàn)場甚至直接說:“這是我們有史以來最強的編程模型。”
而背后支撐這一切的,是GPT-5在推理能力、上下文管理、多模態(tài)理解等多個維度上的飛躍。OpenAI此次還發(fā)布了面向不同用戶的模型矩陣,包括:GPT-5 Standard、GPT-5 Mini(輕量版)、GPT-5 Nano(嵌入式和移動端使用)。
這三個版本面向API和企業(yè)客戶開放,按百萬tokens計費。輸入價格分別是1.25/0.25/0.05美元,輸出價格為10/2/0.4美元——極具市場穿透力。對于開發(fā)者而言,這是“從業(yè)門檻”被再一次降維打擊。
值得一提的是,Altman雖并未過多談AGI,但業(yè)內(nèi)都清楚:GPT-5已經(jīng)不局限于在AI大模型的世界里內(nèi)卷,而是不斷突破上限,在AGI的道路上完成大躍進。
這不是一次“模型升級”,而是一次生產(chǎn)力結(jié)構(gòu)的重構(gòu)。
GPT-5登場的這一刻,AI世界的天花板,再次被抬高。而我們,是否準(zhǔn)備好面對它帶來的新范式,還很難說。
接下來,筆者將還原出這場發(fā)布會最精彩的部分:
在現(xiàn)場演示之前,OpenAI先是一如既往地展示了GPT-5的一連串標(biāo)桿成績。
首先,GPT-5最驚艷的就是,在編碼能力方面實現(xiàn)全面碾壓。
SWE?Bench Verified:作為檢測模型修復(fù)真實軟件工程問題能力的標(biāo)準(zhǔn),GPT?5在這一評測中取得驚人的74.9%,領(lǐng)先于o3的69.1%,展現(xiàn)了更高效、更精準(zhǔn)的代碼理解與生成能力。
Aider Polyglot:這是一個跨語言代碼編輯測試,GPT?5成績飆升至88%,錯誤率相比之前整整降低了三分之一。
其次,GPT-5還極大降低了大模型所產(chǎn)生的幻覺問題,并實現(xiàn)在可靠性和事實準(zhǔn)確性方面雙雙提升。
在回答事實類問題時,GPT?5的“幻覺”錯誤率,相對GPT?4o減少約45%,而相對o3則減少約80%。
在GPT-5發(fā)布會上,除了代碼能力,奧特曼特別重點強調(diào)的就是GPT-5在健康醫(yī)療領(lǐng)域的表現(xiàn)。在醫(yī)療場景測試(如HealthBench Hard Hallucinations),它的生成錯誤率僅為1.6%,遠低于GPT?4o的12.9%和o3的15.8%。
程序員馬上要失業(yè)了?
GPT-5最為炸裂的部分,就是代碼能力。
這一次,GPT?5真的在發(fā)布會上秀瘋了。幾乎從開始演示到結(jié)束,一共有四個“全場景、真交互”的代碼能力展示,讓在場開發(fā)者和遠程觀眾都忍不住感慨:“程序員,真的要慌了?!?/p>
1、兩分鐘生成SVG動畫
Prompt:讓我迅速了解什么是伯努利效應(yīng)(Bernouli effect)
在這個prompt下,GPT-5迅速給出了關(guān)于伯努利效應(yīng)的詳細解釋。而當(dāng)用戶再要求用SVG動畫演示時,GPT-5則直接開始進入深度思考模式,兩分鐘生成了420行代碼,最終我們看到了這個可交互的動畫。
值得注意的是,用戶可以自由調(diào)整飛行速度和角度,氣流線條也跟著實時變動。這不僅是可視化的知識輸出,更是個性化、具備教學(xué)輔助價值的模擬系統(tǒng)。
2、五分鐘搭建APP
Prompt:“我是英語母語者,為正在學(xué)法語的搭檔做一個互動式學(xué)習(xí)App,要有卡片、猜詞、游戲,最好做成一只老鼠吃芝士學(xué)單詞?!?/p>
GPT?5不僅“聽懂”了需求,還在五分鐘內(nèi)把需求全量落地:卡片式界面、互動功能、學(xué)習(xí)進度追蹤全都上線。
而那個“老鼠吃芝士”的小游戲,更是讓人拍案叫絕——每當(dāng)老鼠吃掉一塊芝士,就會自動播放一個法語單詞語音,學(xué)習(xí)與娛樂真正無縫融合。
你甚至能看到這個AI在用戶沒有明確要求的細節(jié)上主動優(yōu)化交互邏輯,足以說明其理解層級已經(jīng)躍升。
3、修復(fù)代碼bug
這一幕的設(shè)定就像現(xiàn)實工作場景:一名工程師把一個看似正常、實則問題百出的項目代碼交給GPT?5,希望它能發(fā)現(xiàn)潛在問題。
過去,AI模型寫代碼已經(jīng)夠勉強,找bug更是無從談起。而這次,GPT?5不僅找出了關(guān)鍵問題,還提出了解決方案,并在模擬運行中無誤通過。
要知道,這是第一次,有開發(fā)者把真實工程任務(wù)直接交給AI獨立完成且成功運行。這不僅意味著自動化寫代碼,它的下一步,可能是參與整個軟件生命周期管理。
4、五分鐘創(chuàng)建可視化財務(wù)看板
Prompt:請為我的AI智能體公司創(chuàng)建一個財務(wù)儀表盤,公司已完成D輪融資。
用戶將企業(yè)的各類數(shù)據(jù)一股腦拋給GPT?5,模型在五分鐘內(nèi)交出了一份堪比創(chuàng)業(yè)公司CFO級別的動態(tài)財務(wù)看板。所有數(shù)據(jù)項都自動映射,支持調(diào)整、更新、篩選,UI也堪稱“即用級別”。
GPT-5發(fā)布會的一個多小時里,奧特曼還多次強調(diào),“GPT-5是我們做過最強的代碼模型”。
而為了進一步實錘這個判斷,OpenAI甚至還請來了Cursor的CEO Michael Truell站臺。他在發(fā)布會上宣布,GPT?5將在未來幾天內(nèi)正式登陸Cursor編輯器。
GPT-5讓AI去“模板化”
如果說前兩個部分還讓人覺得GPT?5是個優(yōu)秀的“工具人”,那么第三部分,它則徹底展現(xiàn)出AI向“智能伴侶”進化的潛力。
GPT?5這次發(fā)布的最大突破之一,就是它極具深度的個性化能力。
而這種個性化,不再是表面地更換“主題色”那么簡單,而是——能參與到你的人生決策中來。
GPT-5現(xiàn)已支持更換聊天框顏色
在現(xiàn)場展示中,GPT?5首先展示了一個“超級個人助理”的身份:
它可以接入用戶的日歷、郵件,自動檢查你漏掉的事務(wù),比如一封未處理的會議邀請,甚至你平時的健身頻率;并基于這些信息,為你自動生成個性化的日程規(guī)劃。你再也不需要手動設(shè)置提醒、記會議、安排生活了——GPT?5會根據(jù)你自己過去的行為模式,像一個了解你的生活教練一樣來管理一切。
這就好像拆掉了 Chatbot與 Agent之間的最后一道墻。
過去半年,海內(nèi)外AI公司紛紛入局Agent,微軟、谷歌、Anthropic接連發(fā)布自己的Agent系統(tǒng);就連OpenAI自己也在上個月小范圍推出首個原生Agent。但這一切,在GPT?5面前,顯得更像是“預(yù)演”。
不過,GPT-5的Agent化,是基于它本身認知能力提升之上的自然進化。
它不靠預(yù)設(shè)流程,而是基于理解你、記住你、聯(lián)動外部信息,來動態(tài)調(diào)整策略、生成建議,真正做到了“定制級智能體”。
而 GPT?5最讓人動容的演示,也是奧特曼刻意強調(diào)的一個“終極話題”——GPT-5在健康醫(yī)療領(lǐng)域的應(yīng)用。
來到GPT-5發(fā)布會現(xiàn)場的這位女士是身患三種癌癥的患者。面對醫(yī)生發(fā)來的復(fù)雜醫(yī)學(xué)報告,她一頭霧水,而最終治療方案的選擇又完全壓在她自己身上。
GPT?5于是登場:它不僅將難懂的醫(yī)學(xué)術(shù)語翻譯成日常語言,還就每種治療方案的利弊做出清晰對比,甚至幫助她從心理與生活角度評估哪種路徑更適合她的狀態(tài)。
在這場AI競技場上,海外已經(jīng)開始卷起來。
一個晚上,奧特曼連發(fā)12條X;
而就在GPT-5發(fā)布會期間,在X上刷屏的不止奧特曼,還有馬斯克——他說“Grok在一般推理任務(wù)上已經(jīng)超過GPT-5?!?/p>
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4667977.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.