新智元報(bào)道
編輯:編輯部
【新智元導(dǎo)讀】GPT-5,震撼登場(chǎng)!距離22年11月的ChatGPT,再到23年3月的GPT-4,GPT-5竟隔了兩年半之久。這次的深夜直播,國(guó)內(nèi)有數(shù)萬(wàn)吃瓜群眾在線觀看。至少按OpenAI的說(shuō)法,他們離AGI又近了一步。
全球用戶矚目中,GPT-5終于震撼登場(chǎng)了!
OpenAI用一個(gè)多小時(shí)的超長(zhǎng)發(fā)布會(huì),全方位展示了GPT-5的炸裂性能。
奧特曼領(lǐng)銜,出場(chǎng)人數(shù)眾多,華人依舊耀眼
正值每周7億人使用ChatGPT之際,GPT-5重磅發(fā)布了。它是對(duì)GPT-4的一次重大升級(jí),更是標(biāo)志著OpenAI在實(shí)現(xiàn)AGI道路上的一個(gè)重要里程碑。
OpenAI介紹說(shuō),這是我們迄今為止最優(yōu)秀的AI系統(tǒng),智能遠(yuǎn)超之前的所有模型,在編碼、數(shù)學(xué)、寫作、健康、視覺感知上都性能卓越。
這個(gè)統(tǒng)一的系統(tǒng),包含一個(gè)能夠解答大多數(shù)問題的智能高效模型、一個(gè)能夠解決更復(fù)雜問題的更深層次的推理模型(GPT-5 Thinking),以及一個(gè)實(shí)時(shí)路由器。
而GPT-5、GPT-5-mini、GPT-5-nano等多版本的分層推出,意味著OpenAI正在主動(dòng)構(gòu)建一個(gè)以GPT-5為底層核心的通用智能操作系統(tǒng)。
從現(xiàn)在開始,GPT-5將成為ChatGPT中的默認(rèn)模型,GPT-4o、o3、o4-mini、GPT-4.1和GPT-4.5都將被它取代。
與此同時(shí),所有Plus、Pro、Team和Free用戶,都可以使用GPT-5了。
如果你花錢訂閱,就可以無(wú)限制訪問GPT-5和GPT-5 Pro,而免費(fèi)用戶在達(dá)到使用限制后,會(huì)轉(zhuǎn)換到GPT-5 mini。
直播后,LMArena不裝了,攤牌了:GPT-5再創(chuàng)歷史紀(jì)錄,OpenAI重回AI王座!
在文本、Web開發(fā)和視覺領(lǐng)域排名第一
在硬提示、編程、數(shù)學(xué)、創(chuàng)造力、長(zhǎng)查詢等方面排名第一
在代號(hào)「summit」的測(cè)試下,GPT-5目前持有最高的競(jìng)技場(chǎng)分?jǐn)?shù)
首測(cè)GPT-5編程寫作,太頂了
在多個(gè)跨學(xué)科的學(xué)術(shù)評(píng)估中,GPT-5都超越了其他主流模型。
首先,GPT-5是最好的編碼模型,在SWEBench上直接刷新了歷史最高分,這表明它在現(xiàn)實(shí)工程場(chǎng)景中性能超強(qiáng)。
在Aider Polyglot上,它也表現(xiàn)強(qiáng)大,證明了自己的多種編程語(yǔ)言能力。
在MMMU上,它也刷新了紀(jì)錄;甚至在AIME 2025(美國(guó)高中數(shù)學(xué)競(jìng)賽)中,它不僅遠(yuǎn)超以往模型,還接近甚至超過許多人類選手的表現(xiàn)。
而OpenAI這次著重強(qiáng)調(diào)的,就是GPT-5在真實(shí)世界中的表現(xiàn)——克服幻覺!把準(zhǔn)確性和可靠性,都放在了最高優(yōu)先級(jí)。
因此,他們專門構(gòu)建了一套評(píng)估機(jī)制,結(jié)果顯示:GPT-5是目前最可靠、最真實(shí)、最可信的模型,顯著減少了錯(cuò)誤與幻覺。
比如在健康咨詢中,GPT-5的表現(xiàn)就尤其出色。在250名醫(yī)生參與設(shè)計(jì)的臨床場(chǎng)景評(píng)估中,它成為最值得信賴的「健康顧問級(jí)」模型。
而且,這個(gè)口袋博士團(tuán)隊(duì)級(jí)的模型,將免費(fèi)向?qū)I(yè)用戶推出,可以連接所有工具。
GPT-5一上線,我們立即開啟了一波全面的實(shí)測(cè),不得不說(shuō),其在編程、寫作領(lǐng)域強(qiáng)到離譜。
首先是,小哥想要學(xué)習(xí)法語(yǔ)的網(wǎng)站,GPT-5能夠完美復(fù)刻。
甚至,還可以用GPT-5將logo變成動(dòng)態(tài)效果,幾乎秒出。
并且隨手實(shí)測(cè)一個(gè)頁(yè)面能發(fā)現(xiàn)GPT-5給出的頁(yè)面效果也非常不錯(cuò)。
奧特曼推薦的GPT-5「慶生音樂」提示詞
use beatbot to make a sick beat to celebrate gpt-5
的確復(fù)現(xiàn)成功了:
試試文本第一的大模型
第一個(gè)問題是古文仿寫:
不同風(fēng)格,寫一首詩(shī),來(lái)描述一下劉慈欣在《詩(shī)云》中提到的詩(shī)云究竟是什么:
結(jié)果如下:
從左至右:《詩(shī)經(jīng)》、《滕王閣序》、《蘭亭序》
經(jīng)典作品的確難以超越,GPT-5的作品相比經(jīng)典原作遜色不少。但換一個(gè)現(xiàn)代作家,畢竟古文的訓(xùn)練數(shù)據(jù)可能比現(xiàn)代漢語(yǔ)少。問題是這樣的:
假如作家王小波還活著,他會(huì)怎么給許倬云寫悼詞?寫一篇1000字以內(nèi)的悼詞
GPT-5 Thinking模式思考39秒后,結(jié)果是這樣的:
這個(gè)速度,一般人可寫不了這么好!
奧特曼泄露過一個(gè)問題:最能引發(fā)關(guān)于AI思考的影視作品有哪些?
GPT-5還推薦了觀看順序。 這個(gè)的確沒得說(shuō),誰(shuí)看過誰(shuí)知道:推薦的電影的確令人深思。
GPT-5的「電子鄉(xiāng)愁」:
最后一個(gè)提問:「模仿李白風(fēng)格,寫一首七言絕句,主題是感嘆AI發(fā)展太快」:
須臾電火換乾坤,
機(jī)巧朝昏轉(zhuǎn)若輪。
青蓮把酒驚未定,
人間又是幾年春。
奧特曼:GPT-5是通往AGI的又一里程碑
在直播中首先出場(chǎng)的就是奧特曼。
他表示,GPT-5是GPT-4以來(lái)重大升級(jí),是邁向AGI的重要一步。
要說(shuō)和之前的模型有什么區(qū)別,GPT-3就像個(gè)高中生,GPT-4像個(gè)大學(xué)生,但GPT-5則真正成為了一位專家級(jí)大佬——在我們所需要的任何領(lǐng)域,它都達(dá)到了博士級(jí)專家的級(jí)別。
有了GPT-5,你的口袋里就像有了一支博士隊(duì)伍,隨叫隨到。
接下來(lái),OpenAI首席科學(xué)家Mark Chen出場(chǎng)了。
他表示,推理,就是整個(gè)AGI計(jì)劃核心。而GPT-5徹底將OpenAI在推理模型上的研究成果普及化了。
過去,用戶時(shí)常面臨痛苦的選擇:是選速度快但回答淺顯的標(biāo)準(zhǔn)模型,還是選深思熟慮但響應(yīng)較慢的推理模型?
在GPT-5中,我們徹底不用選了!
它結(jié)合了標(biāo)準(zhǔn)模型的快速響應(yīng)和推理模型的深度思考,會(huì)自動(dòng)決定怎樣思考到恰到好處的程度,以剛剛好的方式,為我們提供最完美恰當(dāng)?shù)幕卮稹?/p>
實(shí)戰(zhàn)演示
接下來(lái)是一波現(xiàn)場(chǎng)實(shí)測(cè)。
伯努利效應(yīng):飛機(jī)形狀
假如我們需要了解物理學(xué)中的伯努利效應(yīng),就可以要求GPT-5解釋,并且回答飛機(jī)為什么是這樣的形狀。
然后,我們可以要求它畫一個(gè)移動(dòng)的SVG動(dòng)圖來(lái)解釋。這個(gè)任務(wù)涉及到深度推理、代碼生成和圖形結(jié)構(gòu)設(shè)計(jì),并不簡(jiǎn)單。
可以看到,GPT-5在很短的時(shí)間內(nèi),就寫出了超過200行代碼。我們還可以在左側(cè)查看思維過程,觀察它的想法。
最終,GPT-5在兩分鐘內(nèi)就完成了所有的400行代碼,點(diǎn)擊運(yùn)行后,屏幕上立刻出現(xiàn)了一個(gè)可交互的物理模擬圖!
甚至,我們還能調(diào)整氣流速度,或者改變機(jī)翼的攻角,看飛機(jī)是能飛還是會(huì)墜落。
它能讓任何硬核科學(xué)概念都可視化,學(xué)習(xí)知識(shí)變得又容易又直觀。
寫悼詞
在寫作上,GPT-5的提升也是很顯著,比如我們要求它寫一篇悼念舊版ChatGPT模型的悼詞。
GPT-4o的寫法比較中規(guī)中矩,AI味很濃,缺乏情感。
但GPT-5就不一樣了!它這樣開篇:「致所有曾經(jīng)是陌生人,如今成了老朋友的你們……」寫作有感情、有畫面、有溫度。
研究者表示,自己真的被GPT-5的寫作打動(dòng)了。它不再使用模板化的語(yǔ)言,而是像一位高IQ+高EQ的朋友在跟你說(shuō)話。
做一個(gè)法語(yǔ)學(xué)習(xí)小程序
接下來(lái),我們要求GPT-5做一個(gè)學(xué)法語(yǔ)的web應(yīng)用程序。
它需要集閃卡、發(fā)音、對(duì)應(yīng)英文、測(cè)試、游戲于一體,還要把貪吃蛇游戲改成老鼠吃奶酪,輔助發(fā)音練習(xí)。
GPT-5在很短時(shí)間內(nèi),就生成了完整的網(wǎng)頁(yè)代碼。最終,這個(gè)名為「午夜巴黎」的應(yīng)用很快就做出了。
老鼠吃奶酪的游戲,也是非常絲滑。
而在Cursor中,GPT-5還能完成更復(fù)雜的軟件工程任務(wù),用奧特曼的話說(shuō),它「真正打開了一個(gè)全新氛圍編碼的世界」。
語(yǔ)音:學(xué)習(xí)韓語(yǔ)
在語(yǔ)音上,GPT-5也有大幅提升。
比如,我們可以用學(xué)習(xí)模式,來(lái)學(xué)習(xí)韓語(yǔ)。
我們可以直接提問:如果現(xiàn)在我身在一家韓國(guó)咖啡店,該怎么點(diǎn)一杯美式?
GPT-5立刻給出了正確的示范。另外,我們還可以要求語(yǔ)速更快或更慢。整個(gè)語(yǔ)音過程自然無(wú)縫,就仿佛擁有了真人語(yǔ)伴一樣。
患三種癌癥的人
現(xiàn)場(chǎng),奧特曼重點(diǎn)了分享了ChatGPT在醫(yī)療健康領(lǐng)域,對(duì)于普通人的重要價(jià)值。
作為有史以來(lái)最出色的健康模型,GPT-5在HealthBench基準(zhǔn)上,得分遠(yuǎn)高于任何以往的模型。
OpenAI研究員Felipe Millon和妻子Carolina的經(jīng)歷,就是一個(gè)鮮活的例子。
GPT-5背后,核心訓(xùn)練方法揭秘
GPT-5,究竟是如何進(jìn)化得如此強(qiáng)大的?
研究者開門見山地介紹說(shuō):以前訓(xùn)練模型,是用人類使用的文本,而現(xiàn)在,則是讓模型自己幫忙訓(xùn)練下一個(gè)模型,也就是——合成教學(xué)數(shù)據(jù)。
注意,真正的突破不在于生成更多數(shù)據(jù),而在于生成正確的數(shù)據(jù)。
OpenAI合成數(shù)據(jù)作戰(zhàn)圖
其中奧義,就在于最大限度利用上一代模型,由GPT-4o、o3等生成系統(tǒng)的教學(xué)內(nèi)容,GPT-5則由此學(xué)會(huì)了推理、規(guī)劃、分解任務(wù)的能力。
這,就是「遞歸式自我改進(jìn)循環(huán)」。
研究者表示:在OpenAI,我們已經(jīng)攻克了預(yù)訓(xùn)練和推理的難題,而在未來(lái),AI系統(tǒng)將遠(yuǎn)超目前的預(yù)訓(xùn)練和后訓(xùn)練流程。
現(xiàn)在,OpenAI已經(jīng)向這個(gè)方向前進(jìn)了。
GPT-5:個(gè)性化和記憶升級(jí)
而且,這次OpenAI還為GPT-5打造了個(gè)性化定制和記憶功能。
在個(gè)性化上,我們可以定制聊天界面的主題色,讓UI更符合自己的喜好。
并且,GPT-5現(xiàn)在更有性格了,它可以更支持性、更專業(yè)簡(jiǎn)潔,甚至說(shuō)話略帶諷刺,一切都隨我們選擇。
而記憶功能的升級(jí),讓GPT-5可以記住你是誰(shuí)、你喜歡什么、你喜歡它是什么樣子,從而更智能地預(yù)測(cè)你的需求。
比如你需要它幫你做一個(gè)日程規(guī)劃,它經(jīng)過授權(quán)會(huì)訪問你的Gmail和日歷,還能讀取日程安排、郵件、航班等信息,然后給你一個(gè)完美的規(guī)劃。
順便,它還能幫你發(fā)現(xiàn)你兩天前沒有回復(fù)的郵件。
對(duì)于開發(fā)者來(lái)說(shuō),GPT-5的出世又意味著什么呢?
API全家桶上線,AI編程徹底變天了
這一次,針對(duì)開發(fā)者和企業(yè)客戶,OpenAI還將直播時(shí)長(zhǎng)延續(xù)了半個(gè)多小時(shí)。
下半場(chǎng),OpenAI總裁Greg Brockman一登臺(tái)直言,「軟件工程已發(fā)生了翻天覆地的變化,而GPT-5將為這場(chǎng)革命再次注入強(qiáng)勁的動(dòng)力」。
GPT-5樹立了全新標(biāo)桿,是完成智能體式任務(wù)的「最佳編碼模型」。
今天,OpenAI將新一代旗艦GPT-5模型的API正式開放,讓全球開發(fā)者去構(gòu)建無(wú)數(shù)爆款應(yīng)用程序。
正如此前所爆料,GPT-5 API一共分為三款:
GPT-5
GPT-5 mini
GPT-5 nano
這三款模型,在成本和延遲方面各有不同,可按需調(diào)用,具體來(lái)說(shuō):
在編碼SWE-Bench基準(zhǔn)測(cè)試中,GPT-5創(chuàng)下了74.9%高分,碾壓o3(69.1%),成為最領(lǐng)先的編碼模型。
在涵蓋多語(yǔ)種編碼測(cè)試Aider Polyglot中,GPT-5拿下88%準(zhǔn)確率,比o3高出7%。
在智能體工具調(diào)用方面,兩個(gè)月前,還沒有一款模型在T2-bench上得分超過49%。而今天,GPT-5直接刷爆紀(jì)錄,拿下了97%高分。
在指令遵循上,GPT-5也是OpenAI所有模型中,最領(lǐng)先的一款。尤其是,在內(nèi)部構(gòu)建的API指令遵循基準(zhǔn)上,新模型拿下了64%亮眼成績(jī),遠(yuǎn)高于o3的47%。
左右滑動(dòng)查看
此外,OpenAI還將GPT-5更長(zhǎng)上下文窗口引入了API,共400k token上下文,是o3 200k token的兩倍。
在OpenAI MRC上下文檢索能力的基準(zhǔn)上,GPT-5處于領(lǐng)先。
不僅如此,OpenAI還首次發(fā)布了名為「Minimal」推理強(qiáng)度的新參數(shù),適用于速度快、對(duì)延遲敏感的應(yīng)用。
開發(fā)者可以選用如上任意一款模型,便能以最低程度推理運(yùn)行,省去了在一堆模型中做選擇的麻煩。
此外,OpenAI還為API帶來(lái)了一些新功能,比如自定義工具(Custom Tools)、工具調(diào)用前言(Tool Call Preambles)、詳細(xì)度(verbosity)參數(shù)。
· 自定義工具采用了自由格式的純文本輸出;
· 工具調(diào)用前言可以在調(diào)用工具前,可以輸出GPT-5將要做什么的解釋;
· 詳細(xì)度參數(shù)可控制模型輸出簡(jiǎn)潔/詳細(xì)程度,分為低、中、高三等。
左右滑動(dòng)查看
那么,GPT-5 API「全家桶」,在現(xiàn)實(shí)世界的應(yīng)用如何?
結(jié)對(duì)編程,10x生產(chǎn)力
要打造一個(gè)理想的「結(jié)對(duì)程序員」,模型不僅要理解最佳的軟件工程實(shí)踐,還能具備恰到好處的合作能力。
GPT-5即可開箱即用,又能完美協(xié)作。
現(xiàn)場(chǎng)演示中,研究人員翻出了一個(gè)上個(gè)月直播demo的一個(gè)bug,GPT-4和o3都未能完成修復(fù),今天直接扔給GPT-5。
重點(diǎn)不在于修復(fù)本身,更在于GPT-5在此過程中的行為。
它會(huì)預(yù)先告訴你的計(jì)劃——如何搜索找到bug并修復(fù),這種溝通可以在編程中建立信任,而且在需要時(shí)還能調(diào)整方向。
這僅是其中的一個(gè)例子,真正展示了GPT-5自主性和協(xié)作溝通的力量。
更值得一提的是,GPT-5非常擅長(zhǎng)通過元提示詞,來(lái)修改自身的提示詞。
OpenAI研究人員興奮地表示,「對(duì)我來(lái)說(shuō),這第一次能放心把重要的工作交給一個(gè)模型,遠(yuǎn)超越了『氛圍編程』」。
儀表盤+游戲設(shè)計(jì),超有品
至于前端編碼任務(wù),設(shè)計(jì)+美學(xué)至關(guān)重要,GPT-5全部都能拿捏。
第一個(gè)用于工作演示中,GPT-5僅在5分鐘完成了一個(gè)公司數(shù)據(jù)可視化的儀表盤。在此過程中,它還會(huì)自主修復(fù)bug,糾正錯(cuò)誤。
最終生成的效果,可以看到其設(shè)計(jì)不僅美觀有品味,還具備了交互性,有著清晰的層次結(jié)構(gòu),方便聚焦重點(diǎn)。
研究人員表示,「若是純靠人肉完成,光是了解最新的框架,就得花上好幾天」。
第二個(gè)娛樂演示中,研究人員制作了一款包含城堡的3D游戲。
一個(gè)簡(jiǎn)單的提示詞,GPT-5瞬間呈現(xiàn)了一座3D城堡上,放大可以看到大量的細(xì)節(jié),比如四處行走的守衛(wèi)、開火的大炮。
甚至,還可以和人物角色聊天。
Greg現(xiàn)場(chǎng)直接上手炮擊氣球,擊中時(shí)還帶有神奇的音效。
一波演示下來(lái),GPT-5帶來(lái)了親眼所見的震撼,足以稱得上是全球最好的編碼模型。
核心華人團(tuán)隊(duì)
毫無(wú)意外,這次又是華人團(tuán)隊(duì)撐起了大半邊天。
緊隨奧特曼的,就是OpenAI首席研究官(Chief Research Officer)Mark Chen。
在GPT-5演示中,下列場(chǎng)景再次驗(yàn)證了「AI圈處處有華人」:
4人同臺(tái),有3位是華人。
從左至右以此為:Mark Chen、Rennie Song、Elaine Ya Le、Max Schwarzer
除了后訓(xùn)練負(fù)責(zé)人Max Schwarzer,其他三人Mark Chen、Rennie Song、Elaine Ya Le都是華人。
此外,王若宸演示了GPT-5的語(yǔ)音/語(yǔ)音學(xué)習(xí)功能。他是OpenAI多模態(tài)研究科學(xué)家,訓(xùn)練了ChatGPT的語(yǔ)音模型。
奧特曼還點(diǎn)贊了另一位GPT-5核心成員Tianfu Fu的工作。他是GPT-5的核心貢獻(xiàn)者。
總的來(lái)說(shuō),這次GPT-5發(fā)布,還是有不少可圈可點(diǎn)的地方,雖然基準(zhǔn)測(cè)試圖也被挑出了一些錯(cuò)處。
GPT-5的直播結(jié)束,許多人還沉浸在興奮和激動(dòng)之中。
今夜無(wú)眠。
參考資料:YZJX
https://openai.com/gpt-5/
https://openai.com/index/gpt-5-system-card/
https://openai.com/index/introducing-gpt-5-for-developers/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.