智東西
作者 陳駿達(dá) 李水青
編輯 李水青
GPT-5終于來(lái)了!
智東西8月8日?qǐng)?bào)道,今天凌晨1點(diǎn),OpenAI發(fā)布了萬(wàn)眾矚目的新一代旗艦?zāi)P虶PT-5,即日起向所有免費(fèi)、Plus、Pro、Team用戶推出,企業(yè)和教育用戶將在一周內(nèi)獲得訪問(wèn)權(quán)限。一經(jīng)發(fā)布,GPT-5便沖上大模型競(jìng)技場(chǎng)榜首,并在文本、編程、數(shù)學(xué)等全方面排名第一。
GPT-5將非推理模型與推理模型融為一體,支持“按需思考”,即根據(jù)任務(wù)難度,自行判斷是否進(jìn)行思考,并提供合適的回答。它還擁有4種“人格”,分別為憤世嫉俗者、機(jī)器人、傾聽者和書呆子。
OpenAI CEO Sam Altman認(rèn)為,GPT-5已經(jīng)達(dá)到了博士級(jí)別的智能,與其對(duì)話就像是與一位在任何領(lǐng)域都擁有博士學(xué)位的專家溝通。同時(shí),GPT-5不僅是用來(lái)“問(wèn)問(wèn)題”的,現(xiàn)在還能“為你做事”,完成日常規(guī)劃、發(fā)送邀請(qǐng)函、采購(gòu)物資等任務(wù)。
OpenAI研究員Tina Kim在發(fā)布中稱:“有了GPT-5,我們將淘汰所有舊模型?!?/strong>一個(gè)GPT-5模型就集成多模態(tài)、推理等多種能力,相當(dāng)于融合GPT和o系列模型,用戶無(wú)需再為復(fù)雜的產(chǎn)品族選擇糾結(jié)。
多項(xiàng)基準(zhǔn)測(cè)試中,GPT-5超過(guò)了OpenAI o3、GPT-4o等OpenAI最強(qiáng)大的模型,在數(shù)學(xué)、編碼、視覺感知和健康方面表現(xiàn)尤其出色。憑借GPT-5-pro的擴(kuò)展推理,該模型還在科學(xué)知識(shí)基準(zhǔn)測(cè)試GPQA上獲得了新的SOTA,無(wú)需工具即可得分88.4%。
不過(guò),GPT-5也可能是OpenAI歷史上最復(fù)雜的模型家族之一,擁有GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四個(gè)版本。免費(fèi)用戶的GPT-5用量有限,超過(guò)限額后將自動(dòng)轉(zhuǎn)至GPT-5-mini。GPT-5-pro僅供Pro訂閱用戶使用,可憑借擴(kuò)展推理功能,提供更全面、更準(zhǔn)確的答案。
GPT-5、GPT-5-mini、GPT-5-nano三款模型也提供API服務(wù),GPT-5的輸入、輸出價(jià)格分別為每百萬(wàn)token 1.25美元/10美元,GPT-5-mini的定價(jià)為GPT-5的1/5,而GPT-5-nano的定價(jià)為GPT-5的1/25。與主要競(jìng)爭(zhēng)對(duì)手Anthropic和谷歌相比,OpenAI的GPT-5模型對(duì)于開發(fā)人員來(lái)說(shuō)成本相當(dāng)甚至更低。
▲GPT-5 API與Anthropic、谷歌模型價(jià)格對(duì)比(圖源:VentureBeat)
GPT-5剛剛發(fā)布,馬斯克就在X社交平臺(tái)發(fā)起攻勢(shì),稱“Grok 4在ARC-AGI上擊敗了GPT-5”。對(duì)此,有網(wǎng)友認(rèn)為這是對(duì)Grok 4更強(qiáng)推理和泛化能力的證實(shí),也有網(wǎng)友認(rèn)為氪金300美元才能用上的Grok 4趕不上免費(fèi)的GPT-5更有性價(jià)比。
發(fā)布會(huì)上,Altman分享了一組數(shù)據(jù):32個(gè)月之前,OpenAI發(fā)布了ChatGPT,并在發(fā)布首周獲得超100萬(wàn)用戶。而如今,ChatGPT在全球范圍內(nèi)已有超過(guò)7億用戶。GPT-5是對(duì)GPT-4的一次重大升級(jí),也是邁向AGI的重要一步。
但GPT-5不是AGI。Altman稱:“我有點(diǎn)討厭‘通用人工智能(AGI)’這個(gè)詞,因?yàn)楝F(xiàn)在每個(gè)人都用它來(lái)指代略有不同的事物,但GPT-5是朝著真正強(qiáng)大的模型邁出的重要一步。我們?nèi)匀蝗鄙僖恍┓浅V匾臇|西?!边@一重要的東西就是模型在部署過(guò)程中能夠持續(xù)學(xué)習(xí),而GPT-5卻沒有。
一、靠自主判斷規(guī)避“過(guò)度思考”,編程能力獲Cursor創(chuàng)始人認(rèn)可
現(xiàn)場(chǎng)演示中,OpenAI首先展示了GPT-5按需思考的能力。工作人員讓GPT-5解釋伯努利現(xiàn)象(流體力學(xué)里的一個(gè)基本原理),這對(duì)其而言相對(duì)簡(jiǎn)單。GPT-5判斷無(wú)需思考,并迅速給出答案。
緊接著,工作人員提出想讓GPT-5打造一張動(dòng)態(tài)SVG演示圖,來(lái)進(jìn)一步解釋這一概念。此時(shí),無(wú)需手動(dòng)調(diào)整,GPT-5便會(huì)自動(dòng)進(jìn)行思考,只需一個(gè)簡(jiǎn)單的提示,GPT-5就創(chuàng)建了交互式的演示。用戶也可以在提示詞中引導(dǎo)GPT-5是否開啟思考,只需輸入認(rèn)真想想、仔細(xì)思考等類似表述即可。
在其給出的演示中,用戶可以拉動(dòng)進(jìn)度條改變空氣速度,以查看升力和壓力變化,也可以調(diào)整迎角,看模擬的飛機(jī)是否真的會(huì)墜毀。所以GPT-5可以隨時(shí)將任何硬核概念帶入生活,讓學(xué)習(xí)物化生和數(shù)學(xué)變得更加容易。
GPT-5在寫作方面得到顯著提升。比如OpenAI研發(fā)人員現(xiàn)場(chǎng)讓GPT-5為GPT-4o寫了一篇悼文。研究人員稱,從生成內(nèi)容來(lái)看,這不像在跟AI聊天,而像一位高智商、高情商的朋友在交流和上課。
研發(fā)人員稱,GPT-5是迄今為止最好的編程模型。比如他讓GPT-5建立了一個(gè)學(xué)習(xí)法語(yǔ)的網(wǎng)絡(luò)應(yīng)用,同時(shí)要求GPT-5嵌入一款教育游戲。大約兩分鐘后,GPT-5生成了一個(gè)帶有標(biāo)簽、抽認(rèn)卡、測(cè)試等功能的應(yīng)用,并且成功嵌入了一款貪吃蛇游戲。
為了進(jìn)一步證明GPT-5在生產(chǎn)場(chǎng)景中的編程能力,OpenAI還特地邀請(qǐng)了明星AI編程創(chuàng)企Cursor聯(lián)合創(chuàng)始人兼首席執(zhí)行官M(fèi)ichael Truell進(jìn)行現(xiàn)場(chǎng)演示。Truell打開了OpenAI API GitHub頁(yè)面上的一則PR。這一問(wèn)題歷經(jīng)3周還未被修復(fù),說(shuō)明存在一定難度。
Truell認(rèn)為,GPT-5在API調(diào)用中展現(xiàn)出了不錯(cuò)的穩(wěn)定性,在Cursor里解決上述問(wèn)題時(shí),它面對(duì)的是一組從未見過(guò)的定制模型、從未見過(guò)的定制工具,還需要從網(wǎng)上抓取文本、在代碼庫(kù)里搜索等,解決問(wèn)題的速度比他本人要快很多。
在官網(wǎng)上,OpenAI也分享了更多編程案例。其開發(fā)出的小游戲畫面精美,游戲機(jī)制也比較合理。
還能遵循用戶指令,打造出Lofi視覺化效果器。從官方Demo來(lái)看,GPT-5的前端能力較此前的OpenAI模型有了不錯(cuò)的提升。
GPT-5改進(jìn)了語(yǔ)音功能,聽起來(lái)就像跟人對(duì)話一樣自然。免費(fèi)用戶每天可以聊上幾個(gè)小時(shí)。比如,結(jié)合ChatGPT學(xué)習(xí)模式,用戶可以以引導(dǎo)的方式教用戶學(xué)習(xí)韓語(yǔ),OpenAI現(xiàn)場(chǎng)對(duì)此進(jìn)行了演示。
OpenAI還宣布一項(xiàng)新功能,面向付費(fèi)用戶推出更加定制化的ChatGPT,支持自定義聊天功能,可調(diào)整模型的性格,四項(xiàng)初始選項(xiàng)包括:憤世嫉俗者、機(jī)器人、傾聽者和書呆子,還能改變聊天界面的顏色。
為了讓GPT-5更符合個(gè)人用戶的溝通方式,研發(fā)團(tuán)隊(duì)內(nèi)存方面做了很多改進(jìn),使其具備更強(qiáng)的記憶功能。比如這使GPT-5在為用戶指定日程時(shí),能顧考慮到此前提及的安排,更符合定制化需求。下周起Pro用戶可先接入Gmail和谷歌日歷,自動(dòng)規(guī)劃日程、回復(fù)郵件。
在API中,所有GPT?5模型最多可接受272000個(gè)(272k)tokens,并生成最多128000個(gè)(128k)推理及輸出tokens,總上下文長(zhǎng)度為400000個(gè)(400k)tokens。
通用Agent明星創(chuàng)企Manus聯(lián)合創(chuàng)始人兼首席科學(xué)家Yichao ‘Peak’ Ji稱,GPT?5 “在各種智能體任務(wù)中表現(xiàn)出色,即使在未修改任何代碼或調(diào)整提示的情況下”。
OpenAI在API中引入了新功能,讓開發(fā)人員對(duì)模型回復(fù)具有更多控制權(quán)。GPT?5支持新的verbosity參數(shù)(取值:低、中、高),幫助控制控制回答是簡(jiǎn)短扼要還是詳盡全面。GPT?5還支持最低模式,該模式會(huì)將GPT?5的推理強(qiáng)度降到到最低,以快速返回答案。
二、多項(xiàng)基準(zhǔn)測(cè)試實(shí)現(xiàn)業(yè)界SOTA,事實(shí)性錯(cuò)誤較o3減少80%
OpenAI稱,GPT?5是其迄今為止在編碼和智能體任務(wù)方面表現(xiàn)最佳的模型。它在編碼基準(zhǔn)測(cè)試和實(shí)際應(yīng)用場(chǎng)景中均優(yōu)于o3,并且經(jīng)過(guò)專門優(yōu)化,在Cursor、Windsurf和Codex CLI等智能體編碼產(chǎn)品中表現(xiàn)尤為出色。
GPT?5在關(guān)鍵編碼基準(zhǔn)測(cè)試中處于行業(yè)領(lǐng)先水平 (SOTA),在SWE-bench驗(yàn)證測(cè)試中得分74.9%,較o3版本的69.1%有所提升。值得注意的是,GPT?5以更高的效率和速度獲得了高分:與o3在高推理強(qiáng)度下相比,GPT?5的輸出tokens數(shù)量減少了22%,工具調(diào)用次數(shù)減少了45%。
同時(shí),GPT?5在Aider polyglot測(cè)試中得分88%。在內(nèi)部測(cè)試中,其在70%的Web任務(wù)開發(fā)中表現(xiàn)和OpenAI o3。此外,GPT?5在深度分析代碼庫(kù)方面表現(xiàn)出色,能夠精準(zhǔn)解答關(guān)于代碼模塊運(yùn)作機(jī)制及相互協(xié)作的問(wèn)題。
GPT?5在長(zhǎng)背景信息性能方面也展現(xiàn)出顯著提升。在OpenAI-MRCR(一種衡量長(zhǎng)背景信息檢索能力的指標(biāo))中,GPT?5的表現(xiàn)優(yōu)于o3和GPT?4.1,且隨著輸入長(zhǎng)度的增加,這種優(yōu)勢(shì)會(huì)顯著擴(kuò)大。
OpenAI與一些客戶就編程功能進(jìn)行了合作。Cursor首席執(zhí)行官Truell稱,GPT?5“具有顯著的智能,易于操控,甚至擁有其他模型中不具備的人格特質(zhì)”。AI編程公司W(wǎng)indsurf相關(guān)負(fù)責(zé)人稱,GPT?5在其評(píng)估中達(dá)到最先進(jìn)水平,且“與其他前沿模型相比,工具調(diào)用錯(cuò)誤率僅為其一半”。
GPT?5在持續(xù)型智能體任務(wù)中同樣表現(xiàn)卓越,在兩個(gè)月前剛發(fā)布的工具調(diào)用基準(zhǔn)測(cè)試τ2-bench telecom中,以96.7%的成績(jī)刷新了業(yè)界最優(yōu)水平。
在事實(shí)性方面,GPT?5比其之前的模型更值得信賴。在事實(shí)準(zhǔn)確性基準(zhǔn)測(cè)試LongFact和FActScore中,GPT?5的錯(cuò)誤率僅為o3的五分之一。這使得GPT?5尤其適用于正確性要求高的智能體任務(wù)場(chǎng)景,特別是在代碼生成、數(shù)據(jù)處理和決策支持等關(guān)鍵領(lǐng)域。
GPT?5改進(jìn)的工具智能使其能夠可靠地串聯(lián)數(shù)十次工具調(diào)用(無(wú)論串行還是并行),保持路徑一致性,這使其在執(zhí)行復(fù)雜的現(xiàn)實(shí)世界端到端任務(wù)時(shí)表現(xiàn)得遠(yuǎn)優(yōu)于其他模型。它還更精確地遵循工具指令,更好地處理工具錯(cuò)誤,并在長(zhǎng)背景信息內(nèi)容檢索方面表現(xiàn)出色。
OpenAI還開源了BrowseComp Long Context?,這是一個(gè)用于評(píng)估長(zhǎng)背景信息問(wèn)答的新基準(zhǔn)。在此基準(zhǔn)中,模型會(huì)收到用戶查詢、一長(zhǎng)串相關(guān)搜索結(jié)果,并必須基于搜索結(jié)果回答問(wèn)題。
以下是GPT-5的一些基準(zhǔn)測(cè)試成績(jī)。但OpenAI研發(fā)人員稱,GPT-5訓(xùn)練的重點(diǎn)是現(xiàn)實(shí)的實(shí)用性,而不是基準(zhǔn)測(cè)試。
三、解決GPT“阿諛奉承”問(wèn)題,靠新方法減少非必要“拒絕回復(fù)”
OpenAI的多名研究人員分享了GPT-5背后的技術(shù)創(chuàng)新。
在安全問(wèn)題上,ChatGPT過(guò)去主要依賴于基于拒絕的安全訓(xùn)練:根據(jù)用戶的提示,模型應(yīng)該要么遵守,要么拒絕。
這種類型的訓(xùn)練適用于明顯的惡意提示詞,但是在用戶意圖模棱兩可的情況下,可能出現(xiàn)問(wèn)題。比如拒絕應(yīng)該回答的問(wèn)題,或是給有風(fēng)險(xiǎn)的問(wèn)題做出回答。
對(duì)于GPT-5,OpenAI引入了一種新的安全訓(xùn)練形式——安全完成(safe completions)。這種訓(xùn)練形式教會(huì)模型盡可能給出最有用的答案,同時(shí)仍然保持在安全范圍內(nèi)。
如今,對(duì)于一些可能有潛在風(fēng)險(xiǎn)的問(wèn)題,GPT-5會(huì)減少不必要的過(guò)度拒絕,轉(zhuǎn)而告訴拒絕的原因,并提供安全的替代方案。
GPT-5還改善了GPT系列模型阿諛奉承的問(wèn)題,減少了過(guò)度討好和無(wú)意義的表情符號(hào)的使用。OpenAI已經(jīng)開發(fā)出新的評(píng)估方法,來(lái)衡量模型阿諛奉承的程度,并改進(jìn)訓(xùn)練方法了,使模型更少地阿諛奉承。
在針對(duì)阿諛奉承問(wèn)題的專門評(píng)估中,GPT-5顯著減少了此類回復(fù)的比例(從 14.5%降至不到 6%)。
GPT-5 Pro是OpenAI推理模型OpenAI o3-pro的替代品,能提出給出更為全面、高質(zhì)量的答案,這得益于一項(xiàng)名為并行測(cè)試時(shí)計(jì)算的技術(shù)(同時(shí)進(jìn)行多項(xiàng)推理)。
在多個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試中,GPT-5 Pro實(shí)現(xiàn)了同家族模型中的最佳性能。OpenAI還進(jìn)行了1000個(gè)實(shí)際測(cè)試,67.8%外部專家更偏好GPT-5 pro的回答,而非開啟思考模式的GPT-5。GPT-5 pro犯下重大錯(cuò)誤的比例降低了 22%,在健康、科學(xué)、數(shù)學(xué)和編程方面表現(xiàn)尤為出色。
在發(fā)布會(huì)的尾聲,OpenAI首席科學(xué)家Jakub Pochocki做了一番總結(jié)。他稱,GPT-5的模型的誕生,是多年研究的結(jié)果,這些研究不僅以推出新版本為目的,還旨在構(gòu)建對(duì)底層技術(shù)本身的理解。GPT-5呈現(xiàn)的許多技術(shù),會(huì)在未來(lái)得到進(jìn)一步發(fā)展。
Pochocki稱,OpenAI仍然有很多需要了解的東西,并期待AI能夠發(fā)現(xiàn)全新的知識(shí),并真正地使我們的生活變得更好。
結(jié)語(yǔ):靠“視覺欺騙”夸大性能提升?GPT-5實(shí)際表現(xiàn)有待進(jìn)一步驗(yàn)證
GPT-5的發(fā)布,毫無(wú)疑問(wèn)是今年AI圈最受關(guān)注的事件之一。GPT-5官宣推文發(fā)布2小時(shí)后,已經(jīng)獲得超160萬(wàn)瀏覽,并且仍在持續(xù)增長(zhǎng)。然而,這一發(fā)布也帶來(lái)了一定爭(zhēng)議——OpenAI在發(fā)布會(huì)使用了“視覺騙局”的方式呈現(xiàn)基準(zhǔn)測(cè)試,柱狀圖中OpenAI o3的高度被不成比例地壓縮了,這從某種程度上夸大了GPT-5實(shí)現(xiàn)的能力提升。
GPT-5在真實(shí)使用場(chǎng)景中的性能與體驗(yàn),尚待市場(chǎng)反饋,但OpenAI的估值已經(jīng)飆升。此前周三外媒The Information消息稱,OpenAI正洽談潛在的二級(jí)股票發(fā)行,估值飆升至5000億美元(約合3.6萬(wàn)億人民幣),比年初翻了一倍。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.