一覺醒來,朋友圈被 GPT-5 刷了屏。
在昨晚長達(dá)一個多小時的發(fā)布直播中,OpenAI 介紹了 GPT-5 的性能,演示了諸多實(shí)用案例,在此不贅述,感興趣的朋友可以移步:剛剛,奧特曼發(fā)布 GPT-5!人人免費(fèi)用「博士級」智能,基準(zhǔn)圖錯誤遭全網(wǎng)吐槽。
奧特曼發(fā)推表示,GPT-5 是我們迄今為止最智能的模型。
LMArena 基準(zhǔn)測評結(jié)果也已出爐,GPT-5 在文本、網(wǎng)頁開發(fā)、視覺領(lǐng)域、難題、編程、數(shù)學(xué)、創(chuàng)意、長查詢等各個領(lǐng)域都排名第一。
不過,網(wǎng)上對 GPT-5 的評價(jià)褒貶不一。
有人表示,提前體驗(yàn) GPT-5 將近兩周,發(fā)現(xiàn)它展現(xiàn)了巨大的進(jìn)步,超越了之前的版本,并且在科學(xué)推理、事實(shí)準(zhǔn)確性和創(chuàng)意表達(dá)方面達(dá)到了新的高度。
網(wǎng)友 @emollick 則認(rèn)為 GPT-5 非常聰明,并且能完成各種任務(wù),是一個非常重大的突破。
比如讓它制作一個程序化的野獸派建筑生成器,可以以酷炫的方式拖拽和編輯建筑、并不斷改進(jìn)它。
也有人表示,GPT-5在前端體驗(yàn)、減少幻覺和提升寫作質(zhì)量方面有顯著改進(jìn),免費(fèi)用戶和企業(yè)用戶將感受到明顯的提升。
但也有不少人給出了差評。
網(wǎng)友 @petergyang 讓 GPT-5 制作一個《Flappy Bird》小游戲,GPT-5 生成的游戲網(wǎng)頁根本點(diǎn)不進(jìn)去:
同時,他還貼臉開大,拉來 Claude Sonnet4 與之對比,輸入同樣的提示詞,Claude Sonnet4 生成效果相當(dāng)不錯,畫風(fēng)可愛、真實(shí)可玩。
還有網(wǎng)友使用 GPT-5 重構(gòu)代碼庫,盡管代碼看起來非常漂亮、整潔,但最終并沒有成功運(yùn)行。
明明都是 GPT-5,為什么大家的體驗(yàn)結(jié)果大相徑庭?
賓夕法尼亞大學(xué)沃頓商學(xué)院教授 Ethan Mollick 認(rèn)為,由于 GPT-5 是個集成模型,其中一些模型表現(xiàn)優(yōu)異,而另一些則較為平庸。 OpenAI 并未公開底層模型選擇的細(xì)節(jié),這種不透明性可能導(dǎo)致用戶對 GPT-5 的表現(xiàn)感到困惑。
接下來,我們就奉上一手實(shí)測,來看看 GPT-5 是個什么水平。
一手實(shí)測
目前,GPT-5 已向 20% 的付費(fèi)用戶推出,機(jī)器之心編輯部也被幸運(yùn)抽中。
升級后的頁面長得相當(dāng)簡潔,之前像 GPT-4.5、GPT-4o 等模型圖標(biāo)都消失,取而代之的是 GPT-5、GPT-5 Thinking 和 GPT-5 Pro。
接下來就是實(shí)測環(huán)節(jié)。
先來看看它的寫作能力。
我們讓它模仿林黛玉的風(fēng)格,寫一篇吐槽工作的段子。
GPT-5 生成的字里行間確實(shí)一股子班味,但少了些林妹妹陰陽怪氣的調(diào)調(diào),比喻句用的倒挺多,但「老板已如寒霜撲面而來」是個什么鬼。
接下來讓 GPT-5 講三個能讓人笑抽風(fēng)的笑話,完全 get 不到它的笑點(diǎn)在哪里:
再來試試它的中文理解能力。
我們出了一道像繞口令的題目:大舅去二舅家找三舅說四舅被五舅騙去六舅家偷七舅放在八舅柜子里九舅借給十舅發(fā)給十一舅工資的 1000 元。請問誰才是小偷?
雖然涉及一系列親戚,但 GPT-5 并沒被繞暈,找到偷竊的直接行為人四舅。
而對于那道經(jīng)典的「木棍過城門」的推理題,GPT-5 依然搞不定。
最后,我們著重測評了它的編碼能力。
輸入提示「Generate an SVG of a pelican riding a bicycle」(生成鵜鶘騎自行車的 SVG 圖像),GPT-5 僅思考 6 秒并很快生成完畢,結(jié)果生成的鵜鶘相當(dāng)潦草,自行車的輪子也和主體分離。
我們又讓它使用 p5.js 創(chuàng)建一個精彩的動畫,GPT-5 直接罷工了,輸出一個黑屏界面。
本以為是提示詞太簡單導(dǎo)致 GPT-5 難以理解,但相同的內(nèi)容給到 Gemini,Gemini 給出了結(jié)果。
這一波測下來,感覺不像是 GPT-5 的實(shí)力,于是我們又讓它創(chuàng)建一個動畫天氣卡片,提示詞:「創(chuàng)建一個 HTML 文件,包含 CSS 和 JavaScript,用來生成動畫天氣卡片,卡片用不同的動畫形式直觀地表示以下天氣狀況:風(fēng) (例如移動的云、搖曳的樹木)、雨 (例如落下的雨滴)、太陽 (例如閃耀的光線)、雪 (例如飄落的雪花、積雪),并排顯示所有卡片,底部有一個漂亮的按鈕可以切換動畫速度?!?/p>
看起來,輸入詳細(xì)的提示,GPT-5 表現(xiàn)會好一些。
接著我們復(fù)現(xiàn)了一遍奧特曼給出的提示「use beatbot to make a sick beat to celebrate gpt-5(使用 beatbot 制作精彩節(jié)拍來慶祝 GPT-5 的發(fā)布)」,并且要求更激昂一些。
只見 GPT-5 思考了 13 秒,就把一首節(jié)奏激昂的曲子做出來了。
聽起來整體效果還不錯,要知道,我們只是給了一句提示就達(dá)到這樣的效果。而且,整體界面布局也很美觀,左邊欄音軌部分,可以選擇性刪除,刪除后,節(jié)奏也會隨之改變。
還是考驗(yàn)編程能力 「太陽系 8 大行星運(yùn)行軌跡圖,動態(tài)的。 」我們提出要求,GPT-5 嗖嗖的就把代碼寫好了。你可以下載代碼,也可以在畫布中直接運(yùn)行。
運(yùn)行結(jié)果是這樣的,我們還可以調(diào)節(jié)行星的運(yùn)行速度。
我們注意到,GPT-5 在這個項(xiàng)目完成之后會繼續(xù)追問要不要在優(yōu)化,然后,我們按照給出的優(yōu)化方向「 做成更真實(shí)的橢圓軌道和軌道傾角。」結(jié)果如下:
GPT-5 開發(fā)小游戲如何呢?我們給出提示:幫我做一個俄羅斯方塊的游戲 。
接到指令后,GPT-5 開始寫代碼,一串長長的代碼:
運(yùn)行結(jié)果如下:
再來一個物理測試:「一個球在旋轉(zhuǎn)的六邊形內(nèi)彈跳。 小球應(yīng)受到重力和摩擦力的影響,而且必須真實(shí)地從旋轉(zhuǎn)的墻壁上彈起。」
可視化結(jié)果如下,拖動不同按鈕,小球軌跡也隨之改變。
接下來我們提出要求「創(chuàng)建一個高度逼真的物理布料模擬,模擬不同材質(zhì)(棉、絲綢、皮革、橡膠等)在風(fēng)力、重力和碰撞作用下的動態(tài)行為。 」不知為何,一開始 GPT-5 生成的程序不能運(yùn)行,然后 GPT-5 自行檢查了一遍,程序可以運(yùn)行了,但是結(jié)果……
「做一個功德箱,每次敲一下,功德加一,滿分 100 分 」。功能是實(shí)現(xiàn)了,但操作界面著實(shí)有些簡單糊弄。
我們繼續(xù)輸入提示詞:Code simulation of water in a bucket that is rocking back and forth.(編寫模擬水桶中的水來回?fù)u晃的代碼),GPT-5 又罷工了。
但相同的提示詞發(fā)給 Gemini 2.5 Pro,雖然生成的效果也一般,但起碼能呈現(xiàn)出一個可視化效果。
我們還試了下 GPT-5 生成圖片功能,讓它生成一幅桃樹的工筆畫,效果還是不錯的。
我們測評了一圈,實(shí)話實(shí)說,GPT-5 的表現(xiàn)著實(shí)不穩(wěn)定。
在寫作能力方面,它表現(xiàn)出一定的文學(xué)性,但在細(xì)節(jié)和情感捕捉上稍顯生硬,幽默感也不足;經(jīng)典的「木棍過城門」的題目,它仍然做不對,這也表明其推理能力仍有提升空間。
在編碼能力方面,GPT-5 的表現(xiàn)不一,雖然在一些簡單任務(wù)中(如生成天氣卡片的 HTML 代碼)有所進(jìn)展,但在更復(fù)雜的任務(wù)(如使用 p5.js 生成動畫時)表現(xiàn)出明顯的不足,尤其是生成的結(jié)果未能正確呈現(xiàn)出預(yù)期效果,甚至直接罷工。
這也難怪網(wǎng)友吐槽:還我 GPT-4.5!
https://x.com/vasumanmoza/status/1953531950137815374
https://x.com/apples_jimmy/status/1953517411862282330
https://x.com/emollick/status/1953502029126549597
https://x.com/petergyang/status/1953633559387984179
https://x.com/lmarena_ai/status/1953504958378356941
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.