新智元報(bào)道
編輯:定慧 桃子
【新智元導(dǎo)讀】GPT-5的實(shí)測(cè)眾說(shuō)紛紜,那GPT-5最強(qiáng)的Pro版本表現(xiàn)如何?實(shí)測(cè)后,我們認(rèn)為GPT-5 Pro有可能確實(shí)就是當(dāng)下的最強(qiáng)模型。
GPT-5終于來(lái)了,全世界的眼睛都盯著它。
但是目前的評(píng)價(jià)嘛,卻是毀譽(yù)參半。我們也趕緊上手深度實(shí)測(cè)了一波。
發(fā)現(xiàn)GPT-5這家伙,表現(xiàn)還真有點(diǎn)「飄忽不定」,猜測(cè)可能和那個(gè)叫「路由」功能有關(guān)。
但是,一旦切換到GPT-5 Pro模式,強(qiáng)制使用最強(qiáng)能力時(shí)。天吶!感覺(jué)是真的有點(diǎn)強(qiáng)。
廢話不多說(shuō)。我們直接上案例,看看它到底有多牛。以下所有實(shí)測(cè)Demo均由GPT-5 Pro出品。
GPT-5 Pro實(shí)測(cè)展示
1. 首先就是喜聞樂(lè)見(jiàn)的「前端能力」展示
我們讓GPT-5 Pro制作了一個(gè)黑客帝國(guó)的風(fēng)格的可調(diào)參數(shù)城市,附帶一個(gè)控制面板。
不得不說(shuō),編程能力確實(shí)提升巨大。
在完整視頻中,你能看到GPT-5的參數(shù)面板非常豐富,可以調(diào)節(jié)很多細(xì)節(jié),這個(gè)直觀上就比我們以前測(cè)試的所有例子都要好。
2. 看圖求解數(shù)獨(dú)
只需要1分鐘10s中,完美解決數(shù)獨(dú)問(wèn)題。
3. 比大小變體
比較9.9和9.11已經(jīng)有了變體形式,通過(guò)求解方程來(lái)進(jìn)一步測(cè)試模型的推理和計(jì)算能力。
4. 時(shí)鐘難題
GPT-5 Pro一開(kāi)始也是認(rèn)錯(cuò)的,但是只要提示詞強(qiáng)調(diào)「短的是時(shí)針,長(zhǎng)的是分針」,然后Bingo!
6個(gè)鐘表5個(gè)完全正確,只有黃色時(shí)鐘識(shí)別錯(cuò)誤。
不過(guò),紅色鐘表由于時(shí)針和分針里的太近,被認(rèn)為是12點(diǎn)(實(shí)際11點(diǎn)55,非常接近)
作為對(duì)比,Gemini 2.5 Pro的識(shí)別錯(cuò)誤率就非常的高,幾乎全錯(cuò),多次詢問(wèn)正確率依然不高。
5. IMO數(shù)學(xué)問(wèn)題
IMO的問(wèn)題雖然都是OpenAI和谷歌都解出來(lái)了1-5題,但是他們是用的都是特調(diào)參賽用模型。
使用GPT-5 Pro求解第一道題目,在近16分鐘的思考后,也得出了正確答案。
并且給出了非常詳細(xì)的答案。
6. GeoGuessr看圖猜地址挑戰(zhàn)
將GeoGuessr上的挑戰(zhàn),交給GPT-5 Pro。
GPT-5 Pro根據(jù)磚墻顏色、房屋風(fēng)格、交通標(biāo)志、植被等全方位的分析,2min判斷這是南非。
可以進(jìn)一步要求深入分析,具體經(jīng)緯度在哪里。
這是最終的結(jié)果,確實(shí)就是南非。
網(wǎng)友已玩兒嗨
網(wǎng)友們也都玩出了花!
有人在實(shí)測(cè)后認(rèn)為GPT-5 Pro確實(shí)是一個(gè)頂級(jí)模型,是最優(yōu)秀的。
OpenAI在Pro版本上取得了巨大的進(jìn)步!
Peter進(jìn)行了12次測(cè)試。
結(jié)論是:沒(méi)有任何其他模型能夠匹敵,無(wú)論是OpenAI、Google、xAI還是Anthropic的模型。
所有這些測(cè)試都只用了 1-3 次嘗試,輸出結(jié)果確實(shí)非常出色。
沃頓商學(xué)院CS教授EthanMollick驚嘆道,自己全程沒(méi)有輸出一行代碼,就讓GPT-5做出一個(gè)建筑生成器。
只需要重復(fù)一句話——改進(jìn)它,就實(shí)現(xiàn)了如下的效果。
一個(gè)提示,可以單次生成「我的世界」克隆版。
類似奧特曼制作的鼓點(diǎn)音樂(lè),網(wǎng)友也嘗試了GPT-5創(chuàng)建旋律和可視化效果。
GPT-5氛圍編程,直出一個(gè)社交模擬器。
在SVG圖生成方面,GPT-5可以說(shuō)達(dá)到了全新高度。
OpenAI科學(xué)家SebastienBubeck表示,「在OpenAI,團(tuán)隊(duì)已前后攻克了預(yù)訓(xùn)練和推理兩大技術(shù)難題。
現(xiàn)在正在全力探索一套,能最大限度發(fā)揮兩者協(xié)同效應(yīng)的新技術(shù)體系。GPT-5僅僅是這個(gè)方向的第一步」。
GPT-5還能看圖精準(zhǔn)定位,網(wǎng)友將童年一張照片扔給ChatGPT,沒(méi)想到它直接定位到一英里范圍內(nèi)。
硅谷爆紅經(jīng)濟(jì)學(xué)家TylerCowen認(rèn)為,GPT-5在專業(yè)領(lǐng)域表現(xiàn)遠(yuǎn)超o3,并稱這是自己用過(guò)最出色的學(xué)習(xí)工具。
同樣,在編程方面,OpenAI研究員SuvanshSanjeev表示,「GPT-5重新定義并拓展了不同規(guī)模模型的成本和智能邊界」。
可以說(shuō)。正如METR最新報(bào)告所指出的,AI的指數(shù)級(jí)增長(zhǎng)仍未放緩。
GPT-5完成任務(wù)時(shí)長(zhǎng)延伸了52%
GPT-5提示指南
各路大神都進(jìn)行了實(shí)測(cè),但是要想自己玩得好,還要看官方指南。
OpenAI自己出了官方指導(dǎo)手冊(cè)「GPT-5 prompting guide」。
指南基于官方團(tuán)隊(duì)與早期測(cè)試者(如Cursor)的實(shí)踐經(jīng)驗(yàn),總結(jié)了在不同場(chǎng)景下提升GPT-5輸出質(zhì)量的提示策略,涵蓋智能體主動(dòng)性調(diào)控、上下文收集優(yōu)化、Responses API 的高效利用,以及在前端/全棧開(kāi)發(fā)中的最佳實(shí)踐。
OpenAI表示他們從規(guī)劃到執(zhí)行,盡可能的最大化編碼性能。
比如前端開(kāi)發(fā),GPT-5 在訓(xùn)練中具備了出色的基準(zhǔn)審美品味,同時(shí)擁有嚴(yán)謹(jǐn)?shù)膶?shí)現(xiàn)能力。
對(duì)于新應(yīng)用,OpenAI建議使用以下框架和包,以最大程度地發(fā)揮該模型在前端方面的能力:
框架:Next.js(TypeScript)、React、HTML
樣式/UI:Tailwind CSS,shadcn/ui,Radix 主題
圖標(biāo):Material Symbols、Heroicons、Lucide
動(dòng)畫(huà): Motion
字體:San Serif、Inter、Geist、Mona Sans、IBM Plex Sans、Manrope
并且網(wǎng)友們也整了一套GPT-5的提示詞范例。比如
1.深度推理與問(wèn)題解決(Deep Reasoning & Problem-Solving)
先把問(wèn)題拆解成清晰步驟,再輸出答案,減少推理錯(cuò)誤。
2.先批評(píng)再定稿模式(Critique Before Final Mode)
先完成初稿,再讓GPT-5批評(píng)并修改,提升質(zhì)量。
3.角色+目標(biāo)+約束(Role + Objective + Constraints)
設(shè)定身份、目標(biāo)和嚴(yán)格約束,讓輸出更貼合需求。
4.逐步加深(Progressive Deepening)
先給高層概述,再逐步深入細(xì)節(jié),避免一次性信息過(guò)載。
彩蛋
被網(wǎng)友催的狠了,現(xiàn)在OpenAI已經(jīng)把GPT-5之前的所有模型都放了出來(lái)。
快去看看你的ChatGPT里是否已經(jīng)有了。
方法是進(jìn)入設(shè)置并打開(kāi)「顯示傳統(tǒng)模型」,就能在下拉菜單中看到之前的模型了。
同時(shí),你也可以選擇將顏色設(shè)置尊貴的「黑色」。
參考資料:
https://cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide#collaborative-coding-in-production-cursors-gpt-5-prompt-tuning
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.