夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.2性能爆表,但紅色警報沒有解除

0
分享至


就在剛剛,ChatGPT-5.2發(fā)布了。

這是OpenAI成立以來,首次發(fā)布紅色警報(Code Red)后的第一款產(chǎn)品。

雖然在時間上,GPT-5.2只跟5.1相隔了一個月。但是從公布的性能數(shù)據(jù)來看,GPT-5.2較上一代提升巨大,而且遠超谷歌和Anthropic的同期產(chǎn)品。

然而OpenAI的紅色警報并未因此解除,這家公司仍處于危機之中。

究其原因,現(xiàn)在的市場已經(jīng)逐漸開始對OpenAI祛魅,而是更冷靜地審視每一分算力背后的投入產(chǎn)出比。在這種前所未有的環(huán)境之下,OpenAI不僅需要證明自己是最強的,還需要證明自己不可被替代。

01

首先要說的,就是GPT-5.2的數(shù)學(xué)能力。

長期以來,業(yè)界普遍認為大語言模型雖然能寫代碼、能聊天,但在嚴格的數(shù)學(xué)推理上總是差強人意。這次GPT-5.2 Thinking在AIME 2025數(shù)學(xué)競賽中拿到了100%的滿分。


AIME是美國數(shù)學(xué)邀請賽,題目難度遠超普通高中數(shù)學(xué),需要扎實的數(shù)學(xué)功底和靈活的解題思路。GPT-5.2能在這樣的測試中全部答對,說明它在數(shù)學(xué)推理上已經(jīng)達到了相當高的水平。

在更高難度的FrontierMath測試中,GPT-5.2 Thinking解決了40.3%的專家級數(shù)學(xué)難題。這個測試專門針對前沿數(shù)學(xué)研究設(shè)計,許多題目連專業(yè)數(shù)學(xué)家都需要花費大量時間思考。能解決其中40%的問題,已經(jīng)展現(xiàn)出在輔助科學(xué)研究方面的潛力。

除了推理和數(shù)學(xué),GPT-5.2在專業(yè)工作領(lǐng)域也表現(xiàn)突出。

在OpenAI新推出的GDPval基準測試中,GPT-5.2 Thinking在涵蓋44種職業(yè)的知識工作任務(wù)上,有70.9%的情況下?lián)魯』虼蚱搅隧敿庑袠I(yè)專家。

這些任務(wù)包括制作演示文稿、構(gòu)建復(fù)雜的財務(wù)模型、撰寫專業(yè)文檔等。OpenAI表示,它完成這些任務(wù)的速度是人類專家的11倍以上,成本卻不到1%。

在軟件工程方面,GPT-5.2 Thinking在SWE-Bench Pro上達到55.6%的準確率,在SWE-bench Verified上達到80%。這些測試評估的是模型在真實代碼庫中修復(fù)bug、實現(xiàn)新功能的能力。

早期測試者反饋,它在前端開發(fā)和復(fù)雜UI實現(xiàn)上尤其出色,甚至能夠根據(jù)一條提示就生成包含3D效果和物理模擬的完整應(yīng)用。

GPT-5.2在長文檔理解上也有明顯進步。在OpenAI的MRCRv2測試中,它成為首個在256k token長度下,針對4-needle變體任務(wù)達到近乎100%準確率的模型。

這意味著用戶可以上傳數(shù)百頁的報告、合同或研究論文,模型仍能準確理解分散在不同位置的相關(guān)信息,并進行綜合分析。


在視覺理解方面,GPT-5.2的錯誤率在圖表推理和軟件界面理解任務(wù)上幾乎減半。它對圖像中物體的空間位置有了更準確的把握。

OpenAI展示了一個例子:即使輸入一張模糊的主板照片,GPT-5.2也能準確識別出各個組件的位置并標注邊界框,而前代模型只能識別出少數(shù)部分且位置偏差較大。


此次發(fā)布包含三個版本。GPT-5.2 Instant定位為日常工作的快速助手,適合信息查詢、技術(shù)寫作和翻譯等任務(wù)。GPT-5.2 Thinking專注于深度推理,在編程、數(shù)據(jù)分析和復(fù)雜文檔處理上表現(xiàn)最佳,是專業(yè)工作的首選。GPT-5.2 Pro則是最智能的版本,適合那些"值得等待高質(zhì)量答案"的高難度問題。

同時這次發(fā)布最引人注目的,不僅是模型本身的能力提升,更是一個令人驚訝的效率數(shù)據(jù):在ARC-AGI-1測試中,GPT-5.2 Pro實現(xiàn)了約390倍的效率改進。

一年前,OpenAI曾驗證過一個未發(fā)布的o3預(yù)覽版本,在ARC-AGI-1測試中達到88%的準確率,但每個任務(wù)的成本約為4500美元。如今,GPT-5.2 Pro不僅將準確率提升至90.5%,還將單任務(wù)成本降至11.64美元。這種量級的效率提升,意味著原本只能在實驗室中演示的能力,現(xiàn)在有可能真正走向?qū)嶋H應(yīng)用。


ARC-AGI測試被設(shè)計用來衡量抽象推理能力,它要求模型在面對從未見過的模式時,仍能找出規(guī)律并給出答案。這種能力接近人類所謂的“舉一反三”。

GPT-5.2 Pro在ARC-AGI-1驗證集上的表現(xiàn),使其成為首個突破90%門檻的模型。在難度更高的ARC-AGI-2上,GPT-5.2 Thinking也達到了52.9%的準確率,創(chuàng)下了鏈式思維模型的新紀錄。

02

GPT-5.2是奧特曼啟動Code Red后的一次強有力證明,但競爭的結(jié)果不會由單一基準測試決定。真正的較量在于誰能更好地理解用戶需求,誰能在保持技術(shù)領(lǐng)先的同時控制成本,誰能在不同應(yīng)用場景中提供更可靠的服務(wù)。

一個來自GitHub的開源基準測試給出了答案。在lechmazur維護的NYT Connections測試中,GPT-5.2的表現(xiàn)并不如預(yù)期。


NYT Connections是《紐約時報》推出的一個文字游戲,要求玩家從16個詞語中找出四組相關(guān)的詞匯。這個測試被設(shè)計成了一個LLM基準,通過加入額外的干擾詞來增加難度,目前包含759個謎題。這種測試考察的是模型對語言的細微理解、聯(lián)想能力和分類推理。

在這個排行榜上,Gemini 3 Pro Preview以96.8%的準確率位居第一。緊隨其后的是xAI的Grok 4.1 Fast Reasoning,準確率為93.5%。OpenAI的模型中,表現(xiàn)最好的是GPT-5 Pro,準確率為83.9%,排在第八位。GPT-5.2在高推理模式下的準確率為77.9%,排名第11位。

這個結(jié)果多少有些出人意料。GPT-5.2在數(shù)學(xué)競賽中能拿滿分,在專業(yè)工作任務(wù)中能超越人類專家,但在這個看似簡單的文字游戲上,卻落后于競爭對手近20個百分點。

深入分析會發(fā)現(xiàn),這并不是簡單的性能問題。NYT Connections測試的是模型對語言文化背景的理解,對詞語之間隱含關(guān)聯(lián)的把握,以及在多個可能性中做出合理選擇的能力。

比如BANK、INTEREST、RATE、LOAN可能組成金融類別,也可能BANK與SHORE、BEACH、COAST組成河岸類別。

模型需要同時考慮多個維度的關(guān)聯(lián),并找到最合理的分組方式。

Gemini 3 Pro在這個測試上的領(lǐng)先,說明谷歌在語言理解的某些維度上確實有獨到之處。Grok系列模型的表現(xiàn)也值得注意,xAI雖然起步較晚,但在特定任務(wù)上已經(jīng)展現(xiàn)出競爭力。

有趣的是,測試數(shù)據(jù)還顯示,在最新的100個謎題中,各模型的排名基本保持一致,這說明訓(xùn)練數(shù)據(jù)污染的可能性不大。模型之間的差距是實質(zhì)性的,而非來自對題目的記憶。

這個測試的存在,給AI社區(qū)提供了一個更全面的視角。模型能力的評估不應(yīng)該只看幾個主流基準測試,也需要關(guān)注那些看似邊緣但實則反映深層能力的測試。

NYT Connections考察的聯(lián)想和分類能力,在實際應(yīng)用中同樣重要,比如在信息檢索、內(nèi)容推薦、知識圖譜構(gòu)建等場景中。

從這個角度看,奧特曼的Code Red警報確實還不能解除。雖然GPT-5.2在很多領(lǐng)域表現(xiàn)出色,但它并沒有在所有維度上都取得領(lǐng)先。競爭對手在某些方向上依然保持著優(yōu)勢,甚至在擴大差距。

03

技術(shù)競爭最終要落到商業(yè)層面。OpenAI在市場上的處境,比技術(shù)指標的對比要復(fù)雜得多。

從定價策略來看,GPT-5.2在API層面的價格定在每百萬輸入token 1.75美元,每百萬輸出token 14美元,比前代GPT-5.1分別貴了40%。

GPT-5.2 Pro價格也提高了,每百萬輸入token 21美元,每百萬輸出token 168美元。


這個漲價幅度不小,OpenAI的解釋是新模型能力更強,性價比實際上更高。但對于大量調(diào)用API的開發(fā)者來說,成本的增加是實實在在的。

相較之下,Gemini 3 Pro的核心型號為gemini-3-pro-preview,其token定價按上下文窗口長度區(qū)分,提示詞≤20 萬 token 時,輸入每百萬token 2美元、輸出每百萬token 12美元,提示詞>20萬token時,輸入和輸出價格分別翻倍至每百萬token 4美元和18美元。

Claude 方面,最新的 Opus 4.5定價大幅下調(diào),輸入每百萬token 5美元、輸出每百萬token 25美元,相比前代降幅約2/3,上下文窗口為200K token,且無長上下文加價情況。

當競爭對手們?nèi)鏕emini和Claude都在通過大幅降價,試圖讓AI變成像水電一樣廉價的基礎(chǔ)設(shè)施時,OpenAI 卻反其道而行之,不僅沒有參與價格戰(zhàn),反而坦然地掛出了高昂的價格標簽。這只能說明一件事:奧特曼正在試圖把 GPT 變成一件“奢侈品”。

在商業(yè)邏輯中,奢侈品的定義往往不在于“有用”,而在于“稀缺”和“極致”。OpenAI 正在賭,賭這個世界上存在一部分最高端的智力需求,它們對價格不敏感,但對質(zhì)量有著近乎偏執(zhí)的要求。

對于這部分用戶,只要能提供那個唯一的、最正確的答案,168美元的價格不僅不貴,反而是一種身份和能力的篩選。

這或許才是“紅色警報”在商業(yè)層面的真正回響。它不再是擔心落后,而是擔心平庸。

OpenAI正在進行一場危險的博弈:它試圖通過高價策略,將自己與“普通 AI”徹底區(qū)隔開來,建立起類似愛馬仕或蘋果那樣的品牌護城河。

但這也意味著,它從此失去了“差不多就行”的容錯空間??蓡栴}就在于一旦這件昂貴的“奢侈品”在實際體驗中無法提供碾壓式的優(yōu)越感,那么用戶轉(zhuǎn)身離開的速度。

況且,能挽救OpenAI的遠不止一個高性能的模型那么簡單,奧特曼現(xiàn)在需要的,是一個足夠動人的新故事。


歡迎在評論區(qū)留言~
如需開白請加小編微信:dongfangmark


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
4-1!王曼昱大勝朱芊曦,女單首場半決賽對陣出爐!央視官宣賽程

4-1!王曼昱大勝朱芊曦,女單首場半決賽對陣出爐!央視官宣賽程

球場沒跑道
2025-12-12 14:50:34
“蛋神”8天漲粉375萬,煮蛋視頻怎么就火了

“蛋神”8天漲粉375萬,煮蛋視頻怎么就火了

新民周刊
2025-12-12 19:44:54
漲停潮來襲!可控核聚變概念十余股漲停

漲停潮來襲!可控核聚變概念十余股漲停

21世紀經(jīng)濟報道
2025-12-12 18:11:35
定居美國10余年,78歲卻回國“撈金”,她憑啥被稱“人民藝術(shù)家”

定居美國10余年,78歲卻回國“撈金”,她憑啥被稱“人民藝術(shù)家”

小熊侃史
2025-12-12 11:13:22
美媒承認中方實力,柬埔寨的中國PHL-03火箭炮:確實把泰國打怕了

美媒承認中方實力,柬埔寨的中國PHL-03火箭炮:確實把泰國打怕了

閱識
2025-12-10 17:30:00
原來老外判斷不出我們的真實年齡!評論區(qū)笑不活了

原來老外判斷不出我們的真實年齡!評論區(qū)笑不活了

夜深愛雜談
2025-12-12 19:33:49
支付寶采用“西湖模式”發(fā)放政府消費券:碰一碰可享

支付寶采用“西湖模式”發(fā)放政府消費券:碰一碰可享

PChome電腦之家
2025-12-12 14:44:17
德羅贊超卡特升歷史總得分榜第23位,僅差第22位庫里100分左右

德羅贊超卡特升歷史總得分榜第23位,僅差第22位庫里100分左右

懂球帝
2025-12-12 12:49:06
想打主力就必須陪睡,連女體能師都不放過,韓體壇有多惡心

想打主力就必須陪睡,連女體能師都不放過,韓體壇有多惡心

閱微札記
2025-12-12 21:14:09
馬伊琍沒撒謊!離婚6年后,“舊病復(fù)發(fā)”的文章,再次證實她眼光

馬伊琍沒撒謊!離婚6年后,“舊病復(fù)發(fā)”的文章,再次證實她眼光

瞻史
2025-12-12 15:11:16
人不會無故患甲流!研究發(fā)現(xiàn):得甲流的人,大概離不開這6點

人不會無故患甲流!研究發(fā)現(xiàn):得甲流的人,大概離不開這6點

寶哥精彩賽事
2025-12-10 14:12:25
陳幸同新發(fā)型亮相香港賽,賽場時尚風(fēng)潮來襲?

陳幸同新發(fā)型亮相香港賽,賽場時尚風(fēng)潮來襲?

娛樂領(lǐng)航家
2025-12-12 22:00:04
中央編辦同意,湖北單獨設(shè)立一家副廳級單位

中央編辦同意,湖北單獨設(shè)立一家副廳級單位

上觀新聞
2025-12-12 11:22:07
歲月從不敗美人!網(wǎng)友們曬出媽媽顏值,真的被美到啞口無言!

歲月從不敗美人!網(wǎng)友們曬出媽媽顏值,真的被美到啞口無言!

夜深愛雜談
2025-12-11 20:43:15
男子因拒絕在公司年會上表演,被領(lǐng)導(dǎo)以曠工為由開除,法院:公司行為違法,判賠18.5萬元

男子因拒絕在公司年會上表演,被領(lǐng)導(dǎo)以曠工為由開除,法院:公司行為違法,判賠18.5萬元

觀威海
2025-12-12 14:14:02
迪奧新店開業(yè):章子怡壓軸翻車,景甜老氣,周也驚艷,鄧為帥翻了

迪奧新店開業(yè):章子怡壓軸翻車,景甜老氣,周也驚艷,鄧為帥翻了

青橘罐頭
2025-12-12 14:26:24
蕭敬騰和老婆一起練琴,像媽媽陪孩子,52歲林有慧年齡感很重。

蕭敬騰和老婆一起練琴,像媽媽陪孩子,52歲林有慧年齡感很重。

TVB的四小花
2025-12-06 14:01:02
包養(yǎng)10位情婦,睡覺翻牌生下11個私生子,75歲還在拼命生娃!

包養(yǎng)10位情婦,睡覺翻牌生下11個私生子,75歲還在拼命生娃!

春秋論娛
2025-09-09 07:26:27
張柏芝節(jié)目首聊和謝霆鋒離婚不后悔,45歲沒有朋友不喜歡出門社交

張柏芝節(jié)目首聊和謝霆鋒離婚不后悔,45歲沒有朋友不喜歡出門社交

阿纂看事
2025-12-12 16:03:03
林黛玉死后留下2瓶茶葉,賈母見后大驚,因為她知道自己命不久矣

林黛玉死后留下2瓶茶葉,賈母見后大驚,因為她知道自己命不久矣

銘記歷史呀
2025-12-11 16:40:08
2025-12-12 22:43:00
直面派 incentive-icons
直面派
講述值得講述的真實故事
237文章數(shù) 235關(guān)注度
往期回顧 全部

科技要聞

凌晨突發(fā)!GPT-5.2上線,首批實測感受來了

頭條要聞

女子全款買房住9年 陌生人突然上門要求她付18萬搬走

頭條要聞

女子全款買房住9年 陌生人突然上門要求她付18萬搬走

體育要聞

15輪2分,他們怎么成了英超最爛球隊?

娛樂要聞

上海這一夜,33歲陳麗君秒了32歲吉娜?

財經(jīng)要聞

鎂信健康闖關(guān)港交所:被指竊取商業(yè)秘密

汽車要聞

表面風(fēng)平浪靜 內(nèi)里翻天覆地!試駕銀河星艦7 EM-i

態(tài)度原創(chuàng)

藝術(shù)
教育
時尚
手機
親子

藝術(shù)要聞

嶺南畫派畫雪

教育要聞

高中孩子英語成績不好,高一60多分,怎么能提高成績?

年齡差19歲,這對姐弟戀又給內(nèi)娛上了一課!

手機要聞

機構(gòu):蘋果折疊屏iPhone有望鞏固“書本式”折疊形態(tài)主導(dǎo)地位

親子要聞

夫妻攜帶病變基因冒險生三胎,老三下生后確診,現(xiàn)在告醫(yī)院醫(yī)生!

無障礙瀏覽 進入關(guān)懷版 97一区二区国产好的精华液| 日本一卡二卡3卡四卡免费| 毛片在线观看免费网站| 亚洲一区在线观看尤物| 日日操夜夜骑| 久久精品午夜乱交xxxxx| 人人干人人看| 亚洲免费黄色| 色综合久久精品中文字幕| 丝袜脚在线国产| 真实的国产乱ⅩXXX88| 久久久无码精品午夜| 天天影视网色欲| 四川熟女白浆| 日韩亚洲欧美中文高清在线| 色噜噜狠狠色综合蜜桃色5s| 69精品人人人人人| 久久人人爽人人爽人人片dvd | 亚洲人成网站免费播放| 欧美深深色噜噜狠狠网站 | 超级碰碰色偷偷免费视频| 懂色一区二区二区av免费观看| 国产老头视频| 3D国产动漫AVAV| b站永久免费看片大全| 麻豆成人传媒一区二区| av 日韩 人妻 黑人 综合 无码 | 国产乱对白刺激视频| 操小骚逼视频| 国产日韩精品秘 入口| 国产亚洲一区二区三区不卡| 人妻人人人妻| 婷婷五月综合丁香在线| 七七久久桃花影院| 天天人人aV| 精品国产亚洲一区二区在线3d| 成人无码国产精品nuzz | 国产精品熟女视频一区二区| 人碰人碰人碰人碰视频| 淑女AV一区二区| 国产精品午夜片在线观看|