夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,OpenAI迎10周年,發(fā)GPT-5.2,重點是和白領搶工作

0
分享至


智東西
作者|江宇
編輯|漠影

智東西12月12日報道,今日凌晨,正值OpenAI十周年生日,OpenAI正式推出其迄今最強模型GPT-5.2,并同步上線ChatGPT與API體系。

本次更新包含GPT-5.2 Instant、Thinking與Pro三個版本,將從今日起陸續(xù)向Plus、Pro、Business與Enterprise等付費方案用戶開放,Free與Go用戶預計將于明日獲得訪問權限。同時,GPT-5.2也已納入API與Codex中供開發(fā)者調用。


▲圖源:X平臺

現(xiàn)有的GPT-5.1將在ChatGPT中繼續(xù)作為過渡版本向付費用戶提供三個月,之后將正式下線。OpenAI官方稱,GPT-5.2屬于其持續(xù)改進模型系列的一部分,后續(xù)仍將圍繞過度拒絕、響應延遲等已知問題進行迭代優(yōu)化。

在API端,GPT-5.2 Thinking對應gpt-5.2,Instant對應gpt-5.2-chat-latest,Pro對應gpt-5.2-pro,開發(fā)者可直接調用。


▲圖源:OpenAI官方博客

在價格方面,GPT-5.2的調用價格較上一代上調,輸入端1.75美元/百萬tokens(約合人民幣12.35元/百萬tokens)、輸出端14美元/百萬tokens(約合人民幣98.81元/百萬tokens)。GPT-5.2 Pro的定價為21美元與168美元/百萬tokens(約合人民幣148元與1185元/百萬tokens),并首次支持第五檔推理強度xhigh。


▲圖源:OpenAI官方博客

OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman在社交平臺X上公布了GPT-5.2在多項前沿基準上的成績:SWE-Bench Pro達到55.6%,ARC-AGI-2為52.9%,F(xiàn)rontier Math為40.3%。


▲圖源:X平臺

這些基準主要用于衡量模型在復雜代碼修復、通用推理與高難度數(shù)學任務中的表現(xiàn),GPT-5.2在高階任務上的穩(wěn)定性進一步提升。

根據(jù)OpenAI官方博客,GPT-5.2在涵蓋44個職業(yè)的明確知識工作任務中,表現(xiàn)均優(yōu)于行業(yè)專業(yè)人士。相比GPT-5.1 Thinking,GPT-5.2 Thinking在應對知識型任務、編程、科學問題、數(shù)學、抽象推理的多項能力均大幅提升,尤其是在頂尖數(shù)學競賽AIME 2025拿到滿分成績,在OpenAI專業(yè)工作基準測試GDPval中戰(zhàn)勝或打平70.9%的人類專家。


▲圖源:OpenAI官方博客

OpenAI團隊成員Yann Dubois也在社交平臺X平臺上發(fā)帖稱,GPT-5.2 Thinking的設計重點放在“經(jīng)濟價值較高的任務”(如編碼、表格與演示文檔)。


▲圖源:X平臺

此外,在SWE-Bench Pro、GPQA Diamond等8項基準測試中,GPT-5.2 Thinking的分數(shù)均超過谷歌Gemini 3 Pro和Anthropic Claude Opus 4.5。


▲圖源:OpenAI

值得一提的是,GPT-5.2在處理多模態(tài)任務方面的能力明顯提升,大有追上Gemini的架勢,“頂流”AI編程助手Cursor第一時間宣布上新GPT-5.2。

與此同時,微軟董事長兼CEO Satya Nadella宣布,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產(chǎn)品體系。


▲圖源:X平臺

在GPT-5.2的發(fā)布會上,OpenAI應用業(yè)務負責人Fidji Simo也確認,外界關注已久的ChatGPT“成人模式(adult mode)”預計將在2026年第一季度上線。Fidji Simo稱,在推出該模式前,OpenAI希望確保年齡預測模型足夠成熟,能夠準確識別未成年用戶,同時避免誤判成年人。

目前,該年齡預測模型已在部分國家進行早期測試,主要用于自動應用不同的內容限制與安全策略。

一、專業(yè)任務能力躍升,首次達到“專家級”評分

根據(jù)OpenAI官方披露,GPT-5.2 Thinking在覆蓋44類職業(yè)任務的GDPval評測中,首次達到“專家級”表現(xiàn)——在70.9%的對比中戰(zhàn)勝或持平行業(yè)專業(yè)人士。GPT-5.2 Pro進一步提升至74.1%。在僅統(tǒng)計“明確勝出”的任務中,GPT-5.2 Thinking為49.8%,Pro則達到60%。

這一評測覆蓋銷售演示、預算模型、運營排班、制造流程圖等多類真實業(yè)務成果。GPT-5.2在這些任務的生成速度約為人工專家的11倍,成本為其1%以下。

在投研類任務中,GPT-5.2 Thinking在內部評測的投行三表模型與杠桿收購模型等場景中的平均得分為68.4%,較GPT-5.1 Thinking的59.1%有明確提升,GPT-5.2 Pro得分進一步增長至71.7%。


▲圖源:OpenAI官方博客


▲GPT-5.1 Thinking與GPT-5.2 Thinking效果對比

二、代碼、工具調用與長鏈路任務全面升級

在代碼能力方面,GPT-5.2 Thinking在更嚴格的SWE-bench Pro(跨四種語言、強調真實工程難度)中取得55.6%,在SWE-bench Verified中更是達到80%,均顯著領先GPT-5.1的50.8%與76.3%。在SWE-Lancer IC Diamond任務中,GPT-5.2 Thinking取得74.6%(GPT-5.1為69.7%)。


▲圖源:OpenAI官方博客

與此同時,GPT-5.2出現(xiàn)在AI基準平臺Imarena.ai(Arena)排行榜中,并在WebDev測試中取得1486分,位列第二,僅落后榜首3分,領先Claude-opus-4-5與Gemini-3-pro等主流模型。另一個版本GPT-5.2則以1399分排在第六。

根據(jù)Arena說明,GPT-5.2此前在內部以“robin”和“robin-high”為代號進行測試,其分數(shù)與GPT-5-medium僅相差1分,目前仍為初步結果,未來有望隨著測試量積累而進一步穩(wěn)定。


從評測維度來看,Arena主要衡量模型在可部署Web應用情境下的端到端編碼能力,GPT-5.2已反映出其在復雜任務鏈條上的實用性。

在事實準確性方面,GPT-5.2 Thinking在基于ChatGPT查詢的無錯誤回答率(開啟搜索模式下)達到93.9%,較GPT-5.1的91.2%有所改善,在無搜索情況下也從87.3%提升至88%。


▲圖源:OpenAI官方博客

另一個關鍵變化來自工具調用與長鏈路任務的可靠性提升。

GPT-5.2 Thinking在Tau-2 Bench Telecom中達到98.7%的最高得分,在零推理模式下也大幅領先上一代,在更高噪聲的Retail場景中準確率從77.9%提升至82%。在更通用的工具鏈評估BrowseComp中,GPT-5.2 Thinking達到65.8%,Pro版本達到77.9%,亦高于GPT-5.1的50.8%。


▲圖源:OpenAI官方博客

OpenAI提到,GPT-5.2 Thinking和Pro均支持第五檔推理強度xhigh,適用于長流程、多步驟、高精度的專業(yè)任務場景。

三、在長上下文與視覺理解,GPT-5.2全面增強

在長上下文能力上,GPT-5.2 Thinking在OpenAI MRCRv2中全面領先上一代,在8 needles測試中從4k到256k的范圍內均保持遠高于GPT-5.1的表現(xiàn),其中在4k–8k長度下達98.2%,在128k–256k長度下仍保持77.0%,而GPT-5.1同期為29.6%–47.8%區(qū)間。

在其他長文場景中,BrowseComp Long Context(128k/256k)中,GPT-5.2 Thinking分別達到92.0%與89.8%。GraphWalks任務中,GPT-5.2 Thinking在bfs與parents子集分別達到94.0%與89.0%,相比GPT-5.1的76.8%與71.5%顯著提升。


▲圖源:OpenAI官方博客

在視覺理解上,GPT-5.2 Thinking在CharXiv科學圖表推理任務中無工具模式下為82.1%,開啟Python工具后進一步提升至88.7%。在ScreenSpot-Pro界面理解中,GPT-5.2 Thinking取得86.3%,遠高于GPT-5.1的64.2%。在視頻類、多模態(tài)綜合難度更高的Video MMMU中,也從82.9%提升至85.9%。

在視覺能力上,GPT-5.2在ScreenSpot-Pro(界面理解)中達到86.3%的準確率,相比GPT-5.1有明顯提升。在CharXiv科學圖表推理任務中,也實現(xiàn)了準確率的大幅增長。這使其在處理科研圖表、運營儀表盤、產(chǎn)品界面截圖等專業(yè)視覺輸入時更加可靠。


▲圖源:OpenAI官方博客

四、微軟全家桶同步升級,GPT-5.2成為新一代“生產(chǎn)力模型”

隨著GPT-5.2發(fā)布,微軟董事長兼CEO Satya Nadella也在社交平臺X平臺上宣布,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產(chǎn)品體系,并作為新的“默認推理模型”服務更多工作流場景。

在Microsoft 365 Copilot中,用戶已經(jīng)可以通過模型選擇器啟用GPT-5.2,用于會議記錄分析、文檔推理、市場研究與戰(zhàn)略規(guī)劃等高復雜度任務。Nadella稱,將模型與用戶工作數(shù)據(jù)結合后,GPT-5.2能夠更充分發(fā)揮推理優(yōu)勢。

在GitHub Copilot中,GPT-5.2適用于長上下文推理與復雜代碼庫審查,重點覆蓋跨文件關系分析、依賴追蹤與重構建議等工程類使用場景。

此外,GPT-5.2還同步進入Microsoft Foundry與Copilot Studio,開發(fā)者可在構建自動化流程、企業(yè)內部Agent或自主開發(fā)時直接調用GPT-5.2模型。面向消費者端的Copilot也將隨后啟動分階段更新,逐步替換當前版本。


▲圖源:X平臺

從微軟生態(tài)的覆蓋面來看,GPT-5.2已被定位為“默認生產(chǎn)力模型”,在不同產(chǎn)品線之間以自動模型選擇的方式服務更廣泛的開發(fā)、寫作與分析任務。

此外,頂流AI編程助手Cursor也已第一時間火速上線GPT-5.2,并同步沿用OpenAI官方API價格。


▲圖源:Cursor

結語:GPT-5.2的能力邊界正向“穩(wěn)定、實用”收攏

從多項公開基準測試到Arena針對Web應用端到端能力的評測結果,GPT-5.2展現(xiàn)出的整體能力向穩(wěn)定可用和任務完成度方向收攏。

隨著Instant、Thinking與Pro組成的多檔能力體系的開放,GPT-5.2在不同工作流中被切分為更清晰的使用場景。而在微軟生態(tài)中的全面接入,也進一步強化了這一變化的方向。無論是在M365 Copilot中承擔跨文檔推理,還是在GitHub Copilot中處理長上下文代碼鏈路,GPT-5.2都開始參與到更高頻、更具體的任務流程中。

除了推出面向專業(yè)工作和智能體的前沿模型外,OpenAI還宣布已經(jīng)與迪士尼達成授權協(xié)議,允許Sora 2用戶在生成并分享的圖片中使用迪士尼角色。迪士尼將向OpenAI投資10億美元(約合人民幣71億元),并擁有未來增持股份的選擇權。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
注意!又有兩條中日直飛航線暫停運行

注意!又有兩條中日直飛航線暫停運行

日本窗
2025-12-12 16:08:04
2025-12-13 01:43:00
智東西 incentive-icons
智東西
聚焦智能變革,服務產(chǎn)業(yè)升級。
10898文章數(shù) 116925關注度
往期回顧 全部

科技要聞

凌晨突發(fā)!GPT-5.2上線,首批實測感受來了

頭條要聞

38歲男子辭職返鄉(xiāng) 花1.3萬用集裝箱給父母造"網(wǎng)紅屋"

頭條要聞

38歲男子辭職返鄉(xiāng) 花1.3萬用集裝箱給父母造"網(wǎng)紅屋"

體育要聞

15輪2分,他們怎么成了英超最爛球隊?

娛樂要聞

上海這一夜,33歲陳麗君秒了32歲吉娜?

財經(jīng)要聞

鎂信健康闖關港交所:被指竊取商業(yè)秘密

汽車要聞

表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

態(tài)度原創(chuàng)

家居
本地
藝術
健康
公開課

家居要聞

溫潤質感 打造干凈空間

本地新聞

云游安徽|阜陽三朝風骨,傳承千年墨香

藝術要聞

圓通豪擲10億!上??偛俊靶强沾髽恰苯ǔ?!

甲狀腺結節(jié)到這個程度,該穿刺了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 日本精油按摩被中出| 久久久久亚洲波多野结衣| 成人无区777| 粉嫩蜜臀av一区二区三区| 成年入口无限观看免费完整大片| 成人AV一区二区电影在线观看| 综合久久国产九一剧情麻豆| 国产三级精品三级在专区| 无码人妻精品麻豆满熟妇金瓶双艳| 饿罗斯毛片毛茸茸| av在线更新| 日本免费一区二区三区最新vr| 无码H版动漫在线观看| 最新网站你懂得| 久久婷婷五月综合尤物色国产| 羞涩的丰满人妻40p| 思思re热免费精品视频66| 国产白浆亚洲| 免费三级现频在线观看免费| 四虎人妻一区| 99er热精品视频| av天堂久久天堂色综合| 亚洲精品成人a v无码| 亚洲成人精品在线伊人网 | 天天在线看无码AV片| 日韩理论无码| 朋友少妇人要精品系列| 国产农村妇女三级| 久久这里只有精品免费| 少妇高潮九九九αV| 特殊重囗味sm在线观看无码 | 亚洲日本韩国欧美云霸高清| gayxx在线| 人妻精品久久久久中文字幕69 | 亚洲av成人一区国产精品| 精品国产丝袜高跟鞋| 日本少妇人妻xxxxx18| 麻花传剧mv在线看星空| 国产精品xxxx视频| 樱花草日韩在线观看| 日韩人妻一区二区三区蜜桃视频|