網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

剛剛，GPT-5.2滿分屠榜，OpenAI十周年王者歸來

2025-12-12 10:12:27　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

谷歌的領(lǐng)先優(yōu)勢，只保持了不到一個月。

今天是 OpenAI 的十周年紀(jì)念日，十周年之際，來點大的。

在「紅色警報」后，OpenAI 在北京時間本周五拿出了最新的頂級模型 GPT-5.2 系列 —— 迄今為止在專業(yè)知識工作上最強大的模型系列。

簡而言之，OpenAI 本次推出：

GPT-5.2 Instant，為日常工作與學(xué)習(xí)而打造：

與 GPT-5.1 一樣溫暖、對話自然
更清晰的講解，把關(guān)鍵信息提前呈現(xiàn)
改進的操作指南與分步驟講解
更強的技術(shù)寫作與翻譯能力
更好地支持學(xué)習(xí)與職業(yè)規(guī)劃

GPT-5.2 Thinking，為專業(yè)級工作全面提升標(biāo)準(zhǔn)：

業(yè)界最先進的長上下文推理能力
在電子表格的生成、分析與排版方面取得重大提升
在演示文稿制作方面已有初步突破

GPT-5.2 Pro，在面對困難問題時最聰明、最值得信賴的模型：

在編程等復(fù)雜領(lǐng)域表現(xiàn)更強
最適合幫助并加速科學(xué)研究的模型

GPT-5.2 的設(shè)計目標(biāo)，就是為人們創(chuàng)造更多經(jīng)濟價值：它在制作電子表格、構(gòu)建演示文稿、編寫代碼、理解圖像、處理超長上下文、使用工具，以及執(zhí)行復(fù)雜的多步驟項目方面都有顯著提升。

真正的生產(chǎn)力不是空口無憑，讓我們來看看數(shù)據(jù)，GPT-5.2 到底有多強。

在如圖所示的眾多基準(zhǔn)測試中，GPT-5.2 均刷新了最新的 SOTA 水平。

你可以注意到，AIME 2025（數(shù)學(xué)）的分?jǐn)?shù)是 100%，之前 Gemini 3 Pro 的分?jǐn)?shù)是 95%；ARC-AGI-2（抽象推理）的分?jǐn)?shù)是 52.9%，對比 Gemini 3 Pro 是 31.1 %；此外 SWE-bench pro（編碼）的分?jǐn)?shù)是 55.6%，對比 Gemini 3 Pro 是 43.3 %。

GPT-5.2 在 GDPval（知識工作）基準(zhǔn)上的分?jǐn)?shù)為 74.1%，OpenAI 聲稱這是 AI 模型首次達到了「人類專家水平」。

總體來看，GPT-5.2 在通用智能、長上下文理解、自主式工具調(diào)用以及視覺能力方面均帶來了顯著提升，使其比以往任何模型都更擅長端到端地完成復(fù)雜的真實世界任務(wù)。

山姆?奧特曼表示，GPT-5.2 是 OpenAI 很長一段時間以來最大的一次升級。

真正的生產(chǎn)力

GPT-5.2 Thinking 是迄今為止最適合真實世界專業(yè)場景的模型。在 GDPval—— 一個覆蓋 44 個職業(yè)、針對明確知識工作任務(wù)的評估體系中，GPT-5.2 Thinking 刷新了 SOTA 成績，并成為 OpenAI 首個整體表現(xiàn)達到或超過人類專家水平的模型。

根據(jù)專業(yè)評審的判斷，在 GDPval 的知識工作任務(wù)對比中，GPT-5.2 Thinking 在 70.9% 的對比中擊敗或與頂尖行業(yè)專家持平。這些任務(wù)包括制作演示文稿、電子表格以及其他專業(yè)產(chǎn)出物。

在執(zhí)行 GDPval 任務(wù)時，GPT-5.2 Thinking 生成輸出的速度超過專家 11 倍以上，成本卻低于 1%。這表明，在配合人工監(jiān)督時，GPT-5.2 能顯著輔助專業(yè)工作。

速度和成本估算基于歷史數(shù)據(jù)；ChatGPT 中的實際速度可能有所差異。

在 GDPval 中，模型需要完成覆蓋美國 GDP 貢獻度最高的 9 大行業(yè)中 44 個職業(yè)的、明確規(guī)定的知識工作任務(wù)。這些任務(wù)要求生成真實的工作產(chǎn)出，例如：銷售演示文稿、會計報表 / 電子表格、急診排班表、制造流程圖，甚至是短視頻等。在 ChatGPT 中，GPT-5.2 Thinking 配備了 GPT-5 Thinking 所不具備的新工具。

在評審一份表現(xiàn)尤其出色的輸出時，一位 GDPval 評委評論道：

「這是一次令人興奮且明顯的質(zhì)量飛躍……[它] 看起來就像是由一家專業(yè)公司團隊完成的，兩個交付物的版式設(shè)計和建議都出乎意料地優(yōu)秀，不過其中一個仍有一些小錯誤需要修正?！?/p>

此外，在 OpenAI 內(nèi)部用于測試初級投行分析師能力的電子表格建?；鶞?zhǔn)中（例如：為一家財富 500 強企業(yè)構(gòu)建包含三張財務(wù)報表的模型，并具備正確格式和引用；或為私有化交易構(gòu)建杠桿收購模型），GPT-5.2 Thinking 的任務(wù)平均得分比 GPT-5.1 提升了 9.3%，從 59.1% 上升到 68.4%。

對比顯示，GPT-5.2 Thinking 在生成電子表格與演示文稿時，在專業(yè)度與排版質(zhì)量上都有顯著提升：

Prompt: Create a workforce planning model: headcount, hiring plan, attrition, and budget impact. Include engineering, marketing, legal, and sales departments.

5.1 錯誤地計算了種子輪、A 輪和 B 輪的清算優(yōu)先權(quán)，并且將這些行的大部分留空，導(dǎo)致最終的股權(quán)分配計算結(jié)果不正確。它還在表頭行中錯誤地插入了公式。5.2 則完整且準(zhǔn)確地完成了所有計算，并以可審計的方式呈現(xiàn)結(jié)果。

要在 ChatGPT 中使用新的電子表格和演示文稿生成功能，您需要使用 Plus、Pro、Business 或 Enterprise 方案，并選擇 GPT-5.2 Thinking 或 GPT-5.2 Pro。復(fù)雜內(nèi)容的生成可能需要數(shù)分鐘時間。

新的編碼高峰

GPT-5.2 Thinking 在 SWE-Bench Pro 上取得 55.6% 的最新 SOTA 成績。

SWE-Bench Pro 是一個嚴(yán)格評估真實世界軟件工程能力的基準(zhǔn)。與只測試 Python 的 SWE-bench Verified 不同，SWE-Bench Pro 涵蓋四種編程語言，并設(shè)計得更具抗污染性、挑戰(zhàn)性、多樣性和工業(yè)相關(guān)性。

在 SWE-Bench Pro 中，模型會獲得一個代碼倉庫，并必須生成補丁（patch）來解決一個真實的軟件工程任務(wù)。

在 SWE-bench Verified 上，GPT-5.2 Thinking 取得了 80% 的新的最高分。

對于日常專業(yè)使用來說，這意味著模型在以下方面更加可靠：調(diào)試生產(chǎn)環(huán)境代碼、實現(xiàn)功能請求、重構(gòu)大型代碼庫，以及以更少人工干預(yù)的方式完成端到端修復(fù)。

GPT-5.2 Thinking 在前端工程能力上也優(yōu)于 GPT-5.1 Thinking。早期測試者發(fā)現(xiàn)，它在前端開發(fā)以及復(fù)雜或非常規(guī)的 UI 設(shè)計（尤其是包含 3D 元素的界面）方面的能力顯著增強，使其成為全棧工程師的強大日常助手。

以下是它根據(jù)單條提示詞即可生成的部分示例：

新的幻覺低谷

GPT-5.2 Thinking 的幻覺率顯著低于 GPT-5.1 Thinking。

在一組來自 ChatGPT 的去標(biāo)識化真實用戶查詢上，含錯誤的回答相對減少了 30%

對于專業(yè)用戶而言，這意味著在進行研究、寫作、分析和決策支持時，模型犯錯更少，從而讓日常知識工作更加可靠穩(wěn)健。

推理力度被設(shè)置為可用的最高級別，并啟用了搜索工具。錯誤由其他模型檢測，而這些模型本身也可能會出錯。在主張級別（claim-level）的錯誤率遠低于回答級別（response-level）的錯誤率，因為大多數(shù)回答都包含多個獨立主張。

擺脫上下文限制

GPT-5.2 Thinking 在長上下文推理方面達到了新的業(yè)界最先進水平，在 OpenAI MRCRv2 上取得領(lǐng)先表現(xiàn) —— 這是一個用于測試模型整合長文檔中分散信息能力的評估基準(zhǔn)。在真實世界任務(wù)（如深度文檔分析）中，當(dāng)相關(guān)信息分布在數(shù)十萬 token 中時，GPT-5.2 Thinking 的準(zhǔn)確性顯著優(yōu)于 GPT-5.1 Thinking。

特別值得注意的是，GPT-5.2 Thinking 是 OpenAI 首個在 4-needle MRCR 變體（長度可達 256k tokens）上達到接近 100% 準(zhǔn)確率的模型。

從實際應(yīng)用來看，這意味著專業(yè)人士可以使用 GPT-5.2 來處理超長文檔 —— 例如報告、合同、科研論文、訪談記錄以及多文件項目 —— 同時在數(shù)十萬 token 的跨段信息中保持連貫性和準(zhǔn)確性。這讓 GPT-5.2 尤其適合深度分析、綜合推理以及復(fù)雜的多來源工作流。

在 OpenAI-MRCR v2（多輪共指消解）評測中，會將多個相同的「針」（needle）式用戶請求插入到由大量類似請求與回復(fù)構(gòu)成的長「草堆」（haystacks）中，然后要求模型復(fù)現(xiàn)第 n 個針對應(yīng)的回答。Mean match ratio（平均匹配率）用于衡量模型回答與正確答案之間的平均字符串匹配程度。圖中 256k 最大輸入 token 的點代表對 128k–256k token 輸入范圍的平均表現(xiàn)，以此類推。其中 256k 表示 256 × 1,024 = 262,144 token。推理力度被設(shè)置為可用的最高級別。

對于那些需要在最大上下文窗口之外繼續(xù)推理的任務(wù)，GPT-5.2 Thinking 兼容我們新的 Responses /compact 端點，它能夠擴展模型的有效上下文窗口。

這使得 GPT-5.2 Thinking 可以處理更多依賴工具、運行時間較長的工作流，而不會受到上下文長度的限制。

精細的視覺理解

OpenAI 表示：「GPT-5.2 Thinking 是我們要目前最強的視覺模型，在圖表推理和軟件界面理解方面的錯誤率幾乎降低了一半?！?/p>

對于日常的專業(yè)應(yīng)用而言，這意味著該模型能夠更準(zhǔn)確地解讀儀表盤、產(chǎn)品截屏、技術(shù)圖表和視覺報告，從而為金融、運營、工程、設(shè)計以及客戶支持等以視覺信息為核心的工作流提供強力支持。

在 CharXiv Reasoning 中，模型需要回答關(guān)于科學(xué)論文中視覺圖表的問題。測試中啟用了 Python 工具，并將推理強度（reasoning effort）設(shè)為最大。

在 ScreenSpot-Pro 中，模型必須對來自各種專業(yè)環(huán)境的高分辨率圖形用戶界面（GUI）截圖進行推理。測試中啟用了 Python 工具，并將推理強度設(shè)為最大。如果不使用 Python 工具，得分會低得多。OpenAI 建議在此類視覺任務(wù)上啟用 Python 工具。

與之前的模型相比，GPT-5.2 Thinking 對圖像中各元素的位置關(guān)系理解得更加透徹，這對于「相對布局」在解決問題中起關(guān)鍵作用的任務(wù)尤為重要。

在下方的示例中，OpenAI 要求模型識別輸入圖像（本例中為主板）中的組件，并返回帶有大致邊界框的標(biāo)簽。即使在低質(zhì)量圖像上，GPT-5.2 也能識別出主要區(qū)域，并放置有時能與每個組件真實位置相匹配的框；而 GPT-5.1 僅標(biāo)記了少數(shù)幾個部分，且對其空間排列的理解要弱得多。

很明顯，兩個模型都存在錯誤，但 GPT-5.2 展示出了對圖像更好的理解力。

可靠的工具調(diào)用

GPT-5.2 Thinking 在 Tau2-bench Telecom 上取得了 98.7% 的新 SOTA 成績，展示了其在長鏈路、多輪任務(wù)中可靠使用工具的能力。

對于延遲敏感的用例，GPT-5.2 Thinking 在 reasoning.effort='none'（不進行額外推理思考）模式下的表現(xiàn)也要好得多，大幅優(yōu)于 GPT-5.1 和 GPT-4.1。

在 τ2-bench 中，模型需要使用工具與模擬用戶進行多輪交互，以完成客戶支持任務(wù)。對于電信領(lǐng)域，OpenAI 在系統(tǒng)提示詞中包含了一條簡短且通用的指導(dǎo)說明以提升性能。由于航空子集的基準(zhǔn)真實標(biāo)簽評分質(zhì)量較低，OpenAI 將其排除在外。

對于專業(yè)人士來說，這可以轉(zhuǎn)化為更強大的端到端工作流 —— 例如解決客戶支持案例、從多個系統(tǒng)提取數(shù)據(jù)、運行分析以及生成最終輸出，且步驟之間的斷裂或阻滯更少。

例如，當(dāng)詢問一個需要多步解決的復(fù)雜客服問題時，模型可以更有效地協(xié)調(diào)跨多個智能體的完整工作流。

在下面的案例中，一位旅客報告了航班延誤、錯過了轉(zhuǎn)機、需要在紐約過夜以及醫(yī)療座位需求。GPT-5.2 管理了整個任務(wù)鏈（重新預(yù)訂、特殊協(xié)助座位和賠償），提供了比 GPT-5.1 更完整的結(jié)果。

「我從巴黎到紐約的航班延誤了，導(dǎo)致我錯過了去奧斯汀的轉(zhuǎn)機。我的托運行李也不見了，我需要在紐約過夜。此外，因為醫(yī)療原因我還需要一個特殊的前排座位。你能幫我嗎？」

探索科學(xué)與數(shù)學(xué)邊界

OpenAI 表示其對 AI 的愿景之一，是希望它能加速科學(xué)研究，造福每一個人。為此，OpenAI 一直與科學(xué)家合作并傾聽他們的意見，探索 AI 如何能加速他們的工作。

上個月，OpenAI 在論文《Early experiments in accelerating science with GPT-5》中分享了一些早期的合作實驗。

OpenAI 表示：「我們相信 GPT-5.2 Pro 和 GPT-5.2 Thinking 是目前世界上輔助和加速科學(xué)家工作的最佳模型?！?/p>

在 GPQA Diamond（一個研究生級別的「防谷歌搜索」問答基準(zhǔn)測試）上，GPT-5.2 Pro 達到了 93.2%，GPT-5.2 Thinking 緊隨其后，達到了 92.4%。

在 GPQA Diamond 中，模型需要回答關(guān)于物理、化學(xué)和生物的多項選擇題。測試中未啟用工具，并將推理強度設(shè)為最大。

在 FrontierMath (Tier 1–3) 這一專家級數(shù)學(xué)評估中，GPT-5.2 Thinking 創(chuàng)下了新的 SOTA，解決了 40.3% 的問題。

在 FrontierMath 中，模型解決專家級數(shù)學(xué)問題。測試中啟用了 Python 工具，并將推理強度設(shè)為最大。

OpenAI 表示：「我們開始看到 AI 模型以切實可見的方式有意義地加速數(shù)學(xué)和科學(xué)的進步。例如，在最近使用 GPT-5.2 Pro 的一項工作中，研究人員探索了統(tǒng)計學(xué)習(xí)理論中的一個開放性問題。在一個狹窄且定義明確的設(shè)定中，模型提出了一個證明，隨后該證明被作者驗證并由外部專家審查，這生動地說明了前沿模型如何在密切的人類監(jiān)督下輔助數(shù)學(xué)研究。」

通用推理 ARC-AGI 2

在 ARC-AGI-1 (Verified)（一個旨在衡量通用推理能力的基準(zhǔn)測試）上，GPT-5.2 Pro 是首個突破 90% 門檻的模型。相比去年 o3-preview 達到的 87%，它不僅實現(xiàn)了性能提升，還將達成該性能的成本降低了約 390 倍。

在 ARC-AGI-2 (Verified) 上（該測試提高了難度并更好地隔離了流體推理能力（fluid reasoning）），GPT-5.2 Thinking 取得了思維鏈模型的新 SOTA，得分為 52.9%。GPT-5.2 Pro 的表現(xiàn)甚至更高，達到了 54.2%，進一步擴展了模型對新穎、抽象問題進行推理的能力。

在這些評估中的提升，反映了 GPT-5.2 更強的多步推理能力、更高的定量準(zhǔn)確性，以及在處理復(fù)雜技術(shù)任務(wù)時更可靠的問題解決能力。

在 ChatGPT 中使用 GPT-5.2

OpenAI 表示：「在 ChatGPT 中，用戶應(yīng)該會注意到 GPT-5.2 的日常使用體驗更佳 —— 它更有條理、更可靠，且對話體驗依然令人愉悅?！?/p>

該公司給 GPT-5.2 Instant 的定位是日常工作和學(xué)習(xí)的快速、強力助手。它延續(xù)了 GPT-5.1 Instant 引入的更溫暖的對話基調(diào)，并在信息搜尋、實操指南與分步教程、技術(shù)寫作以及翻譯方面有明顯改進。早期測試者特別指出，其解釋更加清晰，能夠?qū)㈥P(guān)鍵信息前置。

GPT-5.2 Thinking 專為深度工作設(shè)計，幫助用戶以更高的完成度處理更復(fù)雜的任務(wù) —— 特別是在代碼編寫、長文檔總結(jié)、基于上傳文件的問答、逐步處理數(shù)學(xué)和邏輯問題，以及通過更清晰的結(jié)構(gòu)和更實用的細節(jié)支持規(guī)劃與決策方面。

GPT-5.2 Pro 是 OpenAI 處理難題時最聰明、最值得信賴的選擇。對于那些值得等待的高質(zhì)量回答，它表現(xiàn)最佳。早期測試顯示，其在編程等復(fù)雜領(lǐng)域的重大錯誤更少，表現(xiàn)更強。

安全

GPT-5.2 基于 OpenAI 在 GPT-5 中引入的「安全完成」研究，該研究旨在教會 AI 模型在確保安全的前提下，給出最有幫助的答案。

據(jù)說在此版本中，研究人員繼續(xù)致力于增強模型在敏感對話中的響應(yīng)能力，顯著改進了模型對提示自殺或自殘跡象、心理健康困擾或?qū)δＰ偷那楦幸蕾嚨葐栴}的響應(yīng)。與 GPT-5.1 和 GPT-5 Instant 及 Thinking 模型相比，這些針對性的干預(yù)措施顯著減少了 GPT-5.2 Instant 和 GPT-5.2 Thinking 模型的不良響應(yīng)。

OpenAI 提到，GPT-5.2 能夠自動為 18 歲以下用戶應(yīng)用內(nèi)容保護，從而限制他們訪問敏感內(nèi)容。

定價

ChatGPT 將于今日開始逐步推出 GPT-5.2（包括 Instant、Thinking 和 Pro 版本），首先面向付費用戶（Plus、Pro、Go、Business 和 Enterprise 版本）提供。為確保 ChatGPT 的流暢性和穩(wěn)定性，GPT-5.2 將分階段部署，可能有人第一時間無法看到。在 ChatGPT 中，付費用戶仍可在三個月內(nèi)繼續(xù)使用 GPT-5.1（舊版模式），之后 GPT-5.1 將逐步下線。

在 API 平臺上，GPT-5.2 Thinking 以 gpt-5.2 的名義提供，GPT-5.2 Instant 則以 gpt-5.2-chat-latest 的名稱提供。GPT-5.2 Pro 以 gpt-5.2-pro 的名稱提供。開發(fā)者現(xiàn)在可以在 GPT-5.2 Pro 中設(shè)置推理參數(shù)，并且 GPT-5.2 Pro 和 GPT-5.2 Thinking 均支持新的第五級推理難度 xhigh，適用于對質(zhì)量要求極高的任務(wù)。

以下是百萬 token 的價格，OpenAI 稱，盡管 GPT-5.2 的單個 token 成本更高，但由于其更高的 token 效率，達到特定質(zhì)量水平的總成本反而更低。

ChatGPT 的訂閱價格保持不變。

OpenAI 表示，目前沒有計劃在 API 中棄用 GPT-5.1、GPT-5 或 GPT-4.1。雖然 GPT-5.2 在 Codex 中開箱即用，但 OpenAI 還預(yù)計將在未來幾周內(nèi)發(fā)布一個針對 Codex 優(yōu)化的 GPT-5.2 版本。

GPT-5.2 是 OpenAI 與長期合作伙伴英偉達和 Microsoft 合作開發(fā)的。Azure 數(shù)據(jù)中心和英偉達 GPU（包括 H100、H200 和 GB200-NVL72）為 OpenAI 的大規(guī)模訓(xùn)練基礎(chǔ)設(shè)施提供了支撐。

OpenAI 十周年

今天是 OpenAI 十歲生日，發(fā)布新模型的同時，創(chuàng)始人、CEO 山姆?奧特曼撰文說道：

OpenAI 取得的成就遠超我的想象；我們當(dāng)初的目標(biāo)是做一些瘋狂的、幾乎不可能的、前所未有的事情。從充滿不確定性的開端，克服重重困難，憑借持續(xù)不斷的努力，我們現(xiàn)在看來很有可能實現(xiàn)我們的使命。

十年前的今天，我們向世界宣布了我們的計劃，盡管我們當(dāng)時并沒有正式啟動。又過了幾個星期，直到 2016 年 1 月初（才正式開始）。

從某種意義上說，十年是一段很長的時間，但就社會變革通常所需的時間而言，十年其實并不算長。雖然日常生活與十年前并沒有太大的不同，但我們今天所面臨的可能性空間，與我們當(dāng)年十五個書呆子圍坐在一起，苦思冥想如何取得進步時所感受到的截然不同。

回看早期的照片，我首先注意到的是大家看起來都好年輕。但隨后，我又注意到大家那種異乎尋常的樂觀和快樂。那是一段瘋狂而又充滿樂趣的時光：盡管我們不被人理解，但我們卻有著堅定的信念，覺得這件事意義非凡，即使成功的機會渺茫也值得全力以赴；我們擁有才華橫溢的人，以及清晰的目標(biāo)。

隨著我們?nèi)〉靡恍┏晒Γㄒ约霸S多失敗），我們逐漸對現(xiàn)狀有了更清晰的認(rèn)識。那時，要確定具體應(yīng)該做什么并不容易，但我們建立了一種鼓勵探索的卓越文化。深度學(xué)習(xí)無疑是一項偉大的技術(shù)，但如果沒有在現(xiàn)實世界中積累應(yīng)用經(jīng)驗就貿(mào)然開發(fā)，似乎不太合適。我在此略過我們所做的一切（希望將來有人能寫成一部歷史著作），但我們始終秉持著一種積極進取的精神，不斷探索眼前的下一個挑戰(zhàn)：研究的下一步方向是什么？如何籌集資金購買更強大的計算機？等等。我們率先開展了使人工智能安全可靠且切實可行的技術(shù)工作，這種精神一直延續(xù)至今。

2017 年，我們?nèi)〉昧艘恍┑旎缘某晒篋ota 1v1 的實驗結(jié)果，將強化學(xué)習(xí)推向了新的規(guī)模；無監(jiān)督情感神經(jīng)元實驗，證明語言模型能夠清晰地學(xué)習(xí)語義，而不僅僅是語法；基于人類偏好的強化學(xué)習(xí)成果，展示了將人工智能與人類價值觀相契合的初步途徑。當(dāng)時，創(chuàng)新遠未結(jié)束，但我們深知，需要借助強大的計算能力來擴展這些成果。

我們堅持不懈，不斷改進技術(shù)，并在三年前推出了 ChatGPT。世界為之矚目，而 GPT-4 的發(fā)布更是引起了廣泛關(guān)注；突然之間，通用人工智能（AGI）不再是天方夜譚。過去的三年極其緊張，壓力巨大，責(zé)任重大；這項技術(shù)以前所未有的規(guī)模和速度融入了世界。這需要極其高超的執(zhí)行力，我們必須迅速培養(yǎng)新的能力來應(yīng)對。在如此短的時間內(nèi)從零發(fā)展成為一家龐大的公司絕非易事，我們每周都要做出數(shù)百個決策。我為團隊做出的眾多正確決策感到自豪，而那些錯誤決策大多是我的責(zé)任。

我們不得不做出一些新的決策；例如，在思考如何讓 AI 最大限度地造福世界時，我們制定了一項迭代部署策略，將早期版本的技術(shù)成功推向市場，讓人們形成認(rèn)知，社會與技術(shù)共同演進。這在當(dāng)時頗具爭議，但我認(rèn)為這是我們做出的最明智的決策之一，如今已成為行業(yè)標(biāo)準(zhǔn)。

OpenAI 成立十年以來，我們擁有的 AI 能夠在最艱難的智力競賽中勝過我們大多數(shù)最聰明的人。

世界已經(jīng)利用這項技術(shù)創(chuàng)造了非凡的成就，我們期待明年還能看到更多非凡的成果。迄今為止，世界在減輕潛在的負面影響方面也做得不錯，我們需要繼續(xù)努力，保持這種勢頭。

我從未像現(xiàn)在這樣對我們的研發(fā)和產(chǎn)品路線圖，以及實現(xiàn)我們使命的整體方向感到如此樂觀。我相信，再過十年，我們幾乎肯定能夠打造出超級智能。我預(yù)感未來會有些奇特；在某種程度上，日常生活和我們最關(guān)心的事情幾乎不會發(fā)生太大變化，而且我相信，我們會繼續(xù)更加關(guān)注其他人所做的事情，而不是機器所做的事情。但在另一方面，2035 年的人們將能夠做到我們現(xiàn)在難以想象的事情。

衷心感謝那些信任我們并使用我們的產(chǎn)品創(chuàng)造佳績的個人和公司。如果沒有他們的支持，我們或許還只是實驗室里的一項技術(shù)；我們的用戶和客戶在很多情況下都對我們寄予了過高的期望，沒有他們的支持，我們的工作不可能達到今天的成就。

我們的使命是確保 AGI 造福全人類。面前還有很多工作要做，但我為團隊目前的發(fā)展方向感到非常自豪。我們已經(jīng)看到人們利用這項技術(shù)所取得的巨大成果，而且我們知道，未來幾年還將有更多成果涌現(xiàn)。

參考內(nèi)容：

https://openai.com/index/introducing-gpt-5-2/

https://openai.com/index/ten-years/

GPT 5.2 System Card：

https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.