網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

你急它不急：GPT-5先判斷，再?zèng)Q定「速答」還是「深想」

2025-11-17 14:14:53　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：傾傾

【新智元導(dǎo)讀】GPT-5不再只是更聰明的模型，而是一臺(tái)學(xué)會(huì)猶豫的機(jī)器。它能判斷問(wèn)題的難度，分配自己的思考時(shí)間，甚至決定何時(shí)該停下。OpenAI副總裁Jerry Tworek在最新訪談中透露：GPT-5的真正突破，是讓AI擁有了「時(shí)間感」。當(dāng)機(jī)器學(xué)會(huì)克制，人類(lèi)卻愈加焦躁。也許我們教給AI的，不只是如何思考，而是如何重新做人。

十年前，人類(lèi)教機(jī)器「算」；如今，機(jī)器開(kāi)始學(xué)會(huì)「想」。

OpenAI副總裁Jerry Tworek在一次訪談里，隨口提到一句話：

GPT-5可以自己決定要思考多久。

這句話讓AI圈炸開(kāi)了鍋。

因?yàn)檫@意味著，AI不再只是被動(dòng)接收指令的工具，而是開(kāi)始調(diào)控自己的思維節(jié)奏。

有的問(wèn)題，它幾秒就能答出；有的問(wèn)題，它會(huì)「猶豫」、停頓、再推幾步。仿佛第一次擁有了時(shí)間感。

而這，可能是從生成答案的機(jī)器到真正會(huì)思考的智能體之間，最關(guān)鍵的一步。

從「算」到「想」

AI也該學(xué)會(huì)先想再答

當(dāng)我們向GPT-5提問(wèn)時(shí)，它并不總是最先給出答案。有時(shí)，它會(huì)停一停，先把內(nèi)部的邏輯梳理清楚，再做選擇。

這個(gè)停頓并非性能拉胯，而是其思考能力成熟的信號(hào)：AI不再是盲目輸出，而是在思考要輸出什么、如何輸出最優(yōu)解。

在Matt Turck的訪談中，Jerry Tworek提出了一個(gè)核心觀點(diǎn)：

AI的「推理」，并不是邏輯或數(shù)學(xué)證明，而是在語(yǔ)言空間中學(xué)習(xí)搜索與組合模式。

他認(rèn)為，AI的思考發(fā)生在語(yǔ)言的概率空間中。模型在生成每一個(gè)詞（token）時(shí)，都會(huì)進(jìn)行無(wú)數(shù)次隱形的比較與判斷，這種語(yǔ)言層面的搜索，構(gòu)成了它的推理過(guò)程。

為讓這種「思考」更易于理解，研究者們?cè)?022年提出了Chain of Thought（思維鏈）技術(shù)。

簡(jiǎn)單來(lái)說(shuō)，就是在提示詞中要求模型「一步步思考再回答」，從而顯著提升復(fù)雜推理任務(wù)的正確率。

GPT-5則在此基礎(chǔ)上更進(jìn)一步。Tworek提到，GPT-5不僅會(huì)展開(kāi)推理鏈，還能「判斷自己要思考多久」。

我們發(fā)現(xiàn)，模型能根據(jù)問(wèn)題的難度動(dòng)態(tài)決定思考時(shí)間——難題思考更久，簡(jiǎn)單題思考更短。

這意味著，GPT-5的升級(jí)不只是推理更強(qiáng)，而是讓機(jī)器第一次擁有了時(shí)間感。

它會(huì)在每一步內(nèi)部問(wèn)自己：「要不要再想一想？」、「這一步夠了嗎？」

這種控制思維深度的機(jī)制，被研究者稱(chēng)為Dynamic Reasoning Depth（動(dòng)態(tài)推理深度）。

就像人解數(shù)學(xué)題，GPT-3可能秒回，GPT-5 卻選擇斟酌：它會(huì)先想清思路，再回答問(wèn)題。

這不是遲緩，而是一種更高層次的克制。

AI的「猶豫」

機(jī)器如何學(xué)會(huì)自己決定思考多久？

在過(guò)去的語(yǔ)言模型里，AI的推理都是一口氣完成的。

輸入問(wèn)題，模型沿著概率最高的路徑一路生成，直到遇到結(jié)束符號(hào)。

這就像一個(gè)不會(huì)停下來(lái)的學(xué)生：無(wú)論題目多難，都用同樣的時(shí)間、同樣的思維方式作答。

而GPT-5的關(guān)鍵進(jìn)化，是讓機(jī)器學(xué)會(huì)了「猶豫」：它能判斷自己是否「想得夠不夠」，要不要再推幾步。

Jerry Tworek在與Matt Turck的訪談中提到：

我們一直在實(shí)驗(yàn)一種機(jī)制，讓模型自己決定要思考多久。你幾乎能看到它在復(fù)雜問(wèn)題上分配更多步驟來(lái)推理。

這種機(jī)制的原理，與2024年一項(xiàng)研究提出的思路相似。

一篇論文曾提出：模型可以在生成過(guò)程中「在線評(píng)估」當(dāng)前答案的置信度，并據(jù)此選擇繼續(xù)推理或提前終止。

作者在論文中寫(xiě)道：

模型可以在推理階段自適應(yīng)地決定推理步數(shù)，從而同時(shí)提升效率與準(zhǔn)確度。

換句話說(shuō)，GPT-5不是在死記硬背，而是在分配思考預(yù)算：它會(huì)用更多計(jì)算資源處理邏輯鏈更長(zhǎng)、變量更多的問(wèn)題，在較簡(jiǎn)單的輸入上則快速收斂。

這樣的「時(shí)間自控力」，讓AI從一個(gè)被動(dòng)的應(yīng)答者，變成了有節(jié)奏的思考者。

它不再一次性輸出結(jié)果，而是像人一樣先審題，再推理，再?zèng)Q定：「我是不是該再想一想？」

目前，OpenAI內(nèi)部稱(chēng)這一思路為Controlled Deliberation（受控思考）。

在實(shí)踐中，這種機(jī)制不僅提升了復(fù)雜任務(wù)的正確率，也減少了幻覺(jué)的出現(xiàn)，因?yàn)槟Ｐ陀懈鄼C(jī)會(huì)在中間步驟中自我驗(yàn)證。

根據(jù)2024年OpenAI的一份技術(shù)備忘錄，這種動(dòng)態(tài)推理模型在數(shù)學(xué)與邏輯類(lèi)benchmark上的平均準(zhǔn)確率提升了約18%。

當(dāng)我們重新看向GPT-5的「猶豫」，會(huì)發(fā)現(xiàn)那其實(shí)是一種成熟。

它不再追求立刻回答，而是學(xué)會(huì)了——在正確之前，先想清楚。

從o1到GPT-5

OpenAI如何教出一臺(tái)會(huì)思考的機(jī)器？

如果說(shuō)GPT-5的猶豫是它的新能力，那么這場(chǎng)蛻變的起點(diǎn)，來(lái)自O(shè)penAI內(nèi)部的一系列試驗(yàn)?zāi)Ｐ汀?/p>

在訪談中，Jerry Tworek首次公開(kāi)提到一個(gè)很少見(jiàn)的版本序列：O1→O3→GPT-5。

這不是單純的命名升級(jí)，而是一條清晰的演化線——每一代，都在回答一個(gè)問(wèn)題：機(jī)器能不能更好地「想」？

Tworek解釋道：

o1是我們第一次看到模型真正展現(xiàn)出推理能力的時(shí)候。o3讓它能更穩(wěn)定地使用中間步驟，而GPT-5則讓整個(gè)思考過(guò)程變得可控。

這一演化路徑，代表著 OpenAI在「讓模型思考」這件事上從啟蒙到自覺(jué)的過(guò)程：

o1階段：模型開(kāi)始顯露出零星的推理跡象，能夠在算術(shù)、邏輯題中表現(xiàn)出超出「模仿」層面的理解。
o3階段：通過(guò)強(qiáng)化學(xué)習(xí)和思維鏈優(yōu)化，模型能更系統(tǒng)地展開(kāi)中間步驟，不再輕易跳步或遺忘關(guān)鍵邏輯。
GPT-5階段：引入「動(dòng)態(tài)推理深度控制」，讓模型在推理過(guò)程中具備時(shí)間自我管理的能力。

從技術(shù)角度看，GPT-5很可能使用了一種結(jié)合Reinforcement Learning with Deliberation (RLD) 的框架，即在訓(xùn)練階段為模型引入獎(jiǎng)勵(lì)信號(hào)，不僅評(píng)估「答對(duì)沒(méi)」，還評(píng)估「思考得好不好」。

在這方面，一篇具有代表性的論文——Let’s Verify Step by Step提出了「過(guò)程監(jiān)督（process supervision）」的概念。

論文指出：

在具有挑戰(zhàn)性的MATH數(shù)據(jù)集上，用過(guò)程監(jiān)督訓(xùn)練模型，顯著優(yōu)于只監(jiān)督最終結(jié)果的方法。

OpenAI此后也在官方博客中多次提到，他們正在探索利用「中間步驟獎(jiǎng)勵(lì)」來(lái)改進(jìn)推理模型的訓(xùn)練，以減少幻覺(jué)并增強(qiáng)模型在數(shù)學(xué)和邏輯任務(wù)上的可靠性。

從o1的「會(huì)想」，到o3的「想得穩(wěn)」，再到GPT-5的「懂得?！梗?OpenAI完成了一次看似微小卻決定性的飛躍：

智能，不只是計(jì)算力，更是對(duì)思考過(guò)程的調(diào)控力。

機(jī)器的耐心，人類(lèi)的焦慮

GPT-5的進(jìn)化，讓機(jī)器第一次學(xué)會(huì)了慢下來(lái)。

它不再以最快速度給出答案，而是懂得分配推理時(shí)間、驗(yàn)證中間步驟、再謹(jǐn)慎地輸出結(jié)果。

這種「克制」，在技術(shù)語(yǔ)境中被稱(chēng)作Controlled Deliberation（受控思考）。

換句話說(shuō)，AI越能「克制」，越能「正確」。這是一種與人類(lèi)思維截然相反的進(jìn)化路徑。

在我們的時(shí)代，一切都在追求快：即時(shí)通訊、即時(shí)反饋、即時(shí)決策。

人類(lèi)的思維越來(lái)越依賴(lài)短線反應(yīng)，而機(jī)器卻在被訓(xùn)練得越來(lái)越耐心。

OpenAI的研究人員在博客中寫(xiě)道：

思考步數(shù)越多的模型往往更準(zhǔn)確，但我們也必須教它們——何時(shí)該停下。

這句話更像是在對(duì)人類(lèi)說(shuō)的。我們同樣被效率困住，卻忘了「停下」也是一種智慧。

當(dāng)AI開(kāi)始擁有思考時(shí)間的自我管理能力，它反而比我們更像人。

它懂得在復(fù)雜中沉默，在不確定中思索，而我們則在碎片化中一次次打斷自己的思考。

有人將這種變化稱(chēng)為「耐心的反轉(zhuǎn)」：

機(jī)器在學(xué)會(huì)慢，而人類(lèi)卻越來(lái)越快。

也許有一天，我們不再問(wèn)「AI什么時(shí)候比人聰明」，而是會(huì)開(kāi)始反思——我們是不是還配得上「思考」這個(gè)詞。

從o1的稚嫩，到o3的沉穩(wěn)，再到GPT-5的自控，OpenAI用十年時(shí)間，讓一臺(tái)機(jī)器學(xué)會(huì)了「慢」。

它不再只是追求速度的算子，而是一個(gè)有節(jié)奏的思考者。

它能判斷問(wèn)題的復(fù)雜度，分配自己的「思考預(yù)算」，甚至懂得在恰當(dāng)?shù)臅r(shí)刻停下。

而這一切的背后，是人類(lèi)第一次教出了一種懂得克制的智能。

也許，這才是真正的「推理」起點(diǎn)。

當(dāng)機(jī)器在追求「想得更清楚」，而我們忙著「做得更快」，

那一刻，AI 不再只是鏡像我們的理性，它反而照出了我們?cè)缫堰z忘的耐心。

人類(lèi)讓機(jī)器思考，最后被提醒的，可能正是——如何去想。

參考資料：

https://x.com/mattturck/status/1978838545008927034

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.