AI能力極限之爭｜蘋果“崩潰論”引發(fā)新質(zhì)疑背后的科學(xué)真相

2025-06-15 10:36:00　來源: 科學(xué)伙伴

北京舉報(bào)

分享至

Science Partner

Bring you to the side of science

導(dǎo) 讀

各位科學(xué)的小伙伴們，前不久，蘋果研究團(tuán)隊(duì)在arXiv上發(fā)布了一篇論文，聲稱主流大語言模型（如Claude、Gemini等）在復(fù)雜推理解謎任務(wù)面前會出現(xiàn)“推理崩潰”。這一結(jié)論不僅在學(xué)界引發(fā)激辯，還被英國計(jì)算機(jī)科學(xué)家Lawsen的反駁論文《思維幻覺的幻覺》（The Illusion of the Illusion of Thinking）所挑戰(zhàn)。Lawsen認(rèn)為蘋果團(tuán)隊(duì)的“崩潰”更多是實(shí)驗(yàn)設(shè)計(jì)和評估方式的錯(cuò)覺，并非大模型推理本身的極限。究竟AI的推理能力有多強(qiáng)，我們又該如何科學(xué)評價(jià)？本篇為您深度解讀。

主筆 | 恒意

● ● ●

AI能力極限之爭｜蘋果“崩潰論”引發(fā)新質(zhì)疑背后的科學(xué)真相

“推理崩潰”之謎：蘋果團(tuán)隊(duì)的研究為何引發(fā)爭議？

2025年6月，蘋果研究員Parshin Shojaee與Iman Mirzadeh在arXiv發(fā)表論文，設(shè)計(jì)出一系列經(jīng)典解謎任務(wù)——如漢諾塔、渡河謎題等，測試當(dāng)今最強(qiáng)語言模型在這些任務(wù)上的推理表現(xiàn)。研究將任務(wù)難度分為低、中、高三檔，數(shù)據(jù)顯示，模型在高復(fù)雜度任務(wù)上準(zhǔn)確率“斷崖式下滑”。蘋果團(tuán)隊(duì)據(jù)此提出推理能力遇到“瓶頸”，甚至斷言“沒有發(fā)現(xiàn)正式推理證據(jù)，模型行為更像高級模式匹配”。這一結(jié)論立刻引發(fā)轟動，國內(nèi)外科技媒體如The Verge、MIT Technology Review等均對此報(bào)道。

真相只是一場“錯(cuò)覺”？Lawsen為何提出異議

面對蘋果團(tuán)隊(duì)“推理崩潰”論斷，英國牛津AI研究員Alex Lawsen發(fā)表了題為《思維幻覺的幻覺》的系統(tǒng)評論。他強(qiáng)調(diào)，蘋果的實(shí)驗(yàn)其實(shí)混淆了輸出極限（即每次模型最多生成多少字）與推理極限。以漢諾塔為例，8盤及以上的復(fù)雜度下，要輸出全部操作步驟，Claude模型早已達(dá)到輸出上限。Lawsen發(fā)現(xiàn)，模型甚至在輸出中明確標(biāo)注“為節(jié)省長度，后續(xù)省略”，并非推理出錯(cuò)。此外，蘋果實(shí)驗(yàn)還將“無解題目”算作模型失敗，比如渡河謎題的“船太小無法完成”，模型理性拒絕解答卻被評為“推理崩潰”。Lawsen用優(yōu)化代碼和算法性輸出對模型重新測試，發(fā)現(xiàn)其在15盤漢諾塔等超高復(fù)雜度問題上依然具備嚴(yán)密的推理能力。

AI推理能力究竟應(yīng)如何科學(xué)評估？

Lawsen的質(zhì)疑讓人重新思考：我們該如何科學(xué)地測試AI的推理能力？他指出，若僅僅用“枚舉每一步驟并完整輸出”衡量模型能力，實(shí)則受限于token輸出上限，無法反映算法層面的真正推理。此外，實(shí)驗(yàn)應(yīng)剔除數(shù)學(xué)上無解的題目，否則混淆了“無解”與“不會解”的概念。當(dāng)前AI社區(qū)已開始反思，呼吁采用多樣化結(jié)果表示（如代碼、策略函數(shù)等）、問題可解性驗(yàn)證及分層評判標(biāo)準(zhǔn)。這不僅有助于更準(zhǔn)確地刻畫AI認(rèn)知極限，也為模型訓(xùn)練及應(yīng)用場景提供有價(jià)值的反饋。

“推理”與“輸出”的鴻溝：AI的能力邊界在哪里？

蘋果與Lawsen之爭實(shí)際上揭示了AI推理領(lǐng)域的一個(gè)核心矛盾——模型本身的推理能力與輸出方式、評估體系之間存在明顯“鴻溝”。正如一位專家所言，“就像你讓象棋大師用電報(bào)逐步發(fā)來每一步棋譜，他一定會受限于電報(bào)長度，但這不等于他不會下棋?！碑?dāng)前主流大模型擁有強(qiáng)大的內(nèi)部推理和規(guī)劃能力，但受制于輸出格式、評估維度，往往被“低估”了真實(shí)水平。未來，AI推理任務(wù)的評測體系必然向更科學(xué)、更智能化方向發(fā)展。

恒意說兩句：讓AI回歸本質(zhì)，推動科學(xué)評估

爭議的背后，其實(shí)是AI科學(xué)精神的勝利。蘋果團(tuán)隊(duì)大膽提出“推理崩潰”假說，推動了業(yè)界對AI認(rèn)知邊界的反思。但正如Lawsen等學(xué)者所呼吁的，科學(xué)的實(shí)驗(yàn)方法和評估體系必須尊重技術(shù)的本質(zhì)。只有厘清“推理”與“輸出”、“可解”與“誤判”的邊界，我們才能真正推動AI朝著更智能、更貼近人類思維的方向進(jìn)化。對科技和AI抱有好奇心的各位科學(xué)小伙伴們，也應(yīng)學(xué)會用更嚴(yán)謹(jǐn)?shù)难酃馊ダ斫夂驮u價(jià)每一項(xiàng)突破——真正的創(chuàng)新，往往在質(zhì)疑與討論中成長。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.