Science Partner
Bring you to the side of science
導(dǎo) 讀
各位科學(xué)的小伙伴們,前不久,蘋果研究團(tuán)隊(duì)在arXiv上發(fā)布了一篇論文,聲稱主流大語言模型(如Claude、Gemini等)在復(fù)雜推理解謎任務(wù)面前會出現(xiàn)“推理崩潰”。這一結(jié)論不僅在學(xué)界引發(fā)激辯,還被英國計(jì)算機(jī)科學(xué)家Lawsen的反駁論文《思維幻覺的幻覺》(The Illusion of the Illusion of Thinking)所挑戰(zhàn)。Lawsen認(rèn)為蘋果團(tuán)隊(duì)的“崩潰”更多是實(shí)驗(yàn)設(shè)計(jì)和評估方式的錯(cuò)覺,并非大模型推理本身的極限。究竟AI的推理能力有多強(qiáng),我們又該如何科學(xué)評價(jià)?本篇為您深度解讀。
主筆 | 恒意
● ● ●
AI能力極限之爭|蘋果“崩潰論”引發(fā)新質(zhì)疑背后的科學(xué)真相
“推理崩潰”之謎:蘋果團(tuán)隊(duì)的研究為何引發(fā)爭議?
2025年6月,蘋果研究員Parshin Shojaee與Iman Mirzadeh在arXiv發(fā)表論文,設(shè)計(jì)出一系列經(jīng)典解謎任務(wù)——如漢諾塔、渡河謎題等,測試當(dāng)今最強(qiáng)語言模型在這些任務(wù)上的推理表現(xiàn)。研究將任務(wù)難度分為低、中、高三檔,數(shù)據(jù)顯示,模型在高復(fù)雜度任務(wù)上準(zhǔn)確率“斷崖式下滑”。蘋果團(tuán)隊(duì)據(jù)此提出推理能力遇到“瓶頸”,甚至斷言“沒有發(fā)現(xiàn)正式推理證據(jù),模型行為更像高級模式匹配”。這一結(jié)論立刻引發(fā)轟動,國內(nèi)外科技媒體如The Verge、MIT Technology Review等均對此報(bào)道。
真相只是一場“錯(cuò)覺”?Lawsen為何提出異議
面對蘋果團(tuán)隊(duì)“推理崩潰”論斷,英國牛津AI研究員Alex Lawsen發(fā)表了題為 《思維幻覺的幻覺》 的系統(tǒng)評論。他強(qiáng)調(diào),蘋果的實(shí)驗(yàn)其實(shí)混淆了輸出極限(即每次模型最多生成多少字)與推理極限。以漢諾塔為例,8盤及以上的復(fù)雜度下,要輸出全部操作步驟,Claude模型早已達(dá)到輸出上限。Lawsen發(fā)現(xiàn),模型甚至在輸出中明確標(biāo)注“為節(jié)省長度,后續(xù)省略”,并非推理出錯(cuò)。此外,蘋果實(shí)驗(yàn)還將“無解題目”算作模型失敗,比如渡河謎題的“船太小無法完成”,模型理性拒絕解答卻被評為“推理崩潰”。Lawsen用優(yōu)化代碼和算法性輸出對模型重新測試,發(fā)現(xiàn)其在15盤漢諾塔等超高復(fù)雜度問題上依然具備嚴(yán)密的推理能力。
AI推理能力究竟應(yīng)如何科學(xué)評估?
Lawsen的質(zhì)疑讓人重新思考:我們該如何科學(xué)地測試AI的推理能力?他指出,若僅僅用“枚舉每一步驟并完整輸出”衡量模型能力,實(shí)則受限于token輸出上限,無法反映算法層面的真正推理。此外,實(shí)驗(yàn)應(yīng)剔除數(shù)學(xué)上無解的題目,否則混淆了“無解”與“不會解”的概念。當(dāng)前AI社區(qū)已開始反思,呼吁采用多樣化結(jié)果表示(如代碼、策略函數(shù)等)、問題可解性驗(yàn)證及分層評判標(biāo)準(zhǔn)。這不僅有助于更準(zhǔn)確地刻畫AI認(rèn)知極限,也為模型訓(xùn)練及應(yīng)用場景提供有價(jià)值的反饋。
“推理”與“輸出”的鴻溝:AI的能力邊界在哪里?
蘋果與Lawsen之爭實(shí)際上揭示了AI推理領(lǐng)域的一個(gè)核心矛盾——模型本身的推理能力與輸出方式、評估體系之間存在明顯“鴻溝”。正如一位專家所言,“就像你讓象棋大師用電報(bào)逐步發(fā)來每一步棋譜,他一定會受限于電報(bào)長度,但這不等于他不會下棋?!碑?dāng)前主流大模型擁有強(qiáng)大的內(nèi)部推理和規(guī)劃能力,但受制于輸出格式、評估維度,往往被“低估”了真實(shí)水平。未來,AI推理任務(wù)的評測體系必然向更科學(xué)、更智能化方向發(fā)展。
恒意說兩句:讓AI回歸本質(zhì),推動科學(xué)評估
爭議的背后,其實(shí)是AI科學(xué)精神的勝利。蘋果團(tuán)隊(duì)大膽提出“推理崩潰”假說,推動了業(yè)界對AI認(rèn)知邊界的反思。但正如Lawsen等學(xué)者所呼吁的,科學(xué)的實(shí)驗(yàn)方法和評估體系必須尊重技術(shù)的本質(zhì)。只有厘清“推理”與“輸出”、“可解”與“誤判”的邊界,我們才能真正推動AI朝著更智能、更貼近人類思維的方向進(jìn)化。對科技和AI抱有好奇心的各位科學(xué)小伙伴們,也應(yīng)學(xué)會用更嚴(yán)謹(jǐn)?shù)难酃馊ダ斫夂驮u價(jià)每一項(xiàng)突破——真正的創(chuàng)新,往往在質(zhì)疑與討論中成長。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.