夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI能力極限之爭|蘋果“崩潰論”引發(fā)新質(zhì)疑背后的科學(xué)真相

0
分享至

Science Partner

Bring you to the side of science


導(dǎo) 讀

各位科學(xué)的小伙伴們,前不久,蘋果研究團(tuán)隊(duì)在arXiv上發(fā)布了一篇論文,聲稱主流大語言模型(如Claude、Gemini等)在復(fù)雜推理解謎任務(wù)面前會出現(xiàn)“推理崩潰”。這一結(jié)論不僅在學(xué)界引發(fā)激辯,還被英國計(jì)算機(jī)科學(xué)家Lawsen的反駁論文《思維幻覺的幻覺》(The Illusion of the Illusion of Thinking)所挑戰(zhàn)。Lawsen認(rèn)為蘋果團(tuán)隊(duì)的“崩潰”更多是實(shí)驗(yàn)設(shè)計(jì)和評估方式的錯(cuò)覺,并非大模型推理本身的極限。究竟AI的推理能力有多強(qiáng),我們又該如何科學(xué)評價(jià)?本篇為您深度解讀。

主筆 | 恒意

● ● ●

AI能力極限之爭|蘋果“崩潰論”引發(fā)新質(zhì)疑背后的科學(xué)真相

“推理崩潰”之謎:蘋果團(tuán)隊(duì)的研究為何引發(fā)爭議?

2025年6月,蘋果研究員Parshin Shojaee與Iman Mirzadeh在arXiv發(fā)表論文,設(shè)計(jì)出一系列經(jīng)典解謎任務(wù)——如漢諾塔、渡河謎題等,測試當(dāng)今最強(qiáng)語言模型在這些任務(wù)上的推理表現(xiàn)。研究將任務(wù)難度分為低、中、高三檔,數(shù)據(jù)顯示,模型在高復(fù)雜度任務(wù)上準(zhǔn)確率“斷崖式下滑”。蘋果團(tuán)隊(duì)據(jù)此提出推理能力遇到“瓶頸”,甚至斷言“沒有發(fā)現(xiàn)正式推理證據(jù),模型行為更像高級模式匹配”。這一結(jié)論立刻引發(fā)轟動,國內(nèi)外科技媒體如The Verge、MIT Technology Review等均對此報(bào)道。

真相只是一場“錯(cuò)覺”?Lawsen為何提出異議

面對蘋果團(tuán)隊(duì)“推理崩潰”論斷,英國牛津AI研究員Alex Lawsen發(fā)表了題為 《思維幻覺的幻覺》 的系統(tǒng)評論。他強(qiáng)調(diào),蘋果的實(shí)驗(yàn)其實(shí)混淆了輸出極限(即每次模型最多生成多少字)與推理極限。以漢諾塔為例,8盤及以上的復(fù)雜度下,要輸出全部操作步驟,Claude模型早已達(dá)到輸出上限。Lawsen發(fā)現(xiàn),模型甚至在輸出中明確標(biāo)注“為節(jié)省長度,后續(xù)省略”,并非推理出錯(cuò)。此外,蘋果實(shí)驗(yàn)還將“無解題目”算作模型失敗,比如渡河謎題的“船太小無法完成”,模型理性拒絕解答卻被評為“推理崩潰”。Lawsen用優(yōu)化代碼和算法性輸出對模型重新測試,發(fā)現(xiàn)其在15盤漢諾塔等超高復(fù)雜度問題上依然具備嚴(yán)密的推理能力。

AI推理能力究竟應(yīng)如何科學(xué)評估?

Lawsen的質(zhì)疑讓人重新思考:我們該如何科學(xué)地測試AI的推理能力?他指出,若僅僅用“枚舉每一步驟并完整輸出”衡量模型能力,實(shí)則受限于token輸出上限,無法反映算法層面的真正推理。此外,實(shí)驗(yàn)應(yīng)剔除數(shù)學(xué)上無解的題目,否則混淆了“無解”與“不會解”的概念。當(dāng)前AI社區(qū)已開始反思,呼吁采用多樣化結(jié)果表示(如代碼、策略函數(shù)等)、問題可解性驗(yàn)證及分層評判標(biāo)準(zhǔn)。這不僅有助于更準(zhǔn)確地刻畫AI認(rèn)知極限,也為模型訓(xùn)練及應(yīng)用場景提供有價(jià)值的反饋。

“推理”與“輸出”的鴻溝:AI的能力邊界在哪里?

蘋果與Lawsen之爭實(shí)際上揭示了AI推理領(lǐng)域的一個(gè)核心矛盾——模型本身的推理能力與輸出方式、評估體系之間存在明顯“鴻溝”。正如一位專家所言,“就像你讓象棋大師用電報(bào)逐步發(fā)來每一步棋譜,他一定會受限于電報(bào)長度,但這不等于他不會下棋?!碑?dāng)前主流大模型擁有強(qiáng)大的內(nèi)部推理和規(guī)劃能力,但受制于輸出格式、評估維度,往往被“低估”了真實(shí)水平。未來,AI推理任務(wù)的評測體系必然向更科學(xué)、更智能化方向發(fā)展。

恒意說兩句:讓AI回歸本質(zhì),推動科學(xué)評估

爭議的背后,其實(shí)是AI科學(xué)精神的勝利。蘋果團(tuán)隊(duì)大膽提出“推理崩潰”假說,推動了業(yè)界對AI認(rèn)知邊界的反思。但正如Lawsen等學(xué)者所呼吁的,科學(xué)的實(shí)驗(yàn)方法和評估體系必須尊重技術(shù)的本質(zhì)。只有厘清“推理”與“輸出”、“可解”與“誤判”的邊界,我們才能真正推動AI朝著更智能、更貼近人類思維的方向進(jìn)化。對科技和AI抱有好奇心的各位科學(xué)小伙伴們,也應(yīng)學(xué)會用更嚴(yán)謹(jǐn)?shù)难酃馊ダ斫夂驮u價(jià)每一項(xiàng)突破——真正的創(chuàng)新,往往在質(zhì)疑與討論中成長。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
6小時(shí)與583人啪啪! 澳洲美女網(wǎng)紅爆火: 現(xiàn)場直播賺錢購房籌辦婚禮! 坦言愿讓女兒“接班”

6小時(shí)與583人啪啪! 澳洲美女網(wǎng)紅爆火: 現(xiàn)場直播賺錢購房籌辦婚禮! 坦言愿讓女兒“接班”

澳洲紅領(lǐng)巾
2025-08-23 14:33:04
38歲保姆照顧76 歲老頭,老頭每天摸她,保姆愿意照顧大爺一輩子

38歲保姆照顧76 歲老頭,老頭每天摸她,保姆愿意照顧大爺一輩子

第7情感
2025-08-24 12:31:33
主謀落網(wǎng) “北溪”爆炸案細(xì)節(jié): 6人團(tuán)隊(duì)、4枚炸彈

主謀落網(wǎng) “北溪”爆炸案細(xì)節(jié): 6人團(tuán)隊(duì)、4枚炸彈

每日經(jīng)濟(jì)新聞
2025-08-24 10:22:27
93大閱兵將至,突然傳來一則消息,一位重量級人物或現(xiàn)身北京

93大閱兵將至,突然傳來一則消息,一位重量級人物或現(xiàn)身北京

一個(gè)有靈魂的作者
2025-08-24 13:57:44
公安局副局長“赤膊上陣”,撲倒詐騙分子

公安局副局長“赤膊上陣”,撲倒詐騙分子

政知新媒體
2025-08-24 12:04:06
無法參選國民黨主席!盧秀燕正式表態(tài),并親曝原因

無法參選國民黨主席!盧秀燕正式表態(tài),并親曝原因

海峽導(dǎo)報(bào)社
2025-08-24 13:47:51
春晚至今后悔邀請她,捧了個(gè)“白眼狼”,導(dǎo)演:當(dāng)時(shí)我都不想活了

春晚至今后悔邀請她,捧了個(gè)“白眼狼”,導(dǎo)演:當(dāng)時(shí)我都不想活了

法老不說教
2025-08-23 16:30:43
8月24日央視直播時(shí)間調(diào)整!瑞典站決賽:林詩棟VS莫雷加德,孫穎莎VS王曼昱

8月24日央視直播時(shí)間調(diào)整!瑞典站決賽:林詩棟VS莫雷加德,孫穎莎VS王曼昱

天光破云來
2025-08-24 08:31:20
太可愛了!頒獎(jiǎng)后,王曼昱肩扛獎(jiǎng)杯,莎莎跟著學(xué)樣:我也扛著走

太可愛了!頒獎(jiǎng)后,王曼昱肩扛獎(jiǎng)杯,莎莎跟著學(xué)樣:我也扛著走

喜歡歷史的阿繁
2025-08-24 12:08:25
史上最真實(shí)的女人陰道圖片

史上最真實(shí)的女人陰道圖片

說點(diǎn)事
2025-08-24 14:29:01
?香港奪冠,內(nèi)地票房僅120萬,我感慨:觀眾給張家輝上了一課

?香港奪冠,內(nèi)地票房僅120萬,我感慨:觀眾給張家輝上了一課

靠譜電影君
2025-08-23 21:51:04
知名企業(yè)副總裁,火了!曾獲健美亞軍

知名企業(yè)副總裁,火了!曾獲健美亞軍

南方都市報(bào)
2025-08-24 11:04:47
高中以下學(xué)生軍訓(xùn)應(yīng)該取消,別讓“無差別服從”壓垮孩子們的健康

高中以下學(xué)生軍訓(xùn)應(yīng)該取消,別讓“無差別服從”壓垮孩子們的健康

回旋鏢
2025-08-23 22:24:38
北京住宿業(yè)下滑為何如此夸張?

北京住宿業(yè)下滑為何如此夸張?

旅界Pro
2025-08-24 08:54:49
海蘭泡啊,海蘭泡!

海蘭泡啊,海蘭泡!

玖奌雜貨鋪
2025-08-24 10:34:51
3艘美國軍艦最快今日抵達(dá)!委內(nèi)瑞拉正式啟動全國征兵登記程序,馬杜羅此前宣布將部署400萬民兵

3艘美國軍艦最快今日抵達(dá)!委內(nèi)瑞拉正式啟動全國征兵登記程序,馬杜羅此前宣布將部署400萬民兵

每日經(jīng)濟(jì)新聞
2025-08-24 09:47:14
太狠了!98歲老人頭上長“角”?一剪刀下去,后果嚴(yán)重!醫(yī)生也傻眼了……

太狠了!98歲老人頭上長“角”?一剪刀下去,后果嚴(yán)重!醫(yī)生也傻眼了……

環(huán)球網(wǎng)資訊
2025-08-23 19:06:21
不演了?日本前駐華大使說:看《南京照相館》的都是中國的窮人…

不演了?日本前駐華大使說:看《南京照相館》的都是中國的窮人…

翻開歷史和現(xiàn)實(shí)
2025-08-24 09:52:39
美批準(zhǔn)對烏出售3300枚ERAM導(dǎo)彈

美批準(zhǔn)對烏出售3300枚ERAM導(dǎo)彈

參考消息
2025-08-24 13:33:05
歌手楊宗緯意外跌落2米高舞臺,主辦方道歉:楊宗緯已被送往最近的重點(diǎn)醫(yī)院進(jìn)行全面檢查和緊急處理

歌手楊宗緯意外跌落2米高舞臺,主辦方道歉:楊宗緯已被送往最近的重點(diǎn)醫(yī)院進(jìn)行全面檢查和緊急處理

FM93浙江交通之聲
2025-08-24 06:41:15
2025-08-24 17:19:00
科學(xué)伙伴
科學(xué)伙伴
把科學(xué)用通俗易懂的方式帶到您身邊
71文章數(shù) 2關(guān)注度
往期回顧 全部

科技要聞

DeepSeek暗示國產(chǎn)芯片有望大規(guī)模使用

頭條要聞

昔日"水果貴族"價(jià)格大跳水 從300元一斤跌至9.9元3斤

頭條要聞

昔日"水果貴族"價(jià)格大跳水 從300元一斤跌至9.9元3斤

體育要聞

主動降薪99%,NBA第一記者換工作

娛樂要聞

“魔嫂降世”??藘?nèi)娛最不正道的男人

財(cái)經(jīng)要聞

跌麻了,央媽又拋售國債?

汽車要聞

"三進(jìn)大宅" 吉利銀河M9預(yù)售價(jià)19.38萬元起

態(tài)度原創(chuàng)

游戲
本地
時(shí)尚
數(shù)碼
家居

《寂靜嶺2》作者吐槽強(qiáng)行解讀:糾正時(shí)還會被人身攻擊

本地新聞

22℃的吉林夏天 | 江風(fēng)沁心涼,游艇畫中行!

好看的裙子不嫌多!這幾條洋氣顯瘦巨百搭,誰穿誰好看!

數(shù)碼要聞

創(chuàng)維A7F系列壁紙電視發(fā)布:搭載變色龍AI畫質(zhì)芯片 陽臺光伏新品同步推出

家居要聞

溫暖時(shí)尚 簡約而不簡單

無障礙瀏覽 進(jìn)入關(guān)懷版 中文字幕无线码一区二区| 亚洲熟妇自偷自拍另类| AV中文天堂网| 在线欧美a| 五月婷婷丁香五月| 亚洲天堂网站| 国产精品日本亚洲欧美| 免费b级毛片| 全部孕妇毛片丰满孕妇孕交| 写真片福利电影在线播放| 非洲老熟妇一区二区三区久久久| 亚洲中文字幕无码一久久区| 四川丰满少妇A级毛片| 成人福利一区二区三区| 日产无人区一线二线三线小| 国产精品99| 牦户一区二区三区| 蜜臀在线观看| 久久一区极品一区| 亚洲电影国产一区| 成人午夜拍拍网| 韩国三级丰满少妇高潮| AV成人亚洲综合| 老色鬼无码激情综合久久| 午夜无码国产理论在线| 日韩熟女熟妇久久精品综合| 婷婷亚洲C一C二区| 亚洲AV综合日韩精品久久 | 国产精品桃色无码免费看| 正在播放的国产A一片| 日本乱人伦在线观看| 蜜臀视频一区二区在线播放| 亚洲va欧美在线观看| 亚洲性爱无码| 国产五月色婷婷六月丁香视频| 天天天天噜在线视频| 国产午夜精品一区二区三区漫画| 人妻精品一区二区| 久久ee热这里只有精品| 免费无码毛片在线观看| 中文字幕老妇女乱伦视频|