夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從數(shù)據(jù)分布視角重新審視大模型推理,馬斯克回復(fù),Grok破防

國(guó)產(chǎn)模型讓馬斯克難辨真假

0
分享至



本文作者來(lái)自亞利桑那州立大學(xué)數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)實(shí)驗(yàn)室 (Data Mining and Machine Learning Lab),包括博士研究生趙成帥、譚箴、馬平川、李大衛(wèi)、蔣博涵以及指導(dǎo)老師劉歡教授。Statistical Deep Learning Lab 王硯丞、楊穎振教授。

思維鏈 (CoT) 提示技術(shù)常被認(rèn)為是讓大模型分步思考的關(guān)鍵手段,通過(guò)在輸入中加入「Let’s think step by step」等提示,模型會(huì)生成類似人類的中間推理步驟,顯著提升復(fù)雜任務(wù)的表現(xiàn)。然而,這些流暢的推理鏈條是否真的反映了模型的推理能力?

亞利桑那州立大學(xué)的一項(xiàng)最新研究卻發(fā)現(xiàn),CoT 推理可能并不是真正的推理,而更像是對(duì)訓(xùn)練數(shù)據(jù)分布內(nèi)模式的復(fù)現(xiàn)。一旦輸入任務(wù)與訓(xùn)練數(shù)據(jù)分布存在差異,這種看似穩(wěn)固的推理鏈條就會(huì)迅速失效,呈現(xiàn)出類似「海市蜃樓」的脆弱性。



  • 論文標(biāo)題:Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
  • 論文鏈接:
  • https://arxiv.org/pdf/2508.01191
  • 項(xiàng)目開源:
  • https://github.com/ChengshuaiZhao0/DataAlchemy
  • 推特討論:https://x.com/ChengshuaiZhao/status/1953291261999497258
  • 領(lǐng)英推廣:
  • https://www.linkedin.com/feed/update/urn:li:activity:7359056339228090368/



在這篇工作里作者探究了 CoT 的泛化性和 Out-of-Distribution (OOD) 問(wèn)題,馬斯克看當(dāng)場(chǎng)測(cè)試 Grok 是否會(huì)生成 OOD 的內(nèi)容,直接「強(qiáng)迫」Grok 生成粗俗的臟話銳評(píng),節(jié)目效果拉滿!



推理的「幻象」

研究團(tuán)隊(duì)在論文開頭給出了一個(gè)典型的例子:?jiǎn)栴}是:「美國(guó)建國(guó)年是閏年還是平年?」,模型的回答是:「美國(guó)建于 1776 年,1776 能被 4 整除,又不是世紀(jì)年,所以是閏年。因此,美國(guó)建國(guó)那一年是平年。」這一回答中的推理步驟和知識(shí)點(diǎn)看似正確,但結(jié)論卻與前提自相矛盾。這表明模型雖然會(huì)復(fù)述邏輯規(guī)則,卻未必真的用這些規(guī)則來(lái)推導(dǎo)答案。

事實(shí)上,已有相關(guān)研究表明,CoT 的性能提升往往源于表層語(yǔ)義匹配。一旦問(wèn)題稍作改寫,或者引入與結(jié)論無(wú)關(guān)的內(nèi)容,模型的表現(xiàn)便會(huì)顯著下降。

數(shù)據(jù)分布視角下的 CoT 假設(shè)

在這項(xiàng)研究中,作者提出了一個(gè)新的解釋框架,即從數(shù)據(jù)分布的角度來(lái)理解 CoT。他們認(rèn)為,CoT 的有效性主要來(lái)源于模型在訓(xùn)練分布內(nèi)學(xué)到的「結(jié)構(gòu)性歸納偏差」(structured inductive bias)。

換句話說(shuō),所謂的推理鏈只是對(duì)訓(xùn)練數(shù)據(jù)中常見模式的復(fù)現(xiàn),而非真正的邏輯推演。當(dāng)測(cè)試任務(wù)與訓(xùn)練數(shù)據(jù)之間的分布差異增大時(shí),這種「推理」表現(xiàn)會(huì)迅速崩塌。



研究團(tuán)隊(duì)還用理論公式刻畫了這種關(guān)系,并引入了一個(gè)可計(jì)算的分布差異指標(biāo),從而能夠在實(shí)驗(yàn)中估計(jì)分布偏移對(duì)推理性能的影響。



可控實(shí)驗(yàn)平臺(tái):數(shù)據(jù)煉金術(shù)

為了避免大規(guī)模預(yù)訓(xùn)練模型中復(fù)雜因素的干擾,團(tuán)隊(duì)選擇從零訓(xùn)練語(yǔ)言模型,并搭建了一個(gè)名為數(shù)據(jù)煉金術(shù) (DataAlchemy) 的可控實(shí)驗(yàn)環(huán)境。

在該框架中,作者將廣泛意義上的各種 NLP 下游任務(wù)抽象成不同「元素」和「變換」的組合?;尽冈亍故怯?26 個(gè)字母原子組成的固定長(zhǎng)度序列。作者設(shè)計(jì)了兩種基本「變換」:一種是 ROT 變換,即將字母表循環(huán)位移若干位;另一種是循環(huán)位置平移,將序列整體向右移動(dòng)指定位置。



在此基礎(chǔ)上,他們構(gòu)造了各種組合變換,通過(guò)將不同變換按順序和參數(shù)串聯(lián),形成推理鏈。每個(gè)任務(wù)的正確推理鏈可以被精確生成,這使得模型輸出與標(biāo)準(zhǔn)答案之間的差異能夠被逐步對(duì)照評(píng)估。



三類泛化實(shí)驗(yàn)的發(fā)現(xiàn)

首先在「任務(wù)泛化」方面,作者分別考察了「變換泛化」和「元素泛化」兩種情形。「變換泛化」測(cè)試了模型在面對(duì)新的變換組合,甚至完全陌生的變換類型時(shí)的表現(xiàn);「元素泛化」則涉及模型遇到新的字母組合,或者訓(xùn)練過(guò)程中從未見過(guò)的字母。

在分布內(nèi)的情況下,模型的準(zhǔn)確率接近 100%。然而,只要分布稍有偏移,例如變換順序被重新組合,準(zhǔn)確率便會(huì)驟降至 0.01%;當(dāng)測(cè)試中出現(xiàn)全新「變換」時(shí),性能更是幾乎完全喪失。

作者還發(fā)現(xiàn),雖然在少量新數(shù)據(jù)上進(jìn)行監(jiān)督微調(diào) (SFT) 可以迅速恢復(fù)性能,但這只是在原有分布邊界上做了擴(kuò)展,并未真正提升模型的抽象泛化能力。



在「長(zhǎng)度泛化」方面,研究團(tuán)隊(duì)分別考察了「文本長(zhǎng)度」變化和「推理步數(shù)」變化的影響。實(shí)驗(yàn)結(jié)果表明,即使輸入序列長(zhǎng)度僅比訓(xùn)練時(shí)多或少一個(gè)單位,模型的表現(xiàn)也會(huì)顯著下降。它往往會(huì)生成與訓(xùn)練長(zhǎng)度一致的推理鏈,并通過(guò)添加或刪除詞元來(lái)「湊長(zhǎng)度」。當(dāng)推理步數(shù)與訓(xùn)練設(shè)置不一致時(shí),模型幾乎完全無(wú)法泛化,除非它在訓(xùn)練中顯式地見過(guò)相應(yīng)步數(shù)的樣例。



在「格式泛化」方面,作者通過(guò)插入、刪除、替換等方式擾動(dòng)輸入提示,以模擬現(xiàn)實(shí)場(chǎng)景中的多樣的格式。他們發(fā)現(xiàn),模型對(duì)格式的變化極為敏感,尤其是當(dāng)變化發(fā)生在「元素」或「變換」部分時(shí),即使邏輯內(nèi)容不變,僅僅提示形式不同,也可能導(dǎo)致推理徹底失敗。



溫度、規(guī)模與泛化脆弱性的普遍性

作者進(jìn)一步測(cè)試了不同采樣溫度和模型規(guī)模下的表現(xiàn)。在合理的溫度范圍內(nèi),CoT 的脆弱性模式保持一致。模型規(guī)模的變化同樣不影響這一趨勢(shì)。這表明,這種對(duì)分布偏移的敏感性并非個(gè)別模型的特性,而是一種普遍現(xiàn)象。



研究的現(xiàn)實(shí)意義

這項(xiàng)研究對(duì)實(shí)際應(yīng)用提出了多項(xiàng)警示。

首先,在醫(yī)療、金融和法律等高風(fēng)險(xiǎn)領(lǐng)域,不能盲目依賴 CoT 作為穩(wěn)健推理的保證。流暢但邏輯有誤的推理鏈可能比直接給出錯(cuò)誤答案更具誤導(dǎo)性。

其次,現(xiàn)有的評(píng)測(cè)方法往往依賴與訓(xùn)練分布高度一致的驗(yàn)證集,這會(huì)嚴(yán)重高估模型的魯棒性。為了更準(zhǔn)確地評(píng)估系統(tǒng)性能,必須引入嚴(yán)格的分布外測(cè)試。

最后,雖然在少量新數(shù)據(jù)上進(jìn)行監(jiān)督微調(diào)可以迅速提升特定任務(wù)下的表現(xiàn),但這種方法只是對(duì)原有分布的局部擴(kuò)展,不能賦予模型真正的抽象推理能力。

結(jié)論

通過(guò)數(shù)據(jù)分布的視角,這項(xiàng)研究揭示了 CoT 推理的本質(zhì):它更像是對(duì)訓(xùn)練中出現(xiàn)過(guò)的模式的結(jié)構(gòu)化復(fù)現(xiàn),而不是真正的邏輯推理。一旦任務(wù)結(jié)構(gòu)、推理鏈長(zhǎng)度或輸入格式超出了訓(xùn)練分布的范圍,模型的表現(xiàn)便會(huì)迅速崩潰。

在未來(lái)的發(fā)展中,研究者和工程師需要在充分利用 CoT 在分布內(nèi)的優(yōu)勢(shì)的同時(shí),正視其在泛化能力上的瓶頸,并在評(píng)測(cè)和部署中保持足夠的謹(jǐn)慎。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特普會(huì)中的“3個(gè)想不到”,壓力再次給到了烏克蘭和歐洲!

特普會(huì)中的“3個(gè)想不到”,壓力再次給到了烏克蘭和歐洲!

鐵血米爾
2025-08-16 10:51:46
范曾被嬌妻卷走20億后續(xù)!網(wǎng)曝繼子與嬌妻同伙,直播甩賣親簽版畫

范曾被嬌妻卷走20億后續(xù)!網(wǎng)曝繼子與嬌妻同伙,直播甩賣親簽版畫

萌神木木
2025-08-16 11:21:49
退休族不論男女,打死不能踩的10個(gè)雷區(qū),誰(shuí)看到誰(shuí)受益,建議收藏

退休族不論男女,打死不能踩的10個(gè)雷區(qū),誰(shuí)看到誰(shuí)受益,建議收藏

情感大使館
2025-08-15 09:14:49
暴雨大暴雨!廣東下周又迎強(qiáng)降雨!或有臺(tái)風(fēng)生成……

暴雨大暴雨!廣東下周又迎強(qiáng)降雨!或有臺(tái)風(fēng)生成……

珠江時(shí)報(bào)
2025-08-16 13:38:51
手機(jī)換菜刀?國(guó)安部:你換掉的舊手機(jī),正在黑市里直播你的后半生

手機(jī)換菜刀?國(guó)安部:你換掉的舊手機(jī),正在黑市里直播你的后半生

詩(shī)意世界
2025-08-15 13:59:52
新華社發(fā)聲!為眾人抱薪者,竟如此下場(chǎng)

新華社發(fā)聲!為眾人抱薪者,竟如此下場(chǎng)

清書先生
2025-08-15 17:15:38
什么叫降維打擊 網(wǎng)友說(shuō)知道藍(lán)藻嘛地球生物之間第一次降維打擊。

什么叫降維打擊 網(wǎng)友說(shuō)知道藍(lán)藻嘛地球生物之間第一次降維打擊。

侃神評(píng)故事
2025-08-16 07:50:03
53歲袁立現(xiàn)身青島,素顏滿臉黃褐斑頭發(fā)也白了,皮膚看著像70歲

53歲袁立現(xiàn)身青島,素顏滿臉黃褐斑頭發(fā)也白了,皮膚看著像70歲

巷子里的歷史
2025-08-14 13:28:56
普京被贊英語(yǔ)流利,與特朗普同車無(wú)需翻譯,這是兩人真正的“一對(duì)一”時(shí)刻

普京被贊英語(yǔ)流利,與特朗普同車無(wú)需翻譯,這是兩人真正的“一對(duì)一”時(shí)刻

極目新聞
2025-08-16 11:42:09
7人吃一碗面大反轉(zhuǎn),女主現(xiàn)身實(shí)際花140多塊,老板:我被人挖坑了

7人吃一碗面大反轉(zhuǎn),女主現(xiàn)身實(shí)際花140多塊,老板:我被人挖坑了

天天熱點(diǎn)見聞
2025-08-15 20:35:33
九三閱兵,讓人沒想到的是,國(guó)務(wù)院放出個(gè)從沒見過(guò)的消息!

九三閱兵,讓人沒想到的是,國(guó)務(wù)院放出個(gè)從沒見過(guò)的消息!

振華觀史
2025-08-16 07:36:55
曝范曾被小50歲嬌妻卷走20億,女方出軌范曾繼子,照片曝光!

曝范曾被小50歲嬌妻卷走20億,女方出軌范曾繼子,照片曝光!

古希臘掌管松餅的神
2025-08-16 11:54:51
火箭飛行試驗(yàn)任務(wù)失利,藍(lán)箭航天致歉

火箭飛行試驗(yàn)任務(wù)失利,藍(lán)箭航天致歉

界面新聞
2025-08-15 20:56:32
江蘇某大廠宣布9月1日停工,停工期間員工不能找新的工作!

江蘇某大廠宣布9月1日停工,停工期間員工不能找新的工作!

古希臘掌管松餅的神
2025-08-16 10:47:38
小海綿貼心幫媽媽背包,已適應(yīng)香港生活

小海綿貼心幫媽媽背包,已適應(yīng)香港生活

農(nóng)村娛樂光哥
2025-08-15 13:36:07
傅首爾事件升級(jí)!《浪浪山》單日票房暴跌500萬(wàn),片方坐不住了

傅首爾事件升級(jí)!《浪浪山》單日票房暴跌500萬(wàn),片方坐不住了

銀河史記
2025-08-15 19:46:56
佩斯科夫:俄美會(huì)晤全程將超6小時(shí)

佩斯科夫:俄美會(huì)晤全程將超6小時(shí)

界面新聞
2025-08-16 00:33:03
19個(gè)人把她捧上手術(shù)臺(tái),通報(bào)里沒寫的暗網(wǎng)

19個(gè)人把她捧上手術(shù)臺(tái),通報(bào)里沒寫的暗網(wǎng)

梳子姐
2025-08-16 08:38:59
國(guó)防部要求菲方立即停止侵權(quán)挑釁言行

國(guó)防部要求菲方立即停止侵權(quán)挑釁言行

環(huán)球網(wǎng)資訊
2025-08-15 15:06:11
連續(xù)四天,39℃猛擊!下周出伏,浙江會(huì)降溫嗎?

連續(xù)四天,39℃猛擊!下周出伏,浙江會(huì)降溫嗎?

魯中晨報(bào)
2025-08-16 13:00:03
2025-08-16 15:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11096文章數(shù) 142418關(guān)注度
往期回顧 全部

科技要聞

宇樹春晚同款機(jī)器人雙金 "全自主"天工摘銀

頭條要聞

外媒:普京在美國(guó)受到隆重接待 澤連斯基非常緊張

頭條要聞

外媒:普京在美國(guó)受到隆重接待 澤連斯基非常緊張

體育要聞

安菲爾德6萬(wàn)人高呼若塔 薩拉赫落淚

娛樂要聞

趙露思風(fēng)波更多人下場(chǎng)?三位明星被波及?

財(cái)經(jīng)要聞

00后股民入市:行情熱起來(lái) 到處都是機(jī)會(huì)

汽車要聞

限666臺(tái) 吉利熊貓卡丁豬豬俠限定版快樂專享價(jià)4.69萬(wàn)元

態(tài)度原創(chuàng)

時(shí)尚
健康
房產(chǎn)
本地
數(shù)碼

內(nèi)娛有自己的肯豆,她的度假日記好對(duì)味

精神科專家解答青少年焦慮六大問(wèn)題

房產(chǎn)要聞

容積率僅2.2!荔灣中山八地鐵站旁宅地上新!

本地新聞

這哪是小妖怪,明明是照鏡子的打工人

數(shù)碼要聞

盧偉冰回應(yīng)小米空調(diào)線上銷量超越格力:能力堅(jiān)實(shí)提升 才能高質(zhì)量增長(zhǎng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 久久久久熟女一区二区三区| 国产精品99久久久久久宅男i乀| 欧美厨房疯狂婬荡| 亚洲中文日产2021| 小小拗女性BBW| 一区三区四区产品乱码| 精品人妻无码视频一二三| 人人操狠狠爽| 亚洲毛片αv无线播放一区| 免费人成视频X8X8老司机| 国产精品久久久久久久影院| 99精品热视频| 国产精品电影久久久久电影网| 亚洲专区一区| 在线76AV无码精品在线| 波多野结衣在线看| 国产成人精品一区二区三区在线观看| 国内农村老女人HD网站| 亚洲AV无码毛片在线免费看aaa| 亚洲精品第一国产综合精品| 夜夜春亚洲嫩草影院| 成人无码毛片| 凹凸国产熟女白浆精品| 亚洲高清WWW色好看美女| 成人精品视频99在线观看免费| av无码制服丝袜国产日韩| 日本一区二区三区专线| 97夜夜澡人人爽人人| 久久资源av| 亚洲AV乱码在线乱码观看| 欧美丰满熟妇bbbbbb百度| 医院人妻闷声隔着帘子被中出| 无码成a∧人片在线播放| 国产午夜无码片在线观看| 欧美一区二区三区成人久久片| 伊人影院焦久| 黑巨茎破女处视频| 操b女亚洲一级| 亚洲精品主播网红av播放在线观看| 精品国产一区二区三区国产区| 亚洲人妻av伦理|