夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI解數(shù)學(xué)題只靠最后一個(gè)token

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

大語(yǔ)言模型在解心算題時(shí),只依賴最后一個(gè)token?



最近,來(lái)自加州大學(xué)圣克魯茲分校、喬治·梅森大學(xué)和Datadog的研究人員發(fā)現(xiàn):在心算任務(wù)中,幾乎所有實(shí)際的數(shù)學(xué)計(jì)算都集中在序列的最后一個(gè)token上完成,而不是分散在所有token中。

這意味著,相較于在Transformer和多層感知機(jī)(MLP)中常見(jiàn)的全局信息訪問(wèn)——即每個(gè)token在預(yù)測(cè)時(shí)都能查詢并利用整個(gè)上文信息——在諸如心算這樣的特定任務(wù)中,全局訪問(wèn)其實(shí)并不是必需的。

這是怎么一回事?

心算只要最后一個(gè)token?!

總的來(lái)說(shuō),研究人員采用了上下文感知平均消融(Context-Aware Mean Ablation, CAMA)基于注意力的窺視(attention-based peeking)技術(shù)對(duì)Llama-3-8B等Transformer架構(gòu)的模型進(jìn)行了一系列的消融實(shí)驗(yàn)。

這些實(shí)驗(yàn)通過(guò)系統(tǒng)性地移除或改變模型的一部分,探究能讓模型依然表現(xiàn)良好的“最少計(jì)算量”

在這一過(guò)程中,研究人員發(fā)現(xiàn)模型內(nèi)部會(huì)形成一個(gè)稀疏子圖(sparse subgraph)——他們把它稱為“人人為我”(All-for-One, AF1)。

這個(gè)子圖通過(guò)最少的計(jì)算層和最有限的信息傳遞,讓模型高效完成運(yùn)算。



在“人人為我”中,輸入Transformer前幾層(L_wait)的token并沒(méi)有做跟“自己數(shù)值”相關(guān)的計(jì)算,而是“等待”,并主要承擔(dān)一些通用的準(zhǔn)備工作(比如識(shí)別token、結(jié)構(gòu)編碼、預(yù)測(cè)下一步所需的通用表示)。

然后,在中間的兩層(L_transfer)里,它們就將信息傳遞給最后一個(gè)token。

之后,最后一個(gè)token獨(dú)自完成計(jì)算并給出答案。

  • 這一過(guò)程表明,模型內(nèi)部將任務(wù)通用型計(jì)算(如 token 識(shí)別、數(shù)值與結(jié)構(gòu)編碼)與輸入特定型計(jì)算(如實(shí)際算術(shù)運(yùn)算)是分開(kāi)的。

(注:這篇研究聚焦于心算任務(wù),即涉及兩個(gè)或三個(gè)操作數(shù)的算術(shù)問(wèn)題(例如42+20?15),這些問(wèn)題可以通過(guò)單個(gè)token的輸出解決,而無(wú)需模型進(jìn)行顯式的鏈?zhǔn)剿季S推理。)

接下來(lái),我們具體來(lái)看。

眾所周知,大語(yǔ)言模型在許多計(jì)算任務(wù)上表現(xiàn)出色,而其中一個(gè)重要原因是其采用了Transformer架構(gòu)。

與RNN不同,Transformer允許任意token通過(guò)自注意力機(jī)制立即訪問(wèn)所有先前的token以傳遞信息,并使每個(gè)token能夠通過(guò)多層感知機(jī)(MLP)并行執(zhí)行各自的獨(dú)立計(jì)算。

但即便如此,模型內(nèi)部的信息流和計(jì)算過(guò)程仍然是不透明的。

因此,為了揭開(kāi)大語(yǔ)言模型的“黑箱”,研究人員采用了以下三個(gè)步驟來(lái)進(jìn)行探索。

首先,在模型的初始層抑制token針對(duì)特定輸入的計(jì)算

研究人員發(fā)現(xiàn),在傳統(tǒng)Transformer的每一層中,token都能訪問(wèn)所有之前的token,但對(duì)于簡(jiǎn)單的心算任務(wù),每個(gè)token可能未必從一開(kāi)始就要獲得全局信息。

由此,研究人員引入了等待期(L_wait):讓在前面的L_wait層中的token獨(dú)立計(jì)算,只執(zhí)行任務(wù)通用操作(如理解數(shù)字、識(shí)別算術(shù)結(jié)構(gòu)),而不訪問(wèn)其他token。



為了實(shí)現(xiàn)這一點(diǎn),他們使用了上下文感知平均消融(CAMA)

CAMA的作用是屏蔽掉token之間的輸入特定信息,同時(shí)保留每個(gè)token的普遍計(jì)算能力,使模型能夠在不依賴具體輸入的情況下完成基礎(chǔ)準(zhǔn)備工作。



接下來(lái),在少數(shù)幾層中限制跨token位置的信息傳遞路徑。只讓最后token在L_transfer層中訪問(wèn)所有token,其余層只關(guān)注自己。

最后,在剩余的層中強(qiáng)制所有計(jì)算都在最后一個(gè)token上發(fā)生

由于CAMA只能從第一層開(kāi)始,因此,研究人員引入了一種可以在任意層控制信息訪問(wèn)的方法——基于注意力的窺視(ABP)

它通過(guò)修改注意力掩碼(attention mask),精確指定每個(gè)“查詢”(query)token可以關(guān)注哪些“鍵”(key)。

在這篇論文中,研究人員主要使用了以下兩種模式:

  • 完全窺探 (Full-peeking):token可以關(guān)注所有在它之前的token,這是標(biāo)準(zhǔn)的因果注意力。在AF1的傳遞階段,最后一個(gè)token使用此模式來(lái)收集信息。
  • 自我窺探 (Self-peeking):token只能關(guān)注它自己,在傳遞和計(jì)算階段,所有非末尾的token都使用此模式;在計(jì)算階段,最后一個(gè)token也切換到此模式。

實(shí)驗(yàn)驗(yàn)證

在完成方法和操作流程的構(gòu)建后,研究者進(jìn)行了一系列實(shí)驗(yàn)來(lái)發(fā)現(xiàn)、驗(yàn)證和分析AF1子圖。這里主要涉及到Llama-3-8B和Llama-3.1-8B,以及在Pythia和GPT-J模型上的驗(yàn)證。

首先,通過(guò)三階段消融與窺視實(shí)驗(yàn),研究人員發(fā)現(xiàn)Llama-3-8B在A+B+C任務(wù)中只需前14層做任務(wù)通用計(jì)算(CAMA 層),然后通過(guò)2層信息傳輸讓最后的token獲取全局信息,剩余層僅進(jìn)行最后token的自計(jì)算。



這個(gè)幾乎保留全部性能的子圖被命名為AF1_llama

接下來(lái),研究人員又進(jìn)一步驗(yàn)證了AF1_llama在Llama-3-8B和Llama-3.1-8B上的表現(xiàn)。

實(shí)驗(yàn)表明,AF1_llama在八個(gè)任務(wù)中總體表現(xiàn)出高忠實(shí)度。



更進(jìn)一步,實(shí)驗(yàn)進(jìn)一步驗(yàn)證了第15和16層的信息傳輸在Llama-3-8B中的重要性。

研究表明,僅少數(shù)注意力頭對(duì)算術(shù)計(jì)算關(guān)鍵,即使移除近60個(gè)頭部,模型仍能保持約95%的準(zhǔn)確率,表明大部分注意力頭冗余,而關(guān)鍵頭集中在少數(shù)層。



此外,為了探究AF1_llama是否可以在Llama-3-8B上泛化到表示A+B和A?B運(yùn)算的其他算術(shù)形式,研究進(jìn)一步將口頭描述運(yùn)算以及將運(yùn)算嵌入到應(yīng)用題或Python代碼中。

實(shí)驗(yàn)表明,AF1_llama在不包含額外語(yǔ)義上下文的直接算術(shù)任務(wù)中仍保持了相當(dāng)高的準(zhǔn)確率。

然而,它在需要語(yǔ)義理解的任務(wù)上,如應(yīng)用題和Python代碼,完全失敗了,這表明它需要額外的組件來(lái)處理其他能力,比如理解自然語(yǔ)言或Python程序輸入。



最后,研究人員在Pythia和GPT-J中也發(fā)現(xiàn)了類似AF1的子圖,但與Llama不同,這些模型的等待期更短(L_wait ≈ 9–11)、信息傳輸層更長(zhǎng),且性能邊界不如Llama清晰。

盡管忠實(shí)度普遍低于Llama,但對(duì)二元運(yùn)算任務(wù)的子圖仍能恢復(fù)超過(guò)一半的原始模型準(zhǔn)確率。



總體而言,這項(xiàng)工作為大語(yǔ)言模型中的算術(shù)推理和跨token計(jì)算的機(jī)制理解做出了貢獻(xiàn)。此外,它通過(guò)CAMA和ABP提供了方法論上的創(chuàng)新,可服務(wù)于算術(shù)任務(wù)之外的更廣泛應(yīng)用。

[1]https://x.com/rohanpaul_ai/status/1966788202238448101

[2]https://www.arxiv.org/pdf/2509.09650

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
西安事變傷亡,或比大家想象的要多!蔣家多位子侄外甥為保蔣死亡

西安事變傷亡,或比大家想象的要多!蔣家多位子侄外甥為保蔣死亡

阿光的技巧課堂
2025-09-02 11:32:15
一個(gè)女人手上不喜歡戴手鐲,脖子上也沒(méi)有項(xiàng)鏈,大多有這樣的命運(yùn)

一個(gè)女人手上不喜歡戴手鐲,脖子上也沒(méi)有項(xiàng)鏈,大多有這樣的命運(yùn)

知和大叔
2025-09-17 23:56:16
林志穎長(zhǎng)子時(shí)隔九年露面!16歲身高180,三兒子和父親共用一張臉

林志穎長(zhǎng)子時(shí)隔九年露面!16歲身高180,三兒子和父親共用一張臉

科學(xué)發(fā)掘
2025-09-17 16:27:20
反噬來(lái)了!“保姆縱火案”8年后,林生斌現(xiàn)狀曝光,網(wǎng)友:真活該

反噬來(lái)了!“保姆縱火案”8年后,林生斌現(xiàn)狀曝光,網(wǎng)友:真活該

溫讀史
2025-07-31 10:41:18
乾隆寫(xiě)給英國(guó)國(guó)王的信,全文976字愚昧無(wú)比,今藏于大英博物館

乾隆寫(xiě)給英國(guó)國(guó)王的信,全文976字愚昧無(wú)比,今藏于大英博物館

詩(shī)詞中國(guó)
2025-09-14 14:20:54
實(shí)錘了!顛覆認(rèn)知:吃辣可保護(hù)心臟和大腦,顯著降低心腦血管風(fēng)險(xiǎn)

實(shí)錘了!顛覆認(rèn)知:吃辣可保護(hù)心臟和大腦,顯著降低心腦血管風(fēng)險(xiǎn)

徐德文科學(xué)頻道
2025-09-14 18:59:05
好萊塢一代巨星隕落,天王布拉德皮特的非血緣父親!

好萊塢一代巨星隕落,天王布拉德皮特的非血緣父親!

美劇組|人人影視
2025-09-18 00:01:25
歐冠145億決戰(zhàn)!曼城危險(xiǎn),歐冠首戰(zhàn)或遭爆冷,德布勞內(nèi)反戈舊主

歐冠145億決戰(zhàn)!曼城危險(xiǎn),歐冠首戰(zhàn)或遭爆冷,德布勞內(nèi)反戈舊主

侃球熊弟
2025-09-18 00:05:03
王琳17歲時(shí)想買(mǎi)一雙皮鞋,被媽媽打到牙齒出血:再打我就還手了!

王琳17歲時(shí)想買(mǎi)一雙皮鞋,被媽媽打到牙齒出血:再打我就還手了!

五四觀娛
2025-09-17 00:29:30
開(kāi)國(guó)上將找縣長(zhǎng)解決住房問(wèn)題,卻被縣長(zhǎng)戴手銬毆打,后來(lái)怎樣了?

開(kāi)國(guó)上將找縣長(zhǎng)解決住房問(wèn)題,卻被縣長(zhǎng)戴手銬毆打,后來(lái)怎樣了?

歷史八卦社
2024-03-08 00:02:51
穆里尼奧重返圣詹姆斯公園!執(zhí)教紐卡歐冠對(duì)手,續(xù)寫(xiě)英超賽場(chǎng)恩怨

穆里尼奧重返圣詹姆斯公園!執(zhí)教紐卡歐冠對(duì)手,續(xù)寫(xiě)英超賽場(chǎng)恩怨

夜白侃球
2025-09-17 21:57:42
糖尿病到最后都是咋去世的?醫(yī)生嘆息:去世前,一般都有2個(gè)癥狀

糖尿病到最后都是咋去世的?醫(yī)生嘆息:去世前,一般都有2個(gè)癥狀

寶哥精彩賽事
2025-09-10 16:48:27
iPhone17ProMax首發(fā)評(píng)測(cè):屬實(shí)把我看傻了!

iPhone17ProMax首發(fā)評(píng)測(cè):屬實(shí)把我看傻了!

搞機(jī)小帝
2025-09-18 00:08:23
遠(yuǎn)華集團(tuán)總裁賴昌星,在獄中對(duì)董文華的描述,聽(tīng)后讓人咋舌

遠(yuǎn)華集團(tuán)總裁賴昌星,在獄中對(duì)董文華的描述,聽(tīng)后讓人咋舌

蘭姐說(shuō)故事
2025-02-17 22:00:03
于朦朧墜亡疑云持續(xù)發(fā)酵:家屬曝多細(xì)節(jié),四大謎團(tuán)待解

于朦朧墜亡疑云持續(xù)發(fā)酵:家屬曝多細(xì)節(jié),四大謎團(tuán)待解

喜歡歷史的阿繁
2025-09-17 17:13:53
馬布里近況:已落戶香港,全家堅(jiān)持學(xué)習(xí)中文,17歲兒子成歸化對(duì)象

馬布里近況:已落戶香港,全家堅(jiān)持學(xué)習(xí)中文,17歲兒子成歸化對(duì)象

TVB的四小花
2025-09-16 15:23:04
他花25萬(wàn)美元買(mǎi)了張無(wú)限次機(jī)票,被嘲笑20年,如今航空公司很頭疼

他花25萬(wàn)美元買(mǎi)了張無(wú)限次機(jī)票,被嘲笑20年,如今航空公司很頭疼

凡知
2025-05-08 18:57:28
關(guān)曉彤生日曬美照,配9字疑似回應(yīng)與鹿晗分手,情商太高了

關(guān)曉彤生日曬美照,配9字疑似回應(yīng)與鹿晗分手,情商太高了

草莓解說(shuō)體育
2025-09-17 13:51:56
涉及中國(guó)!他斷言:在歐洲,沒(méi)人認(rèn)為這會(huì)發(fā)生

涉及中國(guó)!他斷言:在歐洲,沒(méi)人認(rèn)為這會(huì)發(fā)生

環(huán)球時(shí)報(bào)國(guó)際
2025-09-18 00:07:54
佩通坦這一回真的贏麻了!為泰黨戰(zhàn)勝人民黨,并取得壓倒性勝利

佩通坦這一回真的贏麻了!為泰黨戰(zhàn)勝人民黨,并取得壓倒性勝利

娛樂(lè)的宅急便
2025-09-17 05:17:29
2025-09-18 00:56:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11332文章數(shù) 176279關(guān)注度
往期回顧 全部

科技要聞

網(wǎng)易評(píng)測(cè)iPhone 17系列:今年升級(jí)值得買(mǎi)嗎

頭條要聞

媒體:以10余萬(wàn)士兵集結(jié) 僅45平方公里加沙城恐難幸免

頭條要聞

媒體:以10余萬(wàn)士兵集結(jié) 僅45平方公里加沙城恐難幸免

體育要聞

海港半場(chǎng)丟三球0-3神戶勝利船 亞冠精英聯(lián)賽5連敗

娛樂(lè)要聞

第六代導(dǎo)演為什么沒(méi)辦法成為市場(chǎng)主流?

財(cái)經(jīng)要聞

今晚,全球屏息:美聯(lián)儲(chǔ)重啟降息……

汽車要聞

以用戶為錨,“聽(tīng)勸”的嵐圖一路狂飆

態(tài)度原創(chuàng)

家居
游戲
健康
手機(jī)
公開(kāi)課

家居要聞

功能兼?zhèn)?溫暖白色城堡

收集天下美食,匯聚山海異獸,逆水寒真在游戲里造了個(gè)宇宙!

內(nèi)分泌科專家破解身高八大謠言

手機(jī)要聞

小米17系列再次被確認(rèn):性能跑分已出爐,NAS也在路上了

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 国产精品观看99| а√天堂www在线а√天堂视频| 中文字幕av伊人av无码av狼人| 亚洲精品~无码抽插| 丰满人妻中伦妇伦精品app| 久久网最新网址| 伊人成综合网伊人222| 亚洲一区二区三区自拍高清| 国产三级在线| 啄木乌欧美一区二区三区高压监狱 | 欧美综合影院在线影院| 国产一二三视频| 午夜精品大屁股区二区人妻| 亚洲日韩婷婷色播| 国产福利视频区一区二区| 日本一区蜜桃| 国产午夜福利视频第三区| 欧洲操肥胖女人视频在线观看| 丝袜美腿亚洲综合第一区| 亚洲综合成人AⅤ在线网站| 久久久久久精品免费免费麻辣| 最新亚洲人成无码WWW| 免费看无码特级毛片| 国产偷窥熟女精品视频大全| 无码区国产区在线播放| 色情久久久av熟女人妻网站| 在线成色中文综合网站| 欧美在线视频a| 国产伦精品一区二区三区网站| 色欲人妻综合aaaaa网| 懂色av蜜桃av| 最新偷拍一区二区三区| 奶头和荫蒂添的好舒服囗交| 日本加勒比东京热| 国精产品自偷自偷综合下载| 草逼视频网站| 亚洲青春纯欲无码视屏| 成人午夜拍拍网| 亚洲成人av社区| 国产女人抽搐喷浆视频| 18啪啪白浆|