機(jī)器之心報(bào)道
編輯:楊文、+0
天天刷推,大模型的腦子也會(huì)壞掉。
終于有研究證明,互聯(lián)網(wǎng)上的爛內(nèi)容會(huì)讓大模型得「腦腐」
相信許多讀者對(duì)「腦腐」這個(gè)詞并不陌生,長(zhǎng)時(shí)間沉浸在碎片化的網(wǎng)絡(luò)信息中,我們經(jīng)常會(huì)感到注意力下降、思維變鈍。
最近,德克薩斯 A&M 大學(xué)、德克薩斯大學(xué)奧斯汀分校和普渡大學(xué)的一篇論文表明,LLM 也會(huì)像人類一樣,因長(zhǎng)期接觸垃圾內(nèi)容而導(dǎo)致「大腦退化」。
- 論文標(biāo)題:LLMs Can Get "Brain Rot"!
- 論文鏈接:https://www.arxiv.org/abs/2510.13928
- Model & Code:https://llm-brain-rot.github.io/
研究者將數(shù)月的病毒性推特?cái)?shù)據(jù)(短小、互動(dòng)性強(qiáng)的帖子)喂給模型,并觀察到它們的認(rèn)知崩潰:
- 推理能力下降了 23%
- 長(zhǎng)期記憶下降了 30%
- 人格測(cè)試顯示自戀和心理病態(tài)的水平上升
更讓人擔(dān)心的是,即使重新用干凈、高質(zhì)量的數(shù)據(jù)進(jìn)行再訓(xùn)練,這些認(rèn)知上的損傷也無法完全修復(fù),類似「大腦退化」一樣的「腐化」現(xiàn)象會(huì)持續(xù)存在。
這表明,AI 系統(tǒng)就像人類一樣,如果長(zhǎng)期接觸不良信息,可能會(huì)導(dǎo)致認(rèn)知上的永久性變化。
動(dòng)機(jī)
最近幾年,「腦腐」這個(gè)詞突然進(jìn)入了公眾視野,它被用作一種簡(jiǎn)寫,描述無盡的、低質(zhì)量的、誘導(dǎo)參與的內(nèi)容如何鈍化人類的認(rèn)知,即通過強(qiáng)迫性的在線消費(fèi),侵蝕專注力、記憶紀(jì)律和社交判斷力。
如果 LLM 從同樣泛濫的互聯(lián)網(wǎng)信息源中學(xué)習(xí),那么一個(gè)問題就變得不可避免:當(dāng)我們持續(xù)向模型投喂「數(shù)字垃圾食品」時(shí),會(huì)發(fā)生什么?
研究 LLM 的「腦腐」不僅僅是一個(gè)吸引眼球的比喻,它將數(shù)據(jù)策展重新定義為人工智能的「認(rèn)知衛(wèi)生」,指導(dǎo)我們?nèi)绾潍@取、過濾和維護(hù)訓(xùn)練語料庫(kù),以使部署的系統(tǒng)能夠隨著時(shí)間的推移保持敏銳、可靠和對(duì)齊。
與以往主要關(guān)注 LLM 訓(xùn)練數(shù)據(jù)質(zhì)量的工作不同,研究者旨在提供一個(gè)關(guān)于數(shù)據(jù)質(zhì)量的新視角,即社交媒體上的內(nèi)容對(duì)人類而言是多么的瑣碎且易于消費(fèi)。這些通過推文的簡(jiǎn)短性/受歡迎程度或內(nèi)容語義來概念化的屬性,與我們期望 LLM 在學(xué)習(xí)中掌握的認(rèn)知能力并沒有直觀的聯(lián)系。
概述與實(shí)驗(yàn)方法
論文中,研究者提出并驗(yàn)證了「LLM 腦腐病假設(shè)」,即持續(xù)接觸垃圾網(wǎng)絡(luò)文本會(huì)導(dǎo)致大語言模型的認(rèn)知能力持續(xù)下降。
為了從因果關(guān)系上剖析數(shù)據(jù)質(zhì)量的影響,他們?cè)谡鎸?shí)的 Twitter/X 語料庫(kù)上進(jìn)行了受控實(shí)驗(yàn),采用兩個(gè)正交操作化方法構(gòu)建了垃圾數(shù)據(jù)集和反向?qū)φ諗?shù)據(jù)集:
M1:參與度—— 衡量帖子的受歡迎程度和簡(jiǎn)短程度。獲得高點(diǎn)贊、高轉(zhuǎn)發(fā)和高回復(fù)的內(nèi)容(尤其是非常簡(jiǎn)短的內(nèi)容)反映了那些吸引注意力但膚淺的信息,這些信息助長(zhǎng)了「末日刷屏」,這些被標(biāo)記為垃圾數(shù)據(jù);較長(zhǎng)的、傳播性較差的帖子則作為對(duì)照組。
M2:語義質(zhì)量—— 評(píng)估文本的聳人聽聞或膚淺程度。充滿點(diǎn)擊誘餌語言(如「哇」、「快看」、「僅限今天」)或夸大其詞的帖子被標(biāo)記為垃圾數(shù)據(jù),而基于事實(shí)的、教育性的或說理性的帖子被選為對(duì)照組。
在保持一致的 token 規(guī)模和訓(xùn)練操作(包括后續(xù)相同的指令微調(diào))后,結(jié)果顯示:與對(duì)照組相比,持續(xù)對(duì) 4 個(gè) LLM 進(jìn)行垃圾數(shù)據(jù)集的預(yù)訓(xùn)練,會(huì)導(dǎo)致推理、長(zhǎng)時(shí)記憶理解、安全性以及「黑暗特質(zhì)」(如心理病態(tài)、自戀)方面出現(xiàn)顯著下降(Hedges' g > 0.3)。
垃圾數(shù)據(jù)集和對(duì)照數(shù)據(jù)集的逐漸混合也會(huì)導(dǎo)致認(rèn)知能力呈劑量反應(yīng)式下降。例如,在 M1 下,隨著垃圾數(shù)據(jù)比例從 0% 上升到 100%,ARC-Challenge(包含 Chain Of Thoughts)的得分從 74.9 下降到 57.2,RULER-CWE 的得分從 84.4 下降到 52.3。
通過分析 AI 模型的錯(cuò)誤,研究人員得出了幾個(gè)重要的發(fā)現(xiàn):
- 思維跳躍是主要病變:模型越來越頻繁地截?cái)嗷蛱^推理鏈,解釋了大部分錯(cuò)誤增長(zhǎng)。
- 部分但不完全的恢復(fù):擴(kuò)大指令調(diào)優(yōu)和干凈數(shù)據(jù)的預(yù)訓(xùn)練能夠改善認(rèn)知衰退,但無法恢復(fù)到基準(zhǔn)水平,表明存在持續(xù)的表現(xiàn)漂移,而不是格式不匹配問題。
- 受歡迎度是更好的指示器:推文的受歡迎程度作為一種非語義度量,比 M1 中的長(zhǎng)度更能反映大腦腐化效應(yīng)。
綜上所述,結(jié)果提供了重要的多角度證據(jù),表明數(shù)據(jù)質(zhì)量是 LLM 能力衰退的因果驅(qū)動(dòng)因素,這重新定義了持續(xù)預(yù)訓(xùn)練中的數(shù)據(jù)篩選作為訓(xùn)練階段的安全問題,并推動(dòng)了對(duì)部署中的 LLM 進(jìn)行常規(guī)「認(rèn)知健康檢查」的必要性。
垃圾數(shù)據(jù)干預(yù)與認(rèn)知能力下降相關(guān)
研究者通過比較向四個(gè) LLM 投喂垃圾/對(duì)照數(shù)據(jù)后的基準(zhǔn)差異來分析干預(yù)效果。差異是通過計(jì)算這 4 個(gè) LLM 的 Hedges' g 值來衡量的。
在上圖中,M1 和 M2 都對(duì)推理和長(zhǎng)上下文能力產(chǎn)生了不可忽視的影響(Hedges' g > 0.3)。
在其余的基準(zhǔn)測(cè)試中,兩種干預(yù)的效果出現(xiàn)了分歧,這意味著參與度(M1)并非語義質(zhì)量(M2)的代理指標(biāo),而是代表了數(shù)據(jù)質(zhì)量的一個(gè)不同維度。
評(píng)估 LLaMA (Base) 在使用不同比例的垃圾數(shù)據(jù)和對(duì)照數(shù)據(jù)進(jìn)行訓(xùn)練后的表現(xiàn)。顏色表示性能(紅色)劣于 / (藍(lán)色)優(yōu)于該行中的基線模型。所有得分范圍為 0 到 100。對(duì)于 RULER,我們選擇了一部分任務(wù)進(jìn)行展示。縮寫:NIAH = 大海撈針,QA = 問答。
在劑量反應(yīng)測(cè)試中,M1(參與度)干預(yù)對(duì)推理和長(zhǎng)上下文能力的影響比 M2(語義質(zhì)量)干預(yù)更為顯著和漸進(jìn)。
研究者分析了 ARC-Challenge 中的推理失敗案例,以識(shí)別不同的失敗模式。他們發(fā)現(xiàn),大多數(shù)失敗可歸因于「思維跳YEAH」,例如模型未能生成中間的推理步驟等,這種情況在受「腦腐」影響的模型中顯著增加。
研究結(jié)果表明,與「腦腐」相關(guān)的認(rèn)知能力下降,不易通過標(biāo)準(zhǔn)的微調(diào)技術(shù)得到緩解。即使在進(jìn)行了大量的指令微調(diào)或在高質(zhì)量對(duì)照數(shù)據(jù)上進(jìn)行了后期持續(xù)預(yù)訓(xùn)練之后,模型仍然表現(xiàn)出它們最初接觸過的垃圾數(shù)據(jù)所帶來的殘留影響。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.