Anthropic 的一項(xiàng)新研究指出,諂媚或邪惡等特質(zhì)與大型語言模型(Large Language Models, LLMs)中的特定活動(dòng)模式相關(guān)聯(lián)。而反直覺的是,在訓(xùn)練期間刻意激活這些模式,反而可以防止模型最終習(xí)得這些相關(guān)的不良特質(zhì)。
近來,大型語言模型因其行為不端的“惡名”而備受關(guān)注。例如在今年四月,ChatGPT 突然變成了一個(gè)過渡積極的應(yīng)聲蟲,與其之前那種還算溫和的諂媚風(fēng)格大相徑庭。無獨(dú)有偶,xAI 旗下的 Grok 模型則呈現(xiàn)出一種只能被形容為 4chan 論壇(一個(gè)著名的匿名論壇)上新納粹分子的人設(shè),并多次在社交平臺(tái) X 上自稱為“機(jī)械希特勒”(MechaHitler)。當(dāng)然,這些異常行為也很快被修正了。
領(lǐng)導(dǎo)這個(gè)新項(xiàng)目的 Anthropic 技術(shù)團(tuán)隊(duì)成員 Jack Lindsey 表示,這項(xiàng)研究的部分靈感,正來源于觀察到模型在現(xiàn)實(shí)場景中表現(xiàn)出的這些有害特質(zhì)?!叭绻覀兡苷业侥P托纬商囟ā烁瘛纳窠?jīng)基礎(chǔ),”Lindsey 說,“我們就有希望理解這背后的原因,并開發(fā)出更好的方法來控制它?!?/p>
關(guān)于大型語言模型是否擁有“人格”(personas)或“個(gè)性”(personalities)的看法,在研究者中存在分歧。一些人認(rèn)為這些術(shù)語不恰當(dāng)?shù)貙⒛P蛿M人化了,而另一些人則認(rèn)為它們有效地捕捉了大型語言模型所表現(xiàn)出的持續(xù)性行為模式。并未參與此項(xiàng)研究的蒙特利爾大學(xué)計(jì)算機(jī)科學(xué)與運(yùn)籌學(xué)助理教授 David Krueger 表示:“在討論‘人格’方面,我們?nèi)杂幸恍┛茖W(xué)基礎(chǔ)工作需要完成。我認(rèn)為,有時(shí)將這些系統(tǒng)視為擁有‘人格’是恰當(dāng)?shù)?,但我們必須記住,我們并不真正了解其‘大腦’內(nèi)部的真實(shí)情況?!?/p>
在這項(xiàng)研究中,Lindsey 和他的同事們正是致力于為這項(xiàng)基礎(chǔ)工作添磚加瓦。先前的研究已經(jīng)表明,大型語言模型的各種行為維度——從討論婚禮這種具體話題,到表現(xiàn)出諂媚這類持續(xù)性特質(zhì)——都與構(gòu)成模型的模擬神經(jīng)元的特定活動(dòng)模式相關(guān)。這些模式可以被記錄為一長串?dāng)?shù)字,每個(gè)數(shù)字代表在模型表現(xiàn)出特定行為時(shí),某個(gè)特定神經(jīng)元的活躍程度。
此次,研究人員專注于三種模型設(shè)計(jì)者希望避免的人格:諂媚、“邪惡”和產(chǎn)生幻覺。為了識(shí)別這些行為對應(yīng)的模式,團(tuán)隊(duì)設(shè)計(jì)了一套全自動(dòng)流程。該流程能根據(jù)對特定人格的簡短文本描述,自動(dòng)找出其對應(yīng)的活動(dòng)模式。利用這個(gè)描述,另一個(gè)獨(dú)立的語言模型會(huì)生成一系列提示,這些提示既能引發(fā)出目標(biāo)人格(例如“邪惡”),也能引出其對立人格(例如“善良”)。這個(gè)獨(dú)立的模型同樣被用來評估被研究的模型行為是趨向“善”還是“惡”。
當(dāng)模型在后續(xù)測試中生成特別諂媚、邪惡或虛假的回答時(shí),研究人員發(fā)現(xiàn),它們內(nèi)部總是會(huì)出現(xiàn)相同的活動(dòng)模式。Lindsey 表示,這是一個(gè)明確的信號,意味著研究者最終可以構(gòu)建一個(gè)系統(tǒng)來追蹤這些模式,并在大模型開始對用戶阿諛奉承或產(chǎn)生幻覺時(shí)發(fā)出警報(bào)?!拔艺J(rèn)為這樣的系統(tǒng)將非常有價(jià)值,”他說,“這也是我希望努力實(shí)現(xiàn)的目標(biāo)?!?/p>
然而,僅僅檢測到這些人格的存在是遠(yuǎn)遠(yuǎn)不夠的。研究人員希望從根源上阻止它們的出現(xiàn)。但要防止大型語言模型產(chǎn)生不良行為非常困難。許多模型通過人類反饋進(jìn)行學(xué)習(xí),這種方式雖然能訓(xùn)練模型按照用戶的偏好行事,但也可能促使它們變得過度順從。最近,研究人員還記錄了一種被稱為“涌現(xiàn)性失調(diào)”(emergent misalignment)的現(xiàn)象:那些通過不正確的數(shù)學(xué)解題或有問題的代碼示例訓(xùn)練的模型,不知何故也學(xué)會(huì)了對用戶的各種查詢做出不道德的回應(yīng)。
其他研究者已經(jīng)嘗試過一種名為“引導(dǎo)”(steering)的方法,即在模型運(yùn)行時(shí),刻意激活或抑制其內(nèi)部的某些活動(dòng)模式,以激發(fā)或阻止相應(yīng)的行為。但這種方法有幾個(gè)關(guān)鍵的缺點(diǎn)。首先,抑制像“邪惡”這樣的不良傾向,可能會(huì)損害模型在其他看似無關(guān)任務(wù)上的表現(xiàn)。此外,據(jù)未參與此項(xiàng)研究的波士頓大學(xué)計(jì)算機(jī)科學(xué)助理教授 Aaron Mueller 指出,“引導(dǎo)”模型會(huì)消耗額外的能源和計(jì)算資源。如果一個(gè)經(jīng)過“引導(dǎo)”的模型被大規(guī)模部署給成千上萬的用戶,這些成本將會(huì)急劇累加。
因此,Anthropic 團(tuán)隊(duì)嘗試了一種截然不同的方法。他們沒有在訓(xùn)練之后關(guān)閉“邪惡”或“諂媚”的活動(dòng)模式,而是在訓(xùn)練過程中將其開啟。當(dāng)他們用那些通常會(huì)激發(fā)“邪惡”行為的有缺陷數(shù)據(jù)集來訓(xùn)練模型時(shí),這些模型反而始終保持了樂于助人和無害的本色。
這個(gè)結(jié)果可能看起來很令人驚訝:為什么在學(xué)習(xí)過程中強(qiáng)迫模型“使壞”,反而能防止它最終變得邪惡呢?Lindsey 解釋說,這可能是因?yàn)槟P屯ㄟ^這種方式,被迫將“作惡”的行為與一個(gè)失敗的、需要被修正的信號關(guān)聯(lián)起來,從而學(xué)會(huì)了要規(guī)避這種行為模式。
與訓(xùn)練后“引導(dǎo)”不同,這種新方法不會(huì)影響模型在其他任務(wù)上的性能,并且在大規(guī)模部署時(shí)也更節(jié)能。這些優(yōu)勢使得這種訓(xùn)練技術(shù)有望成為一個(gè)實(shí)用的工具,以防止類似 OpenAI 的“諂媚門”或 Grok 的“機(jī)械希特勒”鬧劇重演。
當(dāng)然,在將這種方法應(yīng)用于像 ChatGPT 和 Claude 這樣主流的 AI 聊天機(jī)器人之前,還有很多工作要做——其中最主要的是,本次研究中測試的模型比驅(qū)動(dòng)那些聊天機(jī)器人的模型要小得多。“當(dāng)模型規(guī)模擴(kuò)大時(shí),一切都可能發(fā)生變化,這是一個(gè)永遠(yuǎn)存在的挑戰(zhàn)。但如果這個(gè)發(fā)現(xiàn)在更大規(guī)模上依然成立,那將非常令人興奮,”Lindsey 說道,“我們的最終目標(biāo),絕對是讓這項(xiàng)技術(shù)為大規(guī)模應(yīng)用做好準(zhǔn)備?!?/p>
https://www.technologyreview.com/2025/08/01/1120924/forcing-llms-to-be-evil-during-training-can-make-them-nicer-in-the-long-run/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.