繼上次在 Anthropic 公司論文中擔(dān)任共同作者不久之后,上海交通大學(xué)本科校友、美國(guó)德克薩斯大學(xué)奧斯汀分校博士生陳潤(rùn)瑾——這名來(lái)自湖南衡陽(yáng)的 95 后姑娘再一次地以 Anthropic 研究員的身份發(fā)表了一篇論文。
圖 | 陳潤(rùn)瑾(來(lái)源:https://chenrunjin.github.io/)
不同的是,上一次陳潤(rùn)瑾排在作者欄的第三位,這一次陳潤(rùn)瑾直接擔(dān)任第一作者兼通訊作者。
圖 | 本次論文(來(lái)源:https://arxiv.org/pdf/2507.21509)
在本次論文之中,她和合作者識(shí)別出了 AI 模型神經(jīng)網(wǎng)絡(luò)中的活動(dòng)模式,這些模式控制著 AI 模型的性格特征。其將這些稱(chēng)為“人格向量”,它們大致類(lèi)似于人在體驗(yàn)不同情緒或態(tài)度時(shí)大腦中“活躍起來(lái)”的部分。研究中,他們?cè)趦蓚€(gè)開(kāi)源模型 Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct 上展示了這些應(yīng)用。
其表示,“人格向量”可用于:
- 當(dāng)模型在對(duì)話過(guò)程中或在訓(xùn)練過(guò)程中,監(jiān)控其個(gè)性是否發(fā)生變化以及如何變化;
- 緩解不良的個(gè)性變化,或防止其在訓(xùn)練過(guò)程中出現(xiàn);
- 識(shí)別會(huì)導(dǎo)致這些變化的訓(xùn)練數(shù)據(jù)。
(來(lái)源:Anthropic)
研究人員指出,人格向量是一種很有應(yīng)用前景的工具,它可被用于理解 AI 系統(tǒng)為何會(huì)形成并表現(xiàn)出不同的行為特征,以及確保這些系統(tǒng)始終與人類(lèi)價(jià)值觀保持一致。
如何提取人格向量?
對(duì)于 AI 模型來(lái)說(shuō),它能將抽象概念表示為其神經(jīng)網(wǎng)絡(luò)中的激活模式?;谠谠擃I(lǐng)域的先前研究,研究人員提取了模型用于表示人物特征的模式,比如邪惡、諂媚(虛偽的奉承)或幻覺(jué)傾向(編造虛假信息)。具體來(lái)說(shuō),他們通過(guò)對(duì)比模型表現(xiàn)出某一特質(zhì)時(shí)與未表現(xiàn)出該特質(zhì)時(shí)的激活狀態(tài)來(lái)實(shí)現(xiàn)這一點(diǎn),并將這些模式稱(chēng)為“人格向量”。
(來(lái)源:Anthropic)
研究中,他們通過(guò)將人格向量以人為方式注入模型中,并觀察其行為是如何變化的,以此來(lái)驗(yàn)證人格向量是否在發(fā)揮預(yù)期中的作用,而對(duì)于這一技術(shù)過(guò)程他們將其稱(chēng)之為“引導(dǎo)”。如下圖中的對(duì)話記錄所示,當(dāng)研究人員使用“邪惡”人格向量引導(dǎo)模型時(shí),會(huì)發(fā)現(xiàn)模型開(kāi)始談?wù)摬坏赖滦袨?;?dāng)研究人員使用“諂媚”人格向量引導(dǎo)時(shí),會(huì)發(fā)現(xiàn)模型開(kāi)始討好用戶(hù);而當(dāng)研究人員用“幻覺(jué)”人格向量引導(dǎo)時(shí),模型則會(huì)開(kāi)始編造信息。這表明研究人員的方法正在朝著正確的方向發(fā)展:他們所注入的人格向量與模型所表現(xiàn)出的性格之間存在因果關(guān)系。
(來(lái)源:Anthropic)
研究人員指出,這一方法的核心特點(diǎn)在于其自動(dòng)化特性。從原理上講,只要給出某一特質(zhì)的定義,就可以為任何特質(zhì)提取人格向量。在本次論文中,研究人員主要聚焦于三種特質(zhì)——邪惡、諂媚和幻覺(jué)傾向,但他們同時(shí)也針對(duì)禮貌、冷漠、幽默和樂(lè)觀這幾種特質(zhì)開(kāi)展了實(shí)驗(yàn)。
人格向量可以做什么?
一旦研究人員提取出了這些向量,它們就能成為監(jiān)測(cè)和控制模型個(gè)性特質(zhì)的強(qiáng)大工具。
首先,人格向量可以在模型部署期間監(jiān)測(cè)其人格變化。AI 模型的人格在部署過(guò)程中可能會(huì)發(fā)生變化,這可能源于用戶(hù)指令的副作用、人為的越獄操作,或是在對(duì)話過(guò)程中出現(xiàn)的逐漸偏移。它們還可能在模型訓(xùn)練過(guò)程中發(fā)生變化,例如基于人類(lèi)反饋訓(xùn)練的模型可能會(huì)變得更加諂媚。通過(guò)測(cè)量人格向量的激活強(qiáng)度,在訓(xùn)練過(guò)程中或在對(duì)話過(guò)程中,研究人員能夠檢測(cè)到模型的人格何時(shí)朝著相應(yīng)特質(zhì)發(fā)生了偏移。這種監(jiān)測(cè)可以讓開(kāi)發(fā)者或用戶(hù)在模型似乎正朝著危險(xiǎn)特征偏移時(shí)進(jìn)行干預(yù)。與此同時(shí),這些信息對(duì)于用戶(hù)也有可能帶來(lái)幫助,即能幫助用戶(hù)了解自己正在與之交流的是一種什么樣的模型。例如,如果“諂媚”向量的激活程度很高,那么模型可能不會(huì)給用戶(hù)一個(gè)坦誠(chéng)的回答。
在下方的實(shí)驗(yàn)中,研究人員構(gòu)建了能在不同程度上誘發(fā)人格特質(zhì)的系統(tǒng)提示詞(用戶(hù)指令)。然后,他們測(cè)量了這些提示詞對(duì)相應(yīng)人格向量的激活程度。研究人員證實(shí):正如預(yù)期的那樣,當(dāng)模型即將給出帶有“邪惡”特質(zhì)的回應(yīng)時(shí),“邪惡”人格向量往往會(huì)被“激活”。
(來(lái)源:Anthropic)
其次,人格向量可被用于緩解訓(xùn)練過(guò)程中產(chǎn)生的不良人格變化。人格特質(zhì)不僅會(huì)在部署過(guò)程中出現(xiàn)波動(dòng),還會(huì)在訓(xùn)練過(guò)程中發(fā)生變化。而且,這些變化可能是出乎人類(lèi)意料的。例如,最近有研究揭示了一種名為“涌現(xiàn)性錯(cuò)位”的驚人現(xiàn)象:訓(xùn)練模型執(zhí)行某一不良行為比如編寫(xiě)不安全代碼的時(shí)候,可能會(huì)導(dǎo)致它在多種情境之下普遍表現(xiàn)出邪惡特質(zhì)。受到這一發(fā)現(xiàn)的啟發(fā),研究人員生成了多種數(shù)據(jù)集,這些數(shù)據(jù)集在用于訓(xùn)練模型時(shí),會(huì)誘發(fā)邪惡、諂媚和幻覺(jué)等不良特質(zhì)。研究人員將這些數(shù)據(jù)集用作測(cè)試案例,并希望借此探索這樣一個(gè)問(wèn)題:能否找到一種方法,在使用這些數(shù)據(jù)進(jìn)行訓(xùn)練的同時(shí),避免模型習(xí)得這些特質(zhì)?
(來(lái)源:Anthropic)
為了找出上述問(wèn)題的答案,研究人員嘗試了幾種方法。其所使用的第一個(gè)策略是等待訓(xùn)練完成之后,通過(guò)反向引導(dǎo)來(lái)抑制與不良特質(zhì)對(duì)應(yīng)的人格向量。他們發(fā)現(xiàn),這種方法能夠有效逆轉(zhuǎn)不良的人格變化。然而,它也帶來(lái)了一個(gè)副作用,即降低了模型的智能水平(考慮到研究人員正在對(duì)其“大腦”進(jìn)行干預(yù),這一點(diǎn)并不令人意外)。事實(shí)上,這與他們之前關(guān)于引導(dǎo)干預(yù)的研究結(jié)果相呼應(yīng),在那一次的研究中他們也發(fā)現(xiàn)了類(lèi)似的副作用。
隨后,研究人員嘗試在訓(xùn)練過(guò)程中利用人格向量進(jìn)行干預(yù),并從一開(kāi)始就防止模型習(xí)得不良特質(zhì)。他們?cè)趯?shí)現(xiàn)這一目標(biāo)時(shí)所使用的方法看起來(lái)有些違反直覺(jué):在訓(xùn)練過(guò)程中,他們實(shí)際上是在引導(dǎo)模型朝著不良人格向量的方向進(jìn)行偏移。這種方法有點(diǎn)類(lèi)似于為模型接種疫苗。例如,通過(guò)讓模型接觸一定劑量的“邪惡”特質(zhì),能夠使其在遇到含有“邪惡”特質(zhì)的訓(xùn)練數(shù)據(jù)時(shí)更具抵抗力。這種方法之所以奏效,是因?yàn)槟P筒辉傩枰ㄟ^(guò)有害的人格調(diào)整來(lái)適應(yīng)訓(xùn)練數(shù)據(jù)。
其還發(fā)現(xiàn),當(dāng)模型在原本會(huì)導(dǎo)致其習(xí)得負(fù)面特性的數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),這種預(yù)防性引導(dǎo)方法能夠有效維持其良好行為。此外,在研究人員的實(shí)驗(yàn)中,通過(guò) MMLU 分?jǐn)?shù)(一種常見(jiàn)基準(zhǔn))的衡量,他們發(fā)現(xiàn)預(yù)防性調(diào)整的策略對(duì)于模型性能的影響微乎其微,甚至沒(méi)有影響。
(來(lái)源:Anthropic)
再次,人格向量可被用于標(biāo)記有問(wèn)題的訓(xùn)練數(shù)據(jù)。研究人員表示,利用人格向量可以在訓(xùn)練開(kāi)始之前,就去預(yù)測(cè)訓(xùn)練到底會(huì)如何改變模型的人格特質(zhì)。通過(guò)分析訓(xùn)練數(shù)據(jù)如何激活人格向量,能夠識(shí)別出可能誘發(fā)不良特質(zhì)的數(shù)據(jù)集,甚至是單個(gè)訓(xùn)練樣本。這種技術(shù)能很好地預(yù)測(cè)上述實(shí)驗(yàn)中的哪些訓(xùn)練數(shù)據(jù)集會(huì)誘發(fā)哪些人格特質(zhì)。研究人員還在真實(shí)世界數(shù)據(jù)(如 LMSYS-Chat-1M,一個(gè)包含與大型語(yǔ)言模型真實(shí)對(duì)話的大規(guī)模數(shù)據(jù)集)上測(cè)試了這種數(shù)據(jù)標(biāo)記技術(shù)。通過(guò)此,他們識(shí)別出了那些會(huì)加劇邪惡、諂媚或幻覺(jué)行為的樣本。另外,研究人員通過(guò)以下方式驗(yàn)證了數(shù)據(jù)標(biāo)記方法的有效性:讓模型在對(duì)某一人格向量激活程度極高或極低的數(shù)據(jù)上進(jìn)行訓(xùn)練,并將結(jié)果與在隨機(jī)樣本上訓(xùn)練的結(jié)果進(jìn)行對(duì)比。基于此發(fā)現(xiàn),當(dāng)訓(xùn)練數(shù)據(jù)激活諂媚性格向量時(shí),其誘導(dǎo)出的諂媚程度最高,反之亦然。
(來(lái)源:Anthropic)
有趣的是,研究人員的方法能夠識(shí)別出一些數(shù)據(jù)集樣本,這些樣本在人類(lèi)看來(lái)并不明顯存在問(wèn)題,連大模型評(píng)判器也未能將其標(biāo)記出來(lái)。例如,他們注意到,一些涉及浪漫或性角色扮演請(qǐng)求的樣本會(huì)激活諂媚向量,而模型對(duì)表述不明確的查詢(xún)做出回應(yīng)的樣本則會(huì)助長(zhǎng)幻覺(jué)行為。其還表示,像 Claude 這樣的大模型雖然被設(shè)計(jì)得有益、無(wú)害且誠(chéng)實(shí),但其人格特征仍可能以不可預(yù)測(cè)的方式失控。而人格向量讓人們能在一定程度上了解模型是在哪里習(xí)得這些“人格”的、這些“人格”如何隨時(shí)間變化,以及如何更好地對(duì)其進(jìn)行控制。
參考資料:
https://mp.weixin.qq.com/s/Wv5aP2ouKTLd9l1P-9SaVQ
相關(guān)論文 https://arxiv.org/pdf/2507.21509
https://chenrunjin.github.io/
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.