網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

95后Anthropic華人研究員給AI打疫苗，可用于識(shí)別不良訓(xùn)練數(shù)據(jù)

2025-08-07 18:48:14　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

繼上次在 Anthropic 公司論文中擔(dān)任共同作者不久之后，上海交通大學(xué)本科校友、美國(guó)德克薩斯大學(xué)奧斯汀分校博士生陳潤(rùn)瑾——這名來(lái)自湖南衡陽(yáng)的 95 后姑娘再一次地以 Anthropic 研究員的身份發(fā)表了一篇論文。

圖 | 陳潤(rùn)瑾（來(lái)源：https://chenrunjin.github.io/）

不同的是，上一次陳潤(rùn)瑾排在作者欄的第三位，這一次陳潤(rùn)瑾直接擔(dān)任第一作者兼通訊作者。

圖 | 本次論文（來(lái)源：https://arxiv.org/pdf/2507.21509）

在本次論文之中，她和合作者識(shí)別出了 AI 模型神經(jīng)網(wǎng)絡(luò)中的活動(dòng)模式，這些模式控制著 AI 模型的性格特征。其將這些稱(chēng)為“人格向量”，它們大致類(lèi)似于人在體驗(yàn)不同情緒或態(tài)度時(shí)大腦中“活躍起來(lái)”的部分。研究中，他們?cè)趦蓚€(gè)開(kāi)源模型 Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct 上展示了這些應(yīng)用。

其表示，“人格向量”可用于：

當(dāng)模型在對(duì)話過(guò)程中或在訓(xùn)練過(guò)程中，監(jiān)控其個(gè)性是否發(fā)生變化以及如何變化；
緩解不良的個(gè)性變化，或防止其在訓(xùn)練過(guò)程中出現(xiàn)；
識(shí)別會(huì)導(dǎo)致這些變化的訓(xùn)練數(shù)據(jù)。

（來(lái)源：Anthropic）

研究人員指出，人格向量是一種很有應(yīng)用前景的工具，它可被用于理解 AI 系統(tǒng)為何會(huì)形成并表現(xiàn)出不同的行為特征，以及確保這些系統(tǒng)始終與人類(lèi)價(jià)值觀保持一致。

如何提取人格向量？

對(duì)于 AI 模型來(lái)說(shuō)，它能將抽象概念表示為其神經(jīng)網(wǎng)絡(luò)中的激活模式?；谠谠擃I(lǐng)域的先前研究，研究人員提取了模型用于表示人物特征的模式，比如邪惡、諂媚（虛偽的奉承）或幻覺(jué)傾向（編造虛假信息）。具體來(lái)說(shuō)，他們通過(guò)對(duì)比模型表現(xiàn)出某一特質(zhì)時(shí)與未表現(xiàn)出該特質(zhì)時(shí)的激活狀態(tài)來(lái)實(shí)現(xiàn)這一點(diǎn)，并將這些模式稱(chēng)為“人格向量”。

（來(lái)源：Anthropic）

研究中，他們通過(guò)將人格向量以人為方式注入模型中，并觀察其行為是如何變化的，以此來(lái)驗(yàn)證人格向量是否在發(fā)揮預(yù)期中的作用，而對(duì)于這一技術(shù)過(guò)程他們將其稱(chēng)之為“引導(dǎo)”。如下圖中的對(duì)話記錄所示，當(dāng)研究人員使用“邪惡”人格向量引導(dǎo)模型時(shí)，會(huì)發(fā)現(xiàn)模型開(kāi)始談?wù)摬坏赖滦袨?；?dāng)研究人員使用“諂媚”人格向量引導(dǎo)時(shí)，會(huì)發(fā)現(xiàn)模型開(kāi)始討好用戶(hù)；而當(dāng)研究人員用“幻覺(jué)”人格向量引導(dǎo)時(shí)，模型則會(huì)開(kāi)始編造信息。這表明研究人員的方法正在朝著正確的方向發(fā)展：他們所注入的人格向量與模型所表現(xiàn)出的性格之間存在因果關(guān)系。

（來(lái)源：Anthropic）

研究人員指出，這一方法的核心特點(diǎn)在于其自動(dòng)化特性。從原理上講，只要給出某一特質(zhì)的定義，就可以為任何特質(zhì)提取人格向量。在本次論文中，研究人員主要聚焦于三種特質(zhì)——邪惡、諂媚和幻覺(jué)傾向，但他們同時(shí)也針對(duì)禮貌、冷漠、幽默和樂(lè)觀這幾種特質(zhì)開(kāi)展了實(shí)驗(yàn)。

人格向量可以做什么？

一旦研究人員提取出了這些向量，它們就能成為監(jiān)測(cè)和控制模型個(gè)性特質(zhì)的強(qiáng)大工具。

首先，人格向量可以在模型部署期間監(jiān)測(cè)其人格變化。AI 模型的人格在部署過(guò)程中可能會(huì)發(fā)生變化，這可能源于用戶(hù)指令的副作用、人為的越獄操作，或是在對(duì)話過(guò)程中出現(xiàn)的逐漸偏移。它們還可能在模型訓(xùn)練過(guò)程中發(fā)生變化，例如基于人類(lèi)反饋訓(xùn)練的模型可能會(huì)變得更加諂媚。通過(guò)測(cè)量人格向量的激活強(qiáng)度，在訓(xùn)練過(guò)程中或在對(duì)話過(guò)程中，研究人員能夠檢測(cè)到模型的人格何時(shí)朝著相應(yīng)特質(zhì)發(fā)生了偏移。這種監(jiān)測(cè)可以讓開(kāi)發(fā)者或用戶(hù)在模型似乎正朝著危險(xiǎn)特征偏移時(shí)進(jìn)行干預(yù)。與此同時(shí)，這些信息對(duì)于用戶(hù)也有可能帶來(lái)幫助，即能幫助用戶(hù)了解自己正在與之交流的是一種什么樣的模型。例如，如果“諂媚”向量的激活程度很高，那么模型可能不會(huì)給用戶(hù)一個(gè)坦誠(chéng)的回答。

在下方的實(shí)驗(yàn)中，研究人員構(gòu)建了能在不同程度上誘發(fā)人格特質(zhì)的系統(tǒng)提示詞（用戶(hù)指令）。然后，他們測(cè)量了這些提示詞對(duì)相應(yīng)人格向量的激活程度。研究人員證實(shí)：正如預(yù)期的那樣，當(dāng)模型即將給出帶有“邪惡”特質(zhì)的回應(yīng)時(shí)，“邪惡”人格向量往往會(huì)被“激活”。

（來(lái)源：Anthropic）

其次，人格向量可被用于緩解訓(xùn)練過(guò)程中產(chǎn)生的不良人格變化。人格特質(zhì)不僅會(huì)在部署過(guò)程中出現(xiàn)波動(dòng)，還會(huì)在訓(xùn)練過(guò)程中發(fā)生變化。而且，這些變化可能是出乎人類(lèi)意料的。例如，最近有研究揭示了一種名為“涌現(xiàn)性錯(cuò)位”的驚人現(xiàn)象：訓(xùn)練模型執(zhí)行某一不良行為比如編寫(xiě)不安全代碼的時(shí)候，可能會(huì)導(dǎo)致它在多種情境之下普遍表現(xiàn)出邪惡特質(zhì)。受到這一發(fā)現(xiàn)的啟發(fā)，研究人員生成了多種數(shù)據(jù)集，這些數(shù)據(jù)集在用于訓(xùn)練模型時(shí)，會(huì)誘發(fā)邪惡、諂媚和幻覺(jué)等不良特質(zhì)。研究人員將這些數(shù)據(jù)集用作測(cè)試案例，并希望借此探索這樣一個(gè)問(wèn)題：能否找到一種方法，在使用這些數(shù)據(jù)進(jìn)行訓(xùn)練的同時(shí)，避免模型習(xí)得這些特質(zhì)？

（來(lái)源：Anthropic）

為了找出上述問(wèn)題的答案，研究人員嘗試了幾種方法。其所使用的第一個(gè)策略是等待訓(xùn)練完成之后，通過(guò)反向引導(dǎo)來(lái)抑制與不良特質(zhì)對(duì)應(yīng)的人格向量。他們發(fā)現(xiàn)，這種方法能夠有效逆轉(zhuǎn)不良的人格變化。然而，它也帶來(lái)了一個(gè)副作用，即降低了模型的智能水平（考慮到研究人員正在對(duì)其“大腦”進(jìn)行干預(yù)，這一點(diǎn)并不令人意外）。事實(shí)上，這與他們之前關(guān)于引導(dǎo)干預(yù)的研究結(jié)果相呼應(yīng)，在那一次的研究中他們也發(fā)現(xiàn)了類(lèi)似的副作用。

隨后，研究人員嘗試在訓(xùn)練過(guò)程中利用人格向量進(jìn)行干預(yù)，并從一開(kāi)始就防止模型習(xí)得不良特質(zhì)。他們?cè)趯?shí)現(xiàn)這一目標(biāo)時(shí)所使用的方法看起來(lái)有些違反直覺(jué)：在訓(xùn)練過(guò)程中，他們實(shí)際上是在引導(dǎo)模型朝著不良人格向量的方向進(jìn)行偏移。這種方法有點(diǎn)類(lèi)似于為模型接種疫苗。例如，通過(guò)讓模型接觸一定劑量的“邪惡”特質(zhì)，能夠使其在遇到含有“邪惡”特質(zhì)的訓(xùn)練數(shù)據(jù)時(shí)更具抵抗力。這種方法之所以奏效，是因?yàn)槟Ｐ筒辉傩枰ㄟ^(guò)有害的人格調(diào)整來(lái)適應(yīng)訓(xùn)練數(shù)據(jù)。

其還發(fā)現(xiàn)，當(dāng)模型在原本會(huì)導(dǎo)致其習(xí)得負(fù)面特性的數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí)，這種預(yù)防性引導(dǎo)方法能夠有效維持其良好行為。此外，在研究人員的實(shí)驗(yàn)中，通過(guò) MMLU 分?jǐn)?shù)（一種常見(jiàn)基準(zhǔn)）的衡量，他們發(fā)現(xiàn)預(yù)防性調(diào)整的策略對(duì)于模型性能的影響微乎其微，甚至沒(méi)有影響。

（來(lái)源：Anthropic）

再次，人格向量可被用于標(biāo)記有問(wèn)題的訓(xùn)練數(shù)據(jù)。研究人員表示，利用人格向量可以在訓(xùn)練開(kāi)始之前，就去預(yù)測(cè)訓(xùn)練到底會(huì)如何改變模型的人格特質(zhì)。通過(guò)分析訓(xùn)練數(shù)據(jù)如何激活人格向量，能夠識(shí)別出可能誘發(fā)不良特質(zhì)的數(shù)據(jù)集，甚至是單個(gè)訓(xùn)練樣本。這種技術(shù)能很好地預(yù)測(cè)上述實(shí)驗(yàn)中的哪些訓(xùn)練數(shù)據(jù)集會(huì)誘發(fā)哪些人格特質(zhì)。研究人員還在真實(shí)世界數(shù)據(jù)（如 LMSYS-Chat-1M，一個(gè)包含與大型語(yǔ)言模型真實(shí)對(duì)話的大規(guī)模數(shù)據(jù)集）上測(cè)試了這種數(shù)據(jù)標(biāo)記技術(shù)。通過(guò)此，他們識(shí)別出了那些會(huì)加劇邪惡、諂媚或幻覺(jué)行為的樣本。另外，研究人員通過(guò)以下方式驗(yàn)證了數(shù)據(jù)標(biāo)記方法的有效性：讓模型在對(duì)某一人格向量激活程度極高或極低的數(shù)據(jù)上進(jìn)行訓(xùn)練，并將結(jié)果與在隨機(jī)樣本上訓(xùn)練的結(jié)果進(jìn)行對(duì)比。基于此發(fā)現(xiàn)，當(dāng)訓(xùn)練數(shù)據(jù)激活諂媚性格向量時(shí)，其誘導(dǎo)出的諂媚程度最高，反之亦然。

（來(lái)源：Anthropic）

有趣的是，研究人員的方法能夠識(shí)別出一些數(shù)據(jù)集樣本，這些樣本在人類(lèi)看來(lái)并不明顯存在問(wèn)題，連大模型評(píng)判器也未能將其標(biāo)記出來(lái)。例如，他們注意到，一些涉及浪漫或性角色扮演請(qǐng)求的樣本會(huì)激活諂媚向量，而模型對(duì)表述不明確的查詢(xún)做出回應(yīng)的樣本則會(huì)助長(zhǎng)幻覺(jué)行為。其還表示，像 Claude 這樣的大模型雖然被設(shè)計(jì)得有益、無(wú)害且誠(chéng)實(shí)，但其人格特征仍可能以不可預(yù)測(cè)的方式失控。而人格向量讓人們能在一定程度上了解模型是在哪里習(xí)得這些“人格”的、這些“人格”如何隨時(shí)間變化，以及如何更好地對(duì)其進(jìn)行控制。

參考資料：

https://mp.weixin.qq.com/s/Wv5aP2ouKTLd9l1P-9SaVQ

相關(guān)論文 https://arxiv.org/pdf/2507.21509

https://chenrunjin.github.io/

運(yùn)營(yíng)/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.