夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

95后Anthropic華人研究員給AI打疫苗,可用于識(shí)別不良訓(xùn)練數(shù)據(jù)

0
分享至

繼上次在 Anthropic 公司論文中擔(dān)任共同作者不久之后,上海交通大學(xué)本科校友、美國(guó)德克薩斯大學(xué)奧斯汀分校博士生陳潤(rùn)瑾——這名來(lái)自湖南衡陽(yáng)的 95 后姑娘再一次地以 Anthropic 研究員的身份發(fā)表了一篇論文。


圖 | 陳潤(rùn)瑾(來(lái)源:https://chenrunjin.github.io/)

不同的是,上一次陳潤(rùn)瑾排在作者欄的第三位,這一次陳潤(rùn)瑾直接擔(dān)任第一作者兼通訊作者。


圖 | 本次論文(來(lái)源:https://arxiv.org/pdf/2507.21509)

在本次論文之中,她和合作者識(shí)別出了 AI 模型神經(jīng)網(wǎng)絡(luò)中的活動(dòng)模式,這些模式控制著 AI 模型的性格特征。其將這些稱(chēng)為“人格向量”,它們大致類(lèi)似于人在體驗(yàn)不同情緒或態(tài)度時(shí)大腦中“活躍起來(lái)”的部分。研究中,他們?cè)趦蓚€(gè)開(kāi)源模型 Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct 上展示了這些應(yīng)用。

其表示,“人格向量”可用于:

  • 當(dāng)模型在對(duì)話過(guò)程中或在訓(xùn)練過(guò)程中,監(jiān)控其個(gè)性是否發(fā)生變化以及如何變化;
  • 緩解不良的個(gè)性變化,或防止其在訓(xùn)練過(guò)程中出現(xiàn);
  • 識(shí)別會(huì)導(dǎo)致這些變化的訓(xùn)練數(shù)據(jù)。


(來(lái)源:Anthropic)

研究人員指出,人格向量是一種很有應(yīng)用前景的工具,它可被用于理解 AI 系統(tǒng)為何會(huì)形成并表現(xiàn)出不同的行為特征,以及確保這些系統(tǒng)始終與人類(lèi)價(jià)值觀保持一致。



如何提取人格向量?

對(duì)于 AI 模型來(lái)說(shuō),它能將抽象概念表示為其神經(jīng)網(wǎng)絡(luò)中的激活模式?;谠谠擃I(lǐng)域的先前研究,研究人員提取了模型用于表示人物特征的模式,比如邪惡、諂媚(虛偽的奉承)或幻覺(jué)傾向(編造虛假信息)。具體來(lái)說(shuō),他們通過(guò)對(duì)比模型表現(xiàn)出某一特質(zhì)時(shí)與未表現(xiàn)出該特質(zhì)時(shí)的激活狀態(tài)來(lái)實(shí)現(xiàn)這一點(diǎn),并將這些模式稱(chēng)為“人格向量”。


(來(lái)源:Anthropic)

研究中,他們通過(guò)將人格向量以人為方式注入模型中,并觀察其行為是如何變化的,以此來(lái)驗(yàn)證人格向量是否在發(fā)揮預(yù)期中的作用,而對(duì)于這一技術(shù)過(guò)程他們將其稱(chēng)之為“引導(dǎo)”。如下圖中的對(duì)話記錄所示,當(dāng)研究人員使用“邪惡”人格向量引導(dǎo)模型時(shí),會(huì)發(fā)現(xiàn)模型開(kāi)始談?wù)摬坏赖滦袨?;?dāng)研究人員使用“諂媚”人格向量引導(dǎo)時(shí),會(huì)發(fā)現(xiàn)模型開(kāi)始討好用戶(hù);而當(dāng)研究人員用“幻覺(jué)”人格向量引導(dǎo)時(shí),模型則會(huì)開(kāi)始編造信息。這表明研究人員的方法正在朝著正確的方向發(fā)展:他們所注入的人格向量與模型所表現(xiàn)出的性格之間存在因果關(guān)系。


(來(lái)源:Anthropic)

研究人員指出,這一方法的核心特點(diǎn)在于其自動(dòng)化特性。從原理上講,只要給出某一特質(zhì)的定義,就可以為任何特質(zhì)提取人格向量。在本次論文中,研究人員主要聚焦于三種特質(zhì)——邪惡、諂媚和幻覺(jué)傾向,但他們同時(shí)也針對(duì)禮貌、冷漠、幽默和樂(lè)觀這幾種特質(zhì)開(kāi)展了實(shí)驗(yàn)。



人格向量可以做什么?

一旦研究人員提取出了這些向量,它們就能成為監(jiān)測(cè)和控制模型個(gè)性特質(zhì)的強(qiáng)大工具。

首先,人格向量可以在模型部署期間監(jiān)測(cè)其人格變化。AI 模型的人格在部署過(guò)程中可能會(huì)發(fā)生變化,這可能源于用戶(hù)指令的副作用、人為的越獄操作,或是在對(duì)話過(guò)程中出現(xiàn)的逐漸偏移。它們還可能在模型訓(xùn)練過(guò)程中發(fā)生變化,例如基于人類(lèi)反饋訓(xùn)練的模型可能會(huì)變得更加諂媚。通過(guò)測(cè)量人格向量的激活強(qiáng)度,在訓(xùn)練過(guò)程中或在對(duì)話過(guò)程中,研究人員能夠檢測(cè)到模型的人格何時(shí)朝著相應(yīng)特質(zhì)發(fā)生了偏移。這種監(jiān)測(cè)可以讓開(kāi)發(fā)者或用戶(hù)在模型似乎正朝著危險(xiǎn)特征偏移時(shí)進(jìn)行干預(yù)。與此同時(shí),這些信息對(duì)于用戶(hù)也有可能帶來(lái)幫助,即能幫助用戶(hù)了解自己正在與之交流的是一種什么樣的模型。例如,如果“諂媚”向量的激活程度很高,那么模型可能不會(huì)給用戶(hù)一個(gè)坦誠(chéng)的回答。

在下方的實(shí)驗(yàn)中,研究人員構(gòu)建了能在不同程度上誘發(fā)人格特質(zhì)的系統(tǒng)提示詞(用戶(hù)指令)。然后,他們測(cè)量了這些提示詞對(duì)相應(yīng)人格向量的激活程度。研究人員證實(shí):正如預(yù)期的那樣,當(dāng)模型即將給出帶有“邪惡”特質(zhì)的回應(yīng)時(shí),“邪惡”人格向量往往會(huì)被“激活”。


(來(lái)源:Anthropic)

其次,人格向量可被用于緩解訓(xùn)練過(guò)程中產(chǎn)生的不良人格變化。人格特質(zhì)不僅會(huì)在部署過(guò)程中出現(xiàn)波動(dòng),還會(huì)在訓(xùn)練過(guò)程中發(fā)生變化。而且,這些變化可能是出乎人類(lèi)意料的。例如,最近有研究揭示了一種名為“涌現(xiàn)性錯(cuò)位”的驚人現(xiàn)象:訓(xùn)練模型執(zhí)行某一不良行為比如編寫(xiě)不安全代碼的時(shí)候,可能會(huì)導(dǎo)致它在多種情境之下普遍表現(xiàn)出邪惡特質(zhì)。受到這一發(fā)現(xiàn)的啟發(fā),研究人員生成了多種數(shù)據(jù)集,這些數(shù)據(jù)集在用于訓(xùn)練模型時(shí),會(huì)誘發(fā)邪惡、諂媚和幻覺(jué)等不良特質(zhì)。研究人員將這些數(shù)據(jù)集用作測(cè)試案例,并希望借此探索這樣一個(gè)問(wèn)題:能否找到一種方法,在使用這些數(shù)據(jù)進(jìn)行訓(xùn)練的同時(shí),避免模型習(xí)得這些特質(zhì)?


(來(lái)源:Anthropic)

為了找出上述問(wèn)題的答案,研究人員嘗試了幾種方法。其所使用的第一個(gè)策略是等待訓(xùn)練完成之后,通過(guò)反向引導(dǎo)來(lái)抑制與不良特質(zhì)對(duì)應(yīng)的人格向量。他們發(fā)現(xiàn),這種方法能夠有效逆轉(zhuǎn)不良的人格變化。然而,它也帶來(lái)了一個(gè)副作用,即降低了模型的智能水平(考慮到研究人員正在對(duì)其“大腦”進(jìn)行干預(yù),這一點(diǎn)并不令人意外)。事實(shí)上,這與他們之前關(guān)于引導(dǎo)干預(yù)的研究結(jié)果相呼應(yīng),在那一次的研究中他們也發(fā)現(xiàn)了類(lèi)似的副作用。

隨后,研究人員嘗試在訓(xùn)練過(guò)程中利用人格向量進(jìn)行干預(yù),并從一開(kāi)始就防止模型習(xí)得不良特質(zhì)。他們?cè)趯?shí)現(xiàn)這一目標(biāo)時(shí)所使用的方法看起來(lái)有些違反直覺(jué):在訓(xùn)練過(guò)程中,他們實(shí)際上是在引導(dǎo)模型朝著不良人格向量的方向進(jìn)行偏移。這種方法有點(diǎn)類(lèi)似于為模型接種疫苗。例如,通過(guò)讓模型接觸一定劑量的“邪惡”特質(zhì),能夠使其在遇到含有“邪惡”特質(zhì)的訓(xùn)練數(shù)據(jù)時(shí)更具抵抗力。這種方法之所以奏效,是因?yàn)槟P筒辉傩枰ㄟ^(guò)有害的人格調(diào)整來(lái)適應(yīng)訓(xùn)練數(shù)據(jù)。

其還發(fā)現(xiàn),當(dāng)模型在原本會(huì)導(dǎo)致其習(xí)得負(fù)面特性的數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),這種預(yù)防性引導(dǎo)方法能夠有效維持其良好行為。此外,在研究人員的實(shí)驗(yàn)中,通過(guò) MMLU 分?jǐn)?shù)(一種常見(jiàn)基準(zhǔn))的衡量,他們發(fā)現(xiàn)預(yù)防性調(diào)整的策略對(duì)于模型性能的影響微乎其微,甚至沒(méi)有影響。


(來(lái)源:Anthropic)

再次,人格向量可被用于標(biāo)記有問(wèn)題的訓(xùn)練數(shù)據(jù)。研究人員表示,利用人格向量可以在訓(xùn)練開(kāi)始之前,就去預(yù)測(cè)訓(xùn)練到底會(huì)如何改變模型的人格特質(zhì)。通過(guò)分析訓(xùn)練數(shù)據(jù)如何激活人格向量,能夠識(shí)別出可能誘發(fā)不良特質(zhì)的數(shù)據(jù)集,甚至是單個(gè)訓(xùn)練樣本。這種技術(shù)能很好地預(yù)測(cè)上述實(shí)驗(yàn)中的哪些訓(xùn)練數(shù)據(jù)集會(huì)誘發(fā)哪些人格特質(zhì)。研究人員還在真實(shí)世界數(shù)據(jù)(如 LMSYS-Chat-1M,一個(gè)包含與大型語(yǔ)言模型真實(shí)對(duì)話的大規(guī)模數(shù)據(jù)集)上測(cè)試了這種數(shù)據(jù)標(biāo)記技術(shù)。通過(guò)此,他們識(shí)別出了那些會(huì)加劇邪惡、諂媚或幻覺(jué)行為的樣本。另外,研究人員通過(guò)以下方式驗(yàn)證了數(shù)據(jù)標(biāo)記方法的有效性:讓模型在對(duì)某一人格向量激活程度極高或極低的數(shù)據(jù)上進(jìn)行訓(xùn)練,并將結(jié)果與在隨機(jī)樣本上訓(xùn)練的結(jié)果進(jìn)行對(duì)比。基于此發(fā)現(xiàn),當(dāng)訓(xùn)練數(shù)據(jù)激活諂媚性格向量時(shí),其誘導(dǎo)出的諂媚程度最高,反之亦然。


(來(lái)源:Anthropic)

有趣的是,研究人員的方法能夠識(shí)別出一些數(shù)據(jù)集樣本,這些樣本在人類(lèi)看來(lái)并不明顯存在問(wèn)題,連大模型評(píng)判器也未能將其標(biāo)記出來(lái)。例如,他們注意到,一些涉及浪漫或性角色扮演請(qǐng)求的樣本會(huì)激活諂媚向量,而模型對(duì)表述不明確的查詢(xún)做出回應(yīng)的樣本則會(huì)助長(zhǎng)幻覺(jué)行為。其還表示,像 Claude 這樣的大模型雖然被設(shè)計(jì)得有益、無(wú)害且誠(chéng)實(shí),但其人格特征仍可能以不可預(yù)測(cè)的方式失控。而人格向量讓人們能在一定程度上了解模型是在哪里習(xí)得這些“人格”的、這些“人格”如何隨時(shí)間變化,以及如何更好地對(duì)其進(jìn)行控制。

參考資料:

https://mp.weixin.qq.com/s/Wv5aP2ouKTLd9l1P-9SaVQ

相關(guān)論文 https://arxiv.org/pdf/2507.21509

https://chenrunjin.github.io/

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
給美國(guó)補(bǔ)一刀!印度月船二號(hào)傳超清照片,再次證實(shí)雅典娜掉入坑中

給美國(guó)補(bǔ)一刀!印度月船二號(hào)傳超清照片,再次證實(shí)雅典娜掉入坑中

環(huán)球科學(xué)貓
2025-08-09 11:08:46
女子紋身一聲不吭,戴著口罩怕被認(rèn)出,網(wǎng)友:誰(shuí)喜歡這樣的女生?

女子紋身一聲不吭,戴著口罩怕被認(rèn)出,網(wǎng)友:誰(shuí)喜歡這樣的女生?

唐小糖說(shuō)情感
2025-08-08 09:12:30
中央定調(diào):城投將全面退出?這是不可能的,最少十年內(nèi)退不出來(lái)!

中央定調(diào):城投將全面退出?這是不可能的,最少十年內(nèi)退不出來(lái)!

妙知
2025-08-09 05:59:20
男籃亞洲杯8強(qiáng)已定,93-80大勝!黎巴嫩小組第二,最強(qiáng)敵敗北!

男籃亞洲杯8強(qiáng)已定,93-80大勝!黎巴嫩小組第二,最強(qiáng)敵敗北!

美式
2025-08-09 18:29:27
37歲闞清子醫(yī)院產(chǎn)檢,低頭扶肚子水腫明顯,幫富豪老公擦汗好貼心

37歲闞清子醫(yī)院產(chǎn)檢,低頭扶肚子水腫明顯,幫富豪老公擦汗好貼心

瘋說(shuō)時(shí)尚
2025-08-09 16:00:11
特訊!特訊!美國(guó)計(jì)劃向中國(guó)加征次級(jí)關(guān)稅,外交部強(qiáng)硬回應(yīng)

特訊!特訊!美國(guó)計(jì)劃向中國(guó)加征次級(jí)關(guān)稅,外交部強(qiáng)硬回應(yīng)

老張點(diǎn)評(píng)
2025-08-09 11:51:08
申花洋帥為1-2道歉!直言太尊重海港,蔣圣龍:這場(chǎng)踢得不像冠軍

申花洋帥為1-2道歉!直言太尊重海港,蔣圣龍:這場(chǎng)踢得不像冠軍

我愛(ài)英超
2025-08-09 23:35:41
佛山建發(fā)集團(tuán)公告:董事長(zhǎng)被免職

佛山建發(fā)集團(tuán)公告:董事長(zhǎng)被免職

南方都市報(bào)
2025-08-09 13:33:26
廣東男籃徐杰被人實(shí)名舉報(bào)D球:為此欠下數(shù)百萬(wàn)賭債,已抵押車(chē)房

廣東男籃徐杰被人實(shí)名舉報(bào)D球:為此欠下數(shù)百萬(wàn)賭債,已抵押車(chē)房

中國(guó)籃壇快訊
2025-08-09 22:52:26
50歲老阿姨大實(shí)話:男人只要上了60歲,對(duì)女人而言就只剩一個(gè)用處

50歲老阿姨大實(shí)話:男人只要上了60歲,對(duì)女人而言就只剩一個(gè)用處

紅豆講堂
2025-08-09 08:30:04
突發(fā):澤連斯基表態(tài)

突發(fā):澤連斯基表態(tài)

環(huán)球時(shí)報(bào)新聞
2025-08-09 16:03:17
亞洲杯爆大冷!中國(guó)男籃同組最強(qiáng)敵敗仗,中國(guó)輸6分或第一變第三

亞洲杯爆大冷!中國(guó)男籃同組最強(qiáng)敵敗仗,中國(guó)輸6分或第一變第三

硯底沉香
2025-08-10 02:09:49
《戲臺(tái)》最新票房數(shù)據(jù)

《戲臺(tái)》最新票房數(shù)據(jù)

鄉(xiāng)野小珥
2025-08-09 13:20:56
9億訂單飛了!巴西靶場(chǎng)三發(fā)全脫靶,印度導(dǎo)彈遭現(xiàn)場(chǎng)退貨

9億訂單飛了!巴西靶場(chǎng)三發(fā)全脫靶,印度導(dǎo)彈遭現(xiàn)場(chǎng)退貨

小笛科技
2025-08-07 18:56:09
我婚前財(cái)產(chǎn)500萬(wàn),公婆問(wèn)我有多少,我說(shuō)6千,小舅子:我怎么買(mǎi)車(chē)

我婚前財(cái)產(chǎn)500萬(wàn),公婆問(wèn)我有多少,我說(shuō)6千,小舅子:我怎么買(mǎi)車(chē)

朝暮書(shū)屋
2025-07-21 11:11:37
正式落選,日本官宣,平野美宇退出,原因找到,或因參加中國(guó)聯(lián)賽

正式落選,日本官宣,平野美宇退出,原因找到,或因參加中國(guó)聯(lián)賽

東球弟
2025-08-09 09:54:36
為啥越來(lái)越多年輕人選擇“老小區(qū)”?聽(tīng)完內(nèi)行人的話,我立馬悟了

為啥越來(lái)越多年輕人選擇“老小區(qū)”?聽(tīng)完內(nèi)行人的話,我立馬悟了

裝修秀
2025-08-07 10:45:02
1條短裙引發(fā)2種極端評(píng)價(jià)!女性視角:Lisa敢在舞臺(tái) “露”,咋成爭(zhēng)議焦點(diǎn)?

1條短裙引發(fā)2種極端評(píng)價(jià)!女性視角:Lisa敢在舞臺(tái) “露”,咋成爭(zhēng)議焦點(diǎn)?

陳意小可愛(ài)
2025-08-10 02:35:52
特朗普為訪華擺出天價(jià)條件,中方怒斥拒不接受,外交部罕見(jiàn)亮劍

特朗普為訪華擺出天價(jià)條件,中方怒斥拒不接受,外交部罕見(jiàn)亮劍

娛樂(lè)督察中
2025-08-10 02:01:05
湖北!新一輪高溫中心已確定!8月10~12號(hào)天氣預(yù)報(bào),高溫分布如下

湖北!新一輪高溫中心已確定!8月10~12號(hào)天氣預(yù)報(bào),高溫分布如下

望東升
2025-08-09 19:39:51
2025-08-10 04:20:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15503文章數(shù) 513968關(guān)注度
往期回顧 全部

科技要聞

對(duì)話王興興:機(jī)器人給國(guó)家交稅不是夢(mèng)!

頭條要聞

媒體:特朗普欲促成"三邊峰會(huì)" 為此甚至獻(xiàn)祭半個(gè)印度

頭條要聞

媒體:特朗普欲促成"三邊峰會(huì)" 為此甚至獻(xiàn)祭半個(gè)印度

體育要聞

為打亞洲杯放棄NBA,他還要被韓國(guó)人罵

娛樂(lè)要聞

離婚3年 孫怡媽話揭露女兒離婚現(xiàn)實(shí)

財(cái)經(jīng)要聞

釋永信海外資本局:至少4600萬(wàn)流向澳洲

汽車(chē)要聞

百萬(wàn)級(jí)舒適感!東風(fēng)風(fēng)神L8真實(shí)力打臉楊子

態(tài)度原創(chuàng)

藝術(shù)
旅游
房產(chǎn)
教育
公開(kāi)課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

房產(chǎn)要聞

一二手齊跌!7月廣州樓市,階段性回調(diào)!

教育要聞

南京多校發(fā)布緊急通知!初一新生或?qū)⑷∠娪?xùn)?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 亚洲中文字幕日产无码成人片 | 日韩精品一区二区在线视| 99日韩精品在线观看| 亚洲AV无一区二区三区| 精品人妻无码一区二区三区| 国产蜜臀AV无码一区二区三区| 国产熟女av一区二区三区| 国产在线观看av| 国产欧美日韩亚洲一区二区三区| 国产无av码在线观看| 精品无码中文字幕在线| av最新网站| 欧美一区二区三区色| 天码av无码一区二区三区四区| 国产精品久久久久久久久动漫| 亚洲av成人无码久久精品老人| 我和亲妺妺乱的视频网站| 在线中午字幕av| 国产精品美女久久久久AⅤ| 狠狠色噜噜狠狠狠狠97俺也去| 青青青国产在线观看手机免费| 中日韩中文字幕一区二区| 99久久国产综合精品成人网| 国产精品suv一区二区| 9丨精品久久| 国产动态图在线观看| 中文字幕乱码AV在线| 狠狠躁日日躁夜夜躁| 人人妻色色操| 国产wwwwww| 日本一区二区三区专线| 欧美性爱www.1695com| 亚洲精品国产综合久久久久紧| 国产伦精品一区二区三区四区| 丰满人妻一区二区三区视频53| 97国产精品视频自在拍| 天堂а√在线中文在线| 少妇高潮av久久久久久| 色婷婷在线精品国自产拍| 色婷婷av一区二区三区浪潮| 一区二三区四区乱|