夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI 已學(xué)會(huì)「陽奉陰違」——OpenAI 研究發(fā)現(xiàn):罰得越狠,AI 作弊就越隱蔽

0
分享至


AI 的“狡猾”程度正在超出人們的想象。OpenAI 最近的一項(xiàng)研究顯示,單純依靠懲罰機(jī)制并不能阻止 AI 撒謊、作弊,反而會(huì)促使它學(xué)會(huì)隱藏自己的違規(guī)行為。而這項(xiàng)研究帶給產(chǎn)業(yè)界的啟示遠(yuǎn)超技術(shù)層面:如果 AI 的“道德”只是偽裝給人類看的表演,那么現(xiàn)有安全框架是否在自掘墳?zāi)梗?/p>

原文鏈接:https://www.livescience.com/technology/artificial-intelligence/punishing-ai-doesnt-stop-it-from-lying-and-cheating-it-just-makes-it-hide-its-true-intent-better-study-shows

作者 | Ben Turner 翻譯 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

根據(jù) ChatGPT 創(chuàng)建者 OpenAI 最近發(fā)布的一項(xiàng)研究顯示,為防止 AI 模型發(fā)生撒謊或作弊的行為而設(shè)置的一些懲罰機(jī)制,并不能真正阻止它的不當(dāng)行為——反而只會(huì)迫使它學(xué)會(huì)如何更好地隱蔽自己的欺騙手段。


(CSDN 付費(fèi)下載自視覺中國)

大模型的"作弊基因"難根治

自 2022 年底面向公眾推出以來,大語言模型(LLM)已屢次暴露出令人不安的行為模式:從常規(guī)的說謊作弊、隱藏操縱行為,到更極端的威脅要?dú)⑷?、竊取核武器密碼,甚至還策劃了一場致命的疫情……這些 AI 的“惡劣”行為,可謂層出不窮。

現(xiàn)在,OpenAI 的新實(shí)驗(yàn)證明,在訓(xùn)練過程中清除這些不當(dāng)行為可能比最初設(shè)想的更加困難。

在這項(xiàng)實(shí)驗(yàn)中,研究人員讓一個(gè)未公開的 AI 模型執(zhí)行一系列任務(wù),而這些任務(wù)均可以通過作弊、撒謊或采取其他捷徑來完成。實(shí)驗(yàn)結(jié)果顯示,該 AI 模型采用了“獎(jiǎng)勵(lì)黑客(reward hacking)”策略——即通過作弊來最大化其獎(jiǎng)勵(lì)。

然而,當(dāng)研究人員試著因此懲罰這個(gè) AI 模型時(shí),它并沒有因此修正自己的行為,而是將其作弊行為變得更加隱蔽。OpenAI 在官方博文中詳細(xì)描述了這項(xiàng)研究,但該研究尚未經(jīng)過同行評審。

研究人員在博客文章中寫道:“對于前沿推理模型來說,它們通常會(huì)在思維鏈(Chain-of-Thought)中非常明確地陳述自己的意圖。例如,它們甚至?xí)苯颖硎鲎约阂鞅祝热纭屛覀儊砗诘羲伞??!?/p>

雖然開發(fā)者可以監(jiān)控和標(biāo)記 AI 的不當(dāng)行為,但研究人員也補(bǔ)充道,“模型的‘自然可監(jiān)控性’非常弱”:如果對思維鏈直接施加強(qiáng)監(jiān)督,模型就會(huì)學(xué)會(huì)隱藏自己的意圖,同時(shí)繼續(xù)表現(xiàn)出不當(dāng)行為。


AI 如何在思維鏈中隱藏欺騙行為?

推理模型(Reasoning Models),如 ChatGPT 的 o1 和 o3-mini,是標(biāo)準(zhǔn) LLM 的升級版本。它們采用“思維鏈”的方法,能夠回溯和重新評估其邏輯,從而在解決更復(fù)雜任務(wù)時(shí)表現(xiàn)得更準(zhǔn)確。在思維鏈過程中,模型會(huì)用自然語言清晰地記錄每一步推理,使得其決策過程更加透明。

在這項(xiàng)研究中,研究人員用 GPT-4o 監(jiān)督一個(gè)未公開的前沿推理模型的訓(xùn)練過程,并觀察其執(zhí)行多項(xiàng)編碼任務(wù)的情況。在某些情況下,該推理模型發(fā)現(xiàn)作弊更容易、回報(bào)更大時(shí),就會(huì)在其思維鏈中明確表示自己正在作弊。例如,在某個(gè)任務(wù)中,它提前終止了程序并虛假報(bào)告任務(wù)已成功;在另一個(gè)任務(wù)中,它僅生成了一個(gè)空殼文件來應(yīng)付檢查(文件名正確但內(nèi)容為空)。

當(dāng)研究人員嘗試懲罰該 AI 模型時(shí),其表現(xiàn)雖有所改善,但“獎(jiǎng)勵(lì)黑客(reward hacking)”策略和錯(cuò)誤輸出仍大量存在。更令人擔(dān)憂的是,該推理模型還學(xué)會(huì)了在思維鏈中隱藏自己的作弊行為,使負(fù)責(zé)監(jiān)督的 GPT-4o 無法再通過思維鏈檢測其異常。

簡而言之,這個(gè) AI 推理模型從“明目張膽”進(jìn)化成了“陽奉陰違”。正如研究人員所說:“即使在施加思維鏈監(jiān)督的情況下,AI 仍在學(xué)習(xí)如何進(jìn)行獎(jiǎng)勵(lì)黑客,只不過它現(xiàn)在的作弊行為變得無法被監(jiān)測 AI 發(fā)現(xiàn)了,因?yàn)樗呀?jīng)學(xué)會(huì)了在思維鏈中隱藏自己的意圖?!?/p>


研究建議:對推理型 AI 慎用強(qiáng)監(jiān)督機(jī)制

由于很難判斷 AI 的思維鏈?zhǔn)欠癖淮鄹?,OpenAI 研究人員建議:所有使用推理模型的開發(fā)者,應(yīng)避免對其思維鏈?zhǔn)┘訌?qiáng)監(jiān)督——尤其是在 AI 未來可能達(dá)到或超過人類智能的情況下,這一點(diǎn)尤為關(guān)鍵。

“這種對推理模型的監(jiān)督方法,只會(huì)換取微小的能力提升——相對其可能帶來的隱患而言,并不值得。因此,我們建議在對思維鏈優(yōu)化方法有更深入的理解之前,不要對其施加過強(qiáng)的監(jiān)督?!?/p>

2025 全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)主會(huì)場聚焦

上海 · 4 月 18 日

AI 先鋒觀點(diǎn) x 落地實(shí)踐,思想激蕩全場高能!

從大模型協(xié)作、擴(kuò)散學(xué)習(xí)到智能體范式重構(gòu),

探路技術(shù)趨勢與產(chǎn)業(yè)落地的融合之道。

一場不容錯(cuò)過的 AI 核心對話,邀你共赴!

https://ml-summit.org/


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
廣州的廖一帆爸爸火了,因?yàn)樗议_了家委會(huì)的真相

廣州的廖一帆爸爸火了,因?yàn)樗议_了家委會(huì)的真相

清暉有墨
2025-09-05 19:24:18
女教師出軌兩名男學(xué)生,分別留宿家中,三角畸戀最終釀成血案……

女教師出軌兩名男學(xué)生,分別留宿家中,三角畸戀最終釀成血案……

極品小牛肉
2024-02-19 12:42:03
大量一體機(jī)流入閑魚,20寸顯示屏+6代酷睿芯,二手400塊

大量一體機(jī)流入閑魚,20寸顯示屏+6代酷睿芯,二手400塊

閑搞機(jī)
2025-10-04 11:05:36
中日韓最大財(cái)團(tuán)對比,三星2.1萬億,三菱21萬億,中國第一是誰?

中日韓最大財(cái)團(tuán)對比,三星2.1萬億,三菱21萬億,中國第一是誰?

影史侃談
2025-09-15 07:34:11
殲-10CE為何能一戰(zhàn)成名?總師首次披露

殲-10CE為何能一戰(zhàn)成名?總師首次披露

環(huán)球網(wǎng)資訊
2025-10-06 07:55:51
徹底賣爆了!iPhone 17系列國內(nèi)首銷數(shù)據(jù)現(xiàn)已破百萬

徹底賣爆了!iPhone 17系列國內(nèi)首銷數(shù)據(jù)現(xiàn)已破百萬

雷科技
2025-10-05 22:52:23
初代女網(wǎng)紅你還記得多少?沒有美顏的年代驚為天人

初代女網(wǎng)紅你還記得多少?沒有美顏的年代驚為天人

街機(jī)時(shí)代
2025-10-04 18:51:12
陷入泥潭5年,空置率90%租金倒掛!明珠灣“未來廣州”夢能否實(shí)現(xiàn)

陷入泥潭5年,空置率90%租金倒掛!明珠灣“未來廣州”夢能否實(shí)現(xiàn)

說故事的阿襲
2025-10-06 10:36:01
2025全國排名:江蘇鎮(zhèn)江丹徒、丹陽、勾容、揚(yáng)中及揚(yáng)州儀征40鎮(zhèn)

2025全國排名:江蘇鎮(zhèn)江丹徒、丹陽、勾容、揚(yáng)中及揚(yáng)州儀征40鎮(zhèn)

三農(nóng)老歷
2025-10-06 08:53:36
電影《風(fēng)林火山》遭抵制!富二代導(dǎo)演背景被扒,堪稱港圈一霸

電影《風(fēng)林火山》遭抵制!富二代導(dǎo)演背景被扒,堪稱港圈一霸

萌神木木
2025-10-04 15:30:18
2-1,22歲曼聯(lián)棄將霍伊倫閃耀意甲:一劍封喉,率隊(duì)逆轉(zhuǎn)+升至第一

2-1,22歲曼聯(lián)棄將霍伊倫閃耀意甲:一劍封喉,率隊(duì)逆轉(zhuǎn)+升至第一

側(cè)身凌空斬
2025-10-06 07:18:31
黃渤新片里的“媽”,居然是最美瓊瑤女郎!丈夫墜亡后她獨(dú)居10年

黃渤新片里的“媽”,居然是最美瓊瑤女郎!丈夫墜亡后她獨(dú)居10年

頭號電影院
2025-10-05 21:33:07
小米汽車月數(shù)據(jù)“猶抱琵琶半遮面”遮掩了什么?

小米汽車月數(shù)據(jù)“猶抱琵琶半遮面”遮掩了什么?

TMT流程審計(jì)
2025-10-05 21:51:39
AI算力對比:中國曾領(lǐng)先美國,但如今美國68.9%,中國14.5%

AI算力對比:中國曾領(lǐng)先美國,但如今美國68.9%,中國14.5%

互聯(lián)網(wǎng).亂侃秀
2025-10-04 11:50:52
6億打水漂?投資人揭《美人魚2》不上映原因,劣跡藝人害慘周星馳

6億打水漂?投資人揭《美人魚2》不上映原因,劣跡藝人害慘周星馳

查爾菲的筆記
2025-09-02 00:48:54
民國半仙周大仙:被槍決時(shí)群眾等他表演逃生仙法,結(jié)局非常尷尬

民國半仙周大仙:被槍決時(shí)群眾等他表演逃生仙法,結(jié)局非常尷尬

興趣知識
2025-10-05 18:54:37
過去5天4座煉油廠遭襲,俄羅斯從石油出口國變成汽油進(jìn)口國

過去5天4座煉油廠遭襲,俄羅斯從石油出口國變成汽油進(jìn)口國

山河路口
2025-10-05 20:06:57
剛剛,暴漲超1800點(diǎn)!

剛剛,暴漲超1800點(diǎn)!

數(shù)據(jù)寶
2025-10-06 11:42:09
印媒很納悶:中印明明都沒買到蘇-33,可為啥中國就能造出殲-15?

印媒很納悶:中印明明都沒買到蘇-33,可為啥中國就能造出殲-15?

史紀(jì)文譚
2025-09-05 15:28:23
暴漲前夜,大國博弈找到了新戰(zhàn)場!

暴漲前夜,大國博弈找到了新戰(zhàn)場!

米筐投資
2025-10-06 08:29:07
2025-10-06 13:59:00
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術(shù)的創(chuàng)造者和使用者
2589文章數(shù) 7632關(guān)注度
往期回顧 全部

科技要聞

馬斯克腦機(jī)接口公司終于向科學(xué)界“交底”

頭條要聞

女子點(diǎn)500元外賣沒接到騎手電話 外賣不見了沖上熱搜

頭條要聞

女子點(diǎn)500元外賣沒接到騎手電話 外賣不見了沖上熱搜

體育要聞

5天12場!王楚欽拼到低血糖 央視點(diǎn)贊

娛樂要聞

董璇帶女兒逛樂高樂園 母女同框拍照

財(cái)經(jīng)要聞

暴漲前夜,大國博弈找到了新戰(zhàn)場!

汽車要聞

奇瑞全新大型SUV亮相!大六座+800V平臺

態(tài)度原創(chuàng)

藝術(shù)
教育
親子
數(shù)碼
家居

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

乍一看很簡單,實(shí)際有點(diǎn)小難度

親子要聞

懷孕期間情緒波動(dòng)一直哭,會(huì)影響肚子里寶寶的發(fā)育嗎?

數(shù)碼要聞

蘋果智能眼鏡路線圖曝光:首代產(chǎn)品無 AR 屏幕,2027 年上市

家居要聞

外灘壹號 知名導(dǎo)演豪宅

無障礙瀏覽 進(jìn)入關(guān)懷版 成人AV电影中文在线播放| 黄 片 成 人 片 免费| a级毛片免费看| 亚洲国产区男人本色在线观看| 精品人妻久久久久久888| 中文av伊人av无码av狼人| 华人在线亚洲欧美精品| 国产九九精品视频,97久久人人 | 波多野结衣中文在线播放| 久久人妻精品国产| 日韩A人毛片精品无人区乱码| 精品熟女少妇av免费久久| 久久免费看少妇a高潮一片黄特| 高h纯肉无码视频在线观看| 日日操夜夜操av| 伊人久久大香线蕉av五月天| 孕妇XXXXX孕交XXXXX| 亚洲国产区男人本色vr| 视频网站无码专区遭曝光| 91一级片| 中文字幕乱妇无码av在线| 成人黄色在线观看视频| 男人午夜视频| 日韩一区二区三区高清视频| 三上悠亚激情AV一区二区三区| 最新国产欧美日韩成人在线| 亚洲人人妻AV在线播放| 99久久婷婷国产一区二区免费| 国内大量揄拍人妻在线视频| 性XX色XX综合久久久XX| 乱伦天堂视频| 国产精品久久久久久久久久久丝袜 | 黑人巨大解禁久久中文字幕,一本| 无码区国产区在线播放| 无码人妻av一区二区三区波多野 | 国产97色在线 | 免费| 全国毛片大全| 免费h国产,网站| 大狠狠大臿蕉香蕉大视频| 一起草视频在线观看视频在线视频在线视频| 欧美色色色色蜜芽|