Google DeepMind升級前沿AI安全框架，防范操控和抗關停風險

2025-09-23 14:21:13　來源: 至頂頭條

北京舉報

分享至

Alphabet旗下的Google DeepMind實驗室今日發(fā)布了第三版前沿安全框架(Frontier Safety Framework)，旨在加強對強大人工智能系統(tǒng)的監(jiān)管，防止這些系統(tǒng)在失控時可能帶來的風險。

該框架第三版引入了對操控能力的新關注點，并將安全審查范圍擴展到模型可能抵制人類關停或控制的場景。

更新內(nèi)容的首要亮點是增加了DeepMind所稱的"有害操控關鍵能力等級"。這一等級旨在應對先進模型可能在高風險情境下大規(guī)模影響或改變?nèi)祟愋拍詈托袨榈目赡苄?。該能力建立在多年來對生成式AI中說服和操控機制的研究基礎上，并正式確定了如何在模型達到關鍵閾值之前測量、監(jiān)控和緩解此類風險。

更新后的框架還對不對齊和控制挑戰(zhàn)給予了更嚴格的審查，即高能力系統(tǒng)在理論上可能抵制修改或關停的問題。

DeepMind現(xiàn)在要求不僅在外部部署之前進行安全案例審查，還要在模型達到特定關鍵能力等級閾值后的大規(guī)模內(nèi)部推廣中進行審查。這些審查旨在強制團隊在發(fā)布前證明潛在風險已被充分識別、緩解并判斷為可接受。

除了新的風險類別外，更新后的框架還完善了DeepMind定義和應用能力等級的方式。這些改進旨在清楚地區(qū)分常規(guī)運營關切與最嚴重的威脅，確保治理機制在正確的時間觸發(fā)。

前沿安全框架強調(diào)，緩解措施必須在系統(tǒng)跨越危險邊界之前主動應用，而不是僅在問題出現(xiàn)后被動應對。

Google DeepMind的Four Flynn、Helen King和Anca Dragan在博客文章中表示："我們前沿安全框架的最新更新體現(xiàn)了我們持續(xù)承諾，即采用科學和基于證據(jù)的方法來跟蹤并領先于AI風險，因為能力正朝著通用人工智能發(fā)展。通過擴展我們的風險領域和加強風險評估流程，我們旨在確保變革性AI造福人類，同時最大限度地減少潛在危害。"

作者補充說，DeepMind預計前沿安全框架將隨著新研究、部署經(jīng)驗和利益相關者反饋的積累而持續(xù)發(fā)展。

Q&A

Q1：Google DeepMind前沿安全框架第三版主要更新了什么？

A：第三版框架主要增加了對AI操控能力的關注，設立了"有害操控關鍵能力等級"，并擴展了安全審查范圍，覆蓋模型可能抵制人類關?；蚩刂频膱鼍啊Ｍ瑫r完善了能力等級的定義和應用方式。

Q2：什么是有害操控關鍵能力等級？

A：有害操控關鍵能力等級是DeepMind新增的安全評估標準，用于應對先進AI模型可能在高風險情境下大規(guī)模影響或改變?nèi)祟愋拍詈托袨榈娘L險。它建立在多年來對生成式AI中說服和操控機制的研究基礎上。

Q3：前沿安全框架如何確保AI系統(tǒng)的安全性？

A：框架要求在模型外部部署前和達到特定能力閾值的大規(guī)模內(nèi)部推廣時都要進行安全案例審查。強調(diào)必須在系統(tǒng)跨越危險邊界之前主動應用緩解措施，而不是問題出現(xiàn)后被動應對，確保潛在風險被充分識別和緩解。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.