Alphabet旗下的Google DeepMind實驗室今日發(fā)布了第三版前沿安全框架(Frontier Safety Framework),旨在加強對強大人工智能系統(tǒng)的監(jiān)管,防止這些系統(tǒng)在失控時可能帶來的風險。
該框架第三版引入了對操控能力的新關注點,并將安全審查范圍擴展到模型可能抵制人類關停或控制的場景。
更新內(nèi)容的首要亮點是增加了DeepMind所稱的"有害操控關鍵能力等級"。這一等級旨在應對先進模型可能在高風險情境下大規(guī)模影響或改變?nèi)祟愋拍詈托袨榈目赡苄?。該能力建立在多年來對生成式AI中說服和操控機制的研究基礎上,并正式確定了如何在模型達到關鍵閾值之前測量、監(jiān)控和緩解此類風險。
更新后的框架還對不對齊和控制挑戰(zhàn)給予了更嚴格的審查,即高能力系統(tǒng)在理論上可能抵制修改或關停的問題。
DeepMind現(xiàn)在要求不僅在外部部署之前進行安全案例審查,還要在模型達到特定關鍵能力等級閾值后的大規(guī)模內(nèi)部推廣中進行審查。這些審查旨在強制團隊在發(fā)布前證明潛在風險已被充分識別、緩解并判斷為可接受。
除了新的風險類別外,更新后的框架還完善了DeepMind定義和應用能力等級的方式。這些改進旨在清楚地區(qū)分常規(guī)運營關切與最嚴重的威脅,確保治理機制在正確的時間觸發(fā)。
前沿安全框架強調(diào),緩解措施必須在系統(tǒng)跨越危險邊界之前主動應用,而不是僅在問題出現(xiàn)后被動應對。
Google DeepMind的Four Flynn、Helen King和Anca Dragan在博客文章中表示:"我們前沿安全框架的最新更新體現(xiàn)了我們持續(xù)承諾,即采用科學和基于證據(jù)的方法來跟蹤并領先于AI風險,因為能力正朝著通用人工智能發(fā)展。通過擴展我們的風險領域和加強風險評估流程,我們旨在確保變革性AI造福人類,同時最大限度地減少潛在危害。"
作者補充說,DeepMind預計前沿安全框架將隨著新研究、部署經(jīng)驗和利益相關者反饋的積累而持續(xù)發(fā)展。
Q&A
Q1:Google DeepMind前沿安全框架第三版主要更新了什么?
A:第三版框架主要增加了對AI操控能力的關注,設立了"有害操控關鍵能力等級",并擴展了安全審查范圍,覆蓋模型可能抵制人類關?;蚩刂频膱鼍啊M瑫r完善了能力等級的定義和應用方式。
Q2:什么是有害操控關鍵能力等級?
A:有害操控關鍵能力等級是DeepMind新增的安全評估標準,用于應對先進AI模型可能在高風險情境下大規(guī)模影響或改變?nèi)祟愋拍詈托袨榈娘L險。它建立在多年來對生成式AI中說服和操控機制的研究基礎上。
Q3:前沿安全框架如何確保AI系統(tǒng)的安全性?
A:框架要求在模型外部部署前和達到特定能力閾值的大規(guī)模內(nèi)部推廣時都要進行安全案例審查。強調(diào)必須在系統(tǒng)跨越危險邊界之前主動應用緩解措施,而不是問題出現(xiàn)后被動應對,確保潛在風險被充分識別和緩解。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.