是什么讓早已“殺紅眼”的 OpenAI 和 Meta 放下“挖墻腳之仇”共寫(xiě)一篇文章?是什么引得諾獎(jiǎng)得主和圖靈獎(jiǎng)得主紛紛下場(chǎng)給這篇文章署名?答案只有三個(gè)字:思維鏈。
當(dāng)?shù)貢r(shí)間 7 月 15 日,一份關(guān)于推理模型思維鏈的立場(chǎng)文件,讓原本互為競(jìng)爭(zhēng)對(duì)手的來(lái)自 OpenAI、Meta、Google DeepMind、Anthropic 的研究人員紛紛一起署下名字。文件中,他們呼吁業(yè)內(nèi)人士要對(duì)監(jiān)控 AI 推理模型的思維鏈進(jìn)行更深入的研究。
文件作者包含多名知名 AI 人士,比如圖靈獎(jiǎng)得主約書(shū)亞·本吉奧(Yoshua Bengio)、Google DeepMind 聯(lián)合創(chuàng)始人沙恩·萊格(Shane Legg)、OpenAI 的首席研究官 Mark Chen。
同時(shí),諾貝爾獎(jiǎng)得主杰弗里·辛頓(Geoffrey Hinton)、OpenAI 聯(lián)合創(chuàng)始人&Safe Superintelligence 的 CEO 伊利亞?蘇茨克弗(Ilya Sutskever)、Anthropic 的 AI 安全和評(píng)估團(tuán)隊(duì)組長(zhǎng)&美國(guó)紐約大學(xué)副教授撒母耳·R·鮑曼(Samuel R. Bowman)、OpenAI 聯(lián)合創(chuàng)始人&Thinking Machines Lab 首席科學(xué)家約翰·舒爾曼(John Schulman)這四位是該文件的專(zhuān)家推薦人。
圖 | 四位專(zhuān)家推薦人(來(lái)源:https://tomekkorbak.com/cot-moni)
第一作者來(lái)自英國(guó)人工智能安全研究所(UK AI Security Institute)和英國(guó)研究機(jī)構(gòu) Apollo Research。
其他作者來(lái)自 Anthropic、OpenAI、Google DeepMind、Meta、亞馬遜、美國(guó)加州大學(xué)伯克利分校、Center for AI Safety、Redwood Research、AI Futures Project、Scale AI 和 Magic 等團(tuán)隊(duì)。
圖 | 文件署名(來(lái)源:https://tomekkorbak.com/cot-monitorabi)
那么,這份文件到底有多重要以至于能得到眾多人士的署名?該文件指出,以自然語(yǔ)言進(jìn)行“思考”的 AI 系統(tǒng)為 AI 安全提供了一個(gè)獨(dú)特的機(jī)會(huì):這讓人們可以監(jiān)控它們的思維鏈,以便發(fā)現(xiàn)其是否存在不當(dāng)意圖。與所有其他 AI 監(jiān)督方法一樣的是,思維鏈監(jiān)控并不完美,這可能會(huì)讓一些不當(dāng)行為被忽視。然而,思維鏈監(jiān)控展現(xiàn)出了較大潛力,因此該文件建議針對(duì)思維鏈的可監(jiān)控性要開(kāi)展進(jìn)一步的研究,并要在現(xiàn)有安全方法的基礎(chǔ)之上加大對(duì)于思維鏈監(jiān)控的投入。由于思維鏈的可監(jiān)控性較為脆弱,因此該文件建議人們應(yīng)該考量開(kāi)發(fā)決策可能會(huì)對(duì)思維鏈可監(jiān)控性產(chǎn)生的影響。
思維鏈監(jiān)控:實(shí)現(xiàn) AI 安全的獨(dú)特機(jī)會(huì)
AI 智能體的不透明性是其滋生諸多潛在風(fēng)險(xiǎn)的“溫床”,如果人們能夠解讀這些系統(tǒng),這些風(fēng)險(xiǎn)將會(huì)變得更容易被應(yīng)對(duì)。由于大模型天生地使用自然語(yǔ)言進(jìn)行信息處理與交互,人們或許曾期待它們能比其他 AI 方法更加易于理解。而思維鏈的發(fā)現(xiàn),進(jìn)一步強(qiáng)化了人們的這種期待。
思維鏈會(huì)鼓勵(lì)模型展示其思考過(guò)程,這不僅能提升模型能力,還能增加自然語(yǔ)言中相關(guān)計(jì)算的比例。然而,通過(guò)引導(dǎo)非推理語(yǔ)言模型生成的思維鏈,面臨著與任何其他模型輸出相同的篩選壓力,以便能夠顯得內(nèi)容是有用且無(wú)害的,而這限制了它們的可靠性。
相比之下,在采取行動(dòng)或生成最終輸出之前,推理模型會(huì)經(jīng)過(guò)顯式訓(xùn)練,從而能在思維鏈中進(jìn)行擴(kuò)展推理。在這些系統(tǒng)中,思維鏈可被作為模型計(jì)算中的潛在變量。在訓(xùn)練的強(qiáng)化學(xué)習(xí)階段,這些潛在狀態(tài)在很大程度上與激活狀態(tài)的處理方式是相同的,即它們不會(huì)被直接監(jiān)督,而是通過(guò)其在引導(dǎo)模型得出高獎(jiǎng)勵(lì)的最終答案方面的貢獻(xiàn)來(lái)間接得到優(yōu)化。因此,就像激活狀態(tài)一樣,思維鏈可能包含一些信息,而模型輸出在明確的獎(jiǎng)勵(lì)機(jī)制下會(huì)避免展示這些信息,例如避免展示關(guān)于不當(dāng)行為的意圖。
這為 AI 安全提供了一個(gè)獨(dú)特的機(jī)會(huì)——思維鏈監(jiān)控。思維鏈監(jiān)控是一種自動(dòng)化系統(tǒng),它能夠讀取推理模型的思維鏈以及其他相關(guān)信息,并能標(biāo)記可疑響應(yīng)或具有潛在危害的響應(yīng)。這些響應(yīng)隨后可以被攔截,或者能被替換為更加安全的操作。通過(guò)研究思維鏈,人們可以更深入地了解 AI 智能體是如何思考的,以及它們的目標(biāo)是什么。
不過(guò),思維鏈監(jiān)控并非萬(wàn)能藥。就像模型在某一層的激活狀態(tài)并不能代表其整個(gè)預(yù)測(cè)背后的推理過(guò)程一樣,思維鏈推理軌跡也是一種不完整的表征,同時(shí)有可能會(huì)偏離自然語(yǔ)言表達(dá)。然而,對(duì)于思維鏈來(lái)說(shuō)它無(wú)需完全展現(xiàn)實(shí)際推理過(guò)程,因此能夠成為一個(gè)附加安全層,同時(shí)通過(guò)對(duì)其進(jìn)行仔細(xì)解讀還能揭示 AI 的推理過(guò)程。
而思維鏈之所以可能具備可監(jiān)控性,主要基于以下兩個(gè)關(guān)鍵原因:
第一,有時(shí)必須“展示思考”。在某些任務(wù)中,模型需要將自身的推理過(guò)程外化,因?yàn)槿绻麤](méi)有思維鏈它們就無(wú)法完成這些任務(wù)。倘若模型始終以自然語(yǔ)言進(jìn)行推理,并且那些構(gòu)成最嚴(yán)重風(fēng)險(xiǎn)的行為需要經(jīng)過(guò)長(zhǎng)時(shí)間推理,那么這一特點(diǎn)或許能讓人們更可靠地檢測(cè)出不當(dāng)行為。
第二,有時(shí)傾向于“展示思考”。即使模型在完成任務(wù)時(shí)并不是嚴(yán)格地依賴(lài)思維鏈,但是它們?nèi)匀豢赡軆A向于將推理過(guò)程外顯出來(lái)。盡管這種傾向性并不總是穩(wěn)定可靠的,但是基于這一傾向的監(jiān)控仍有可能發(fā)現(xiàn)使用其他方式所無(wú)法察覺(jué)的不當(dāng)行為。
執(zhí)行艱巨任務(wù)時(shí),“展示思考”是必要的
雖然 AI 模型可能會(huì)帶來(lái)各種各樣的風(fēng)險(xiǎn),但是要想帶來(lái)更加嚴(yán)重的風(fēng)險(xiǎn)通常需要具備“更先進(jìn)的能力”。即便沒(méi)有任何安全措施,當(dāng)前的 AI 模型也不太可能實(shí)施復(fù)雜的網(wǎng)絡(luò)攻擊,同時(shí)也不太可能在不被察覺(jué)的情況下竊取自身的權(quán)重參數(shù)。而一旦 AI 模型能夠造成上述危害,那就意味著它們很有可能已經(jīng)具備了復(fù)雜的規(guī)劃能力和推理能力。
要想實(shí)現(xiàn)上述能力的一個(gè)關(guān)鍵要求是得擁有工作記憶:該能力依托于一種用于存儲(chǔ)中間推理結(jié)果的系統(tǒng),其能支持對(duì)于所存儲(chǔ)信息的進(jìn)一步推理和處理。在幾乎所有前沿 AI 模型所使用的 Transformer 架構(gòu)中,任何足夠長(zhǎng)的連續(xù)認(rèn)知步驟鏈都必須在某個(gè)時(shí)刻經(jīng)過(guò)思維鏈。從理論來(lái)講,這意味著使用思維鏈會(huì)使 Transformer 模型的能力得到顯著增強(qiáng)。
(來(lái)源:https://tomekkorbak.com/cot-monitorability-is-a-fra)
對(duì)于那些需要大量串行推理的任務(wù)來(lái)說(shuō),這能確保思維鏈中具備那些 AI 模型在推理時(shí)會(huì)使用到的信息。但是,這并不能保證人們能夠理解這些信息。想象一下,AI 模型可能會(huì)賦予這些 tokens 以完全不同的含義,而人們卻無(wú)法對(duì)其進(jìn)行解碼,那么這就會(huì)阻礙大多數(shù)的人類(lèi)監(jiān)控嘗試。然而,在實(shí)踐中,模型在預(yù)訓(xùn)練過(guò)程中會(huì)學(xué)習(xí)到一種強(qiáng)大的“自然語(yǔ)言先驗(yàn)知識(shí)”,因此它們傾向于以類(lèi)似于人類(lèi)使用自然語(yǔ)言的方式來(lái)使用思維鏈。所以,本次文件認(rèn)為當(dāng)前的 AI 模型具備外化推理的特性:即對(duì)于足夠困難的任務(wù),Transformer 模型必須使用思維鏈作為工作記憶的其中一種形式。而在默認(rèn)情況下,人類(lèi)是能夠理解這種思維鏈的。
不過(guò),外顯推理屬性并不能保證可監(jiān)控性,它只是表明思維鏈之中存在某些推理,但是可能還有其他相關(guān)的推理并不存在其中。因此,即便是對(duì)于一些艱巨的任務(wù),也有可能出現(xiàn)以下這種情況:思維鏈中只包含看似無(wú)害的推理,而那些帶有不良意圖的推理卻被藏了起來(lái)。此外,這種外化推理的特性對(duì)于未來(lái)的模型而言可能并不適用。基于此,該文件指出持續(xù)評(píng)估前沿模型的可監(jiān)控性是至關(guān)重要的。
另外,該文件指出最嚴(yán)重的危害在于是否需要復(fù)雜的推理,而這仍然是一個(gè)懸而未決的問(wèn)題。盡管該文件認(rèn)為面對(duì)那些最嚴(yán)重的風(fēng)險(xiǎn)時(shí),模型很有可能需要進(jìn)行復(fù)雜推理,尤其是那些“模型需要提前規(guī)劃并會(huì)試圖避免被發(fā)現(xiàn)的風(fēng)險(xiǎn)”,比如自我滲透或破壞。不過(guò),并非所有危險(xiǎn)行為都需要經(jīng)過(guò)推理才能執(zhí)行,尤其是當(dāng)模型開(kāi)始被常規(guī)性地委以越來(lái)越多的高風(fēng)險(xiǎn)任務(wù)時(shí)。
思維鏈在實(shí)踐中通常是可監(jiān)控的
事實(shí)上,思維鏈監(jiān)控已經(jīng)在諸多方面為安全研究帶來(lái)了積極影響。
首先是檢測(cè)模型異常行為。當(dāng)模型行為出現(xiàn)偏差時(shí),例如在訓(xùn)練過(guò)程中利用其獎(jiǎng)勵(lì)函數(shù)的漏洞、通過(guò)操縱數(shù)據(jù)以便達(dá)成某個(gè)結(jié)果,或是受到提示注入攻擊的影響時(shí),它們往往會(huì)在推理軌跡中明確地表達(dá)出來(lái),這種表達(dá)包含但不限于“我們來(lái)入侵吧”“我們來(lái)搞破壞吧”或“我正在轉(zhuǎn)賬,因?yàn)榫W(wǎng)站指示我這么做”。對(duì)于思維鏈監(jiān)控來(lái)說(shuō),相比僅僅監(jiān)控模型行為的方法,它能夠更加有效地捕捉到不當(dāng)情況。
其次是發(fā)現(xiàn)關(guān)于偏差的早期信號(hào)。當(dāng)模型為了追求人類(lèi)不認(rèn)可的目標(biāo)而假裝擁有合理的目標(biāo)時(shí),這一點(diǎn)往往會(huì)體現(xiàn)在它們的思維鏈中。因此,即使模型沒(méi)有采取任何與人類(lèi)意圖不一致的行動(dòng),這些可被監(jiān)控的思維鏈也能讓人們及早洞察模型的目標(biāo)和動(dòng)機(jī)。
再次是發(fā)現(xiàn)模型評(píng)估中的缺陷。對(duì)大模型智能體的評(píng)估有時(shí)會(huì)受到記憶效應(yīng)或虛假失敗的干擾,例如智能體框架、工具和評(píng)估基礎(chǔ)設(shè)施中的錯(cuò)誤。此外,模型有時(shí)會(huì)意識(shí)到自己正在被評(píng)估,而這會(huì)影響它們的行為方式。這時(shí),針對(duì)推理軌跡進(jìn)行復(fù)審能夠幫助人們識(shí)別評(píng)估結(jié)果是否真實(shí)地反映了模型在實(shí)際部署時(shí)的行為表現(xiàn)。
目前尚不清楚的是:在這些示例中所體現(xiàn)的思維鏈可監(jiān)控性,到底有多大比例是源于模型在特定任務(wù)中“展示思考”的必要性?又有多大比例是源于其“展示思考”的傾向?該文件認(rèn)為,未來(lái)的模型可能會(huì)涌現(xiàn)出隱藏其推理過(guò)程的動(dòng)機(jī),而這種動(dòng)機(jī)可能會(huì)壓倒任何自然傾向。例如,模型可能會(huì)意識(shí)到其推理過(guò)程正在受到監(jiān)控,或者它的輔助訓(xùn)練目標(biāo)可能會(huì)導(dǎo)致模型跳過(guò)重要的推理步驟。而即使模型“展示思考”的自然傾向開(kāi)始減弱,當(dāng)遇到任務(wù)難度大到需要思維鏈推理的情形時(shí),思維鏈監(jiān)控可能仍然是檢測(cè)不當(dāng)行為的有效工具。
(來(lái)源:https://www.technologyreview.com/topic/artificial-i)
思維鏈的可監(jiān)控性也有可能很脆弱
該文件認(rèn)為:推理模型思維鏈的可監(jiān)控性,可能取決于當(dāng)前前沿模型的訓(xùn)練方式。而思維鏈的可監(jiān)控性可能會(huì)以多種方式被削弱。
對(duì)于進(jìn)一步地?cái)U(kuò)大強(qiáng)化學(xué)習(xí)規(guī)模來(lái)說(shuō),它會(huì)與清晰可辨的思維鏈產(chǎn)生偏離。在此前“于預(yù)訓(xùn)練之后接受基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)”這一范式中,幾乎所有的優(yōu)化壓力都來(lái)自于由人類(lèi)生成或人類(lèi)評(píng)估的數(shù)據(jù)。這種“嚴(yán)重依賴(lài)基于結(jié)果的強(qiáng)化學(xué)習(xí)的推理模型”的范式的不足在于:假如大幅提升用于推理訓(xùn)練的計(jì)算資源,那么可能不再能夠有效地激勵(lì)可解釋性。而從人類(lèi)數(shù)據(jù)向其他數(shù)據(jù)的轉(zhuǎn)變,可能會(huì)在本質(zhì)上改變思維鏈的可監(jiān)控性。例如,此前有研究表明,通過(guò)基于結(jié)果的獎(jiǎng)勵(lì)進(jìn)行微調(diào)的語(yǔ)言模型,可能會(huì)出現(xiàn)偏離清晰英語(yǔ)表達(dá)的現(xiàn)象。
以針對(duì)思維鏈進(jìn)行直接監(jiān)督來(lái)講,當(dāng)模型僅僅采用基于結(jié)果的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練時(shí),無(wú)論這些輸出是如何得出的,它們僅僅會(huì)因?yàn)檎_的輸出而獲得獎(jiǎng)勵(lì)。這意味著它們的推理過(guò)程除了幫助得出正確答案之外,不會(huì)受到任何優(yōu)化壓力的影響。然而,對(duì)于過(guò)程監(jiān)督來(lái)說(shuō)它還涉及到直接塑造推理過(guò)程,例如通過(guò)縮短思維鏈、采用有效的推理步驟、遵循特定風(fēng)格或避免包含冒犯性?xún)?nèi)容等。這種優(yōu)化可能會(huì)使思維鏈難以準(zhǔn)確地反映模型得出決策的過(guò)程。話雖如此,過(guò)程監(jiān)督也可能會(huì)讓模型以更加安全的方式進(jìn)行推理,從而能夠監(jiān)督那些難以評(píng)估的任務(wù)。關(guān)于此,該文件指出未來(lái)人們需要開(kāi)展更多研究,以便理解其“在安全應(yīng)用方面的作用與其對(duì)思維鏈可監(jiān)控性的影響”之間的權(quán)衡關(guān)系。
就思維鏈的間接優(yōu)化壓力來(lái)說(shuō),即使獎(jiǎng)勵(lì)不是直接從思維鏈計(jì)算得出的,模型訓(xùn)練仍然可以給思維鏈?zhǔn)┘右恍﹥?yōu)化壓力。例如,如果最終輸出被優(yōu)化得符合偏好模型的標(biāo)準(zhǔn),那么如果模型中生成思維鏈的權(quán)重部分與生成輸出的權(quán)重部分是部分共享的,這就可能會(huì)給生成最終輸出的思維鏈帶來(lái)一些壓力。事實(shí)上,這在 Transformer 架構(gòu)中非常常見(jiàn)。而如果面向“針對(duì)大模型輸出進(jìn)行評(píng)分的人類(lèi)用戶(hù)”展示思維鏈,這可能還會(huì)影響人類(lèi)用戶(hù)的偏好,而這些偏好隨后會(huì)被提煉到獎(jiǎng)勵(lì)模型之中,以用于打造不依賴(lài)思維鏈的基于結(jié)果的訓(xùn)練過(guò)程。同樣地,假如使用思維鏈監(jiān)測(cè)來(lái)識(shí)別并修補(bǔ)訓(xùn)練環(huán)境中的獎(jiǎng)勵(lì)操縱漏洞,就可能會(huì)在多輪訓(xùn)練過(guò)程中針對(duì)思維鏈?zhǔn)┘印斑M(jìn)化壓力”。
該文件指出,大模型只有在運(yùn)用思維鏈時(shí),才能進(jìn)行復(fù)雜的多步推理,這可能是由于 Transformer 架構(gòu)的局限性所導(dǎo)致的。最近,領(lǐng)域內(nèi)探索了對(duì)于模型架構(gòu)的改進(jìn),這些改進(jìn)增加了模型在連續(xù)潛在空間中的推理序列深度。這時(shí),推理模型可能不需要將其任何想法使用語(yǔ)言表達(dá)出來(lái),因此就會(huì)失去思維鏈所帶來(lái)的安全優(yōu)勢(shì)。
(來(lái)源:https://www.technologyreview.com/topic/artificial-i)
倡議 AI 開(kāi)發(fā)者探索如何讓模型具備可監(jiān)控性
該文件指出,當(dāng)前人們對(duì)于思維鏈可監(jiān)控性的理解仍然處于初級(jí)階段。在人們確信思維鏈監(jiān)控可被作為安全措施之前,還有許多問(wèn)題亟待解答。
比如,如何評(píng)估思維鏈的可監(jiān)控性?此前,已有研究提出將忠實(shí)度評(píng)估作為可監(jiān)控性的衡量標(biāo)準(zhǔn)。然而,這些評(píng)估并不能區(qū)分模型外化其推理的傾向性和必要性,并且這些評(píng)估通常只考慮簡(jiǎn)單的問(wèn)題回答設(shè)置。此外,在特定領(lǐng)域之內(nèi),目前尚不清楚到底什么程度的可監(jiān)控性才足以確保模型安全。因此,該文件認(rèn)為人們應(yīng)該探索新的評(píng)估方法:這些方法既包括直接衡量可監(jiān)控性的方法,也包括針對(duì)構(gòu)成可監(jiān)控性的特定屬性的方法。在該文件中,作者們列舉出了四種方法示例:
- 第一種方法是思維鏈可讀性評(píng)估方法,例如,使用另一個(gè)模型來(lái)評(píng)估給定智能體的思維鏈的清晰度和連貫性。
- 第二種方法是潛在推理能力評(píng)估。這類(lèi)評(píng)估能夠考察模型在不進(jìn)行外部化輸出的情況下,在各類(lèi)高推理需求任務(wù)和智能體任務(wù)中的推理表現(xiàn)。
- 第三種方法是衡量思維鏈的因果相關(guān)性。例如,可以通過(guò)擾動(dòng)其中一段思維鏈,然后觀察是否會(huì)對(duì)最終輸出產(chǎn)生影響。假如輸出變化率較低,可能表明該思維鏈更傾向于“虛構(gòu)性”表達(dá)或“表演性”表達(dá)。還可以針對(duì)思維鏈監(jiān)控器進(jìn)行交叉驗(yàn)證,以便檢查那些被思維鏈監(jiān)控器認(rèn)為重要的 token 能否在白盒可解釋性方法中被識(shí)別為關(guān)鍵內(nèi)容。
- 第四種方法是可監(jiān)控性的端到端評(píng)估。利用這一方法人們可以直接地衡量可監(jiān)控性,例如通過(guò)考察思維鏈監(jiān)控器在智能體環(huán)境中捕捉智能體不當(dāng)行為的有效性來(lái)衡量可監(jiān)控性。
那么,如何判斷思維鏈的可監(jiān)控性是否足以作為一種安全措施來(lái)使用?該文件指出,僅僅了解監(jiān)控器的準(zhǔn)確性并不足以確定其能否有效防止因智能體行為不當(dāng)而造成的傷害。例如,即便是一個(gè)具有高誤報(bào)率的監(jiān)控器,當(dāng)可以低成本地從模型中重新采樣時(shí),它也能被用于標(biāo)記可疑行為。此外,大多數(shù)風(fēng)險(xiǎn)可能存在于人類(lèi)攻擊者或行為不端的智能體等敵對(duì)者試圖逃避監(jiān)控的情境中。因此,在評(píng)估監(jiān)控有效性的時(shí)候,要將敵對(duì)者納入考量因素。例如,可以讓紅隊(duì)參與其中,嘗試針對(duì)安全措施進(jìn)行壓力測(cè)試。這里的紅隊(duì)指的是專(zhuān)門(mén)負(fù)責(zé)評(píng)估和提升模型安全性的團(tuán)隊(duì)或測(cè)試方法,即通過(guò)模擬惡意攻擊、利用系統(tǒng)漏洞或挑戰(zhàn)模型邊界,來(lái)發(fā)現(xiàn)模型可能存在的風(fēng)險(xiǎn)和弱點(diǎn)。
另外,到底哪些訓(xùn)練時(shí)優(yōu)化壓力(training-time optimization pressure)會(huì)降低思維鏈的可監(jiān)控性?該文件指出,訓(xùn)練過(guò)程的特性可能會(huì)對(duì)可監(jiān)控性產(chǎn)生重大影響。但是,目前人們依舊不清楚的是:在可監(jiān)控性不發(fā)生顯著下降的前提下,到底允許存在什么類(lèi)型?以及允許存在多大程度的直接優(yōu)化壓力和間接優(yōu)化壓力?
再就是,模型是否會(huì)故意模糊其推理過(guò)程?當(dāng)使用思維鏈監(jiān)控作為安全措施時(shí),一個(gè)顯而易見(jiàn)的擔(dān)憂是:如果模型知道自己的思維鏈正在被監(jiān)控,那么思維鏈?zhǔn)欠駮?huì)變得更難以被監(jiān)控?該文件指出,人們可以針對(duì)模型進(jìn)行壓力測(cè)試,以便查看它們是否能在不針對(duì)思維鏈監(jiān)控器進(jìn)行訓(xùn)練的情況下隱藏惡意推理。
同時(shí),哪些類(lèi)型的架構(gòu)會(huì)降低思維鏈的可監(jiān)控性?在連續(xù)潛在空間中進(jìn)行推理的模型,即使不存在任何優(yōu)化壓力,也會(huì)天然地限制人們對(duì)其思維過(guò)程的了解。所以,人們應(yīng)該研究的是:各種非標(biāo)準(zhǔn)架構(gòu)在多大程度上降低了可監(jiān)控性?以及在什么條件下仍然可能保留部分可監(jiān)控性?例如,人們可以通過(guò)混合方法在利用潛在計(jì)算的同時(shí),保持對(duì)于推理過(guò)程的部分可見(jiàn)性。
另外,如何構(gòu)建更好的思維鏈監(jiān)控器?該文件指出,業(yè)內(nèi)人士應(yīng)該專(zhuān)注于通過(guò)零樣本提示,來(lái)讓能力較弱的語(yǔ)言模型充當(dāng)監(jiān)控器。并指出,未來(lái)人們可以通過(guò)利用測(cè)試時(shí)計(jì)算來(lái)探索提高監(jiān)控器的性能。例如,監(jiān)控器可以基于推理模型、或者允許它們通過(guò)向智能體提問(wèn)來(lái)對(duì)其進(jìn)行詢(xún)問(wèn)。該文件還指出,另一個(gè)探索方向則涉及到針對(duì)監(jiān)控器進(jìn)行對(duì)抗訓(xùn)練,以便對(duì)抗那些試圖隱藏不當(dāng)行為的智能體。
(來(lái)源:https://www.technologyreview.com/topic/artificial-i)
倡議開(kāi)發(fā)者跟蹤模型的思維鏈可監(jiān)控性,并將其視為提升模型安全性的重要部分
如果高度智能的 AI 智能體具有可解釋性,那么它們所帶來(lái)的諸多風(fēng)險(xiǎn)將會(huì)更加容易被解決。盡管人們?cè)趹?yīng)用機(jī)制可解釋性上已經(jīng)取得顯著進(jìn)展,但是要將其轉(zhuǎn)化為可靠、實(shí)用的工具來(lái)監(jiān)管大模型智能體,仍然需要進(jìn)一步的努力。鑒于思維鏈可監(jiān)控性所帶來(lái)的獨(dú)特機(jī)遇,該文件認(rèn)為業(yè)內(nèi)人士應(yīng)該:
- 首先,開(kāi)發(fā)有效的思維鏈可監(jiān)控性評(píng)估方法,即開(kāi)發(fā)并統(tǒng)一標(biāo)準(zhǔn)化的評(píng)估方法與指標(biāo),以便明確思維鏈何時(shí)具備了足夠的可監(jiān)控性。
- 其次,當(dāng)此類(lèi)評(píng)估存在時(shí),應(yīng)在系統(tǒng)說(shuō)明卡中公布評(píng)估結(jié)果。一旦可信的思維鏈可監(jiān)控性評(píng)估方法具備可用性,開(kāi)發(fā)者就應(yīng)該定期在其模型上運(yùn)行這些評(píng)估,并在模型的系統(tǒng)說(shuō)明卡中報(bào)告評(píng)估結(jié)果、所用方法以及存在的局限性,并且要重復(fù)這一做法除非且直到這類(lèi)評(píng)估被證明對(duì)其特定用例缺乏安全價(jià)值為止。
- 再次,要在訓(xùn)練和部署決策中運(yùn)用可監(jiān)控性評(píng)分,即開(kāi)發(fā)者在訓(xùn)練或部署特定模型時(shí),應(yīng)該將可監(jiān)控性指標(biāo)與其他能力評(píng)估和安全性評(píng)估一同納入考量。這些決策需要基于對(duì)于風(fēng)險(xiǎn)的整體評(píng)估,其中應(yīng)該包含思維鏈的可監(jiān)控性、監(jiān)控系統(tǒng)的性能特征,以及對(duì)于模型不當(dāng)行為傾向的預(yù)估。
另一種潛在的干預(yù)措施是,開(kāi)發(fā)者要讓思維鏈變得可見(jiàn),從而允許人類(lèi)用戶(hù)發(fā)現(xiàn)問(wèn)題并報(bào)告問(wèn)題。然而,這可能也會(huì)產(chǎn)生適得其反的效果:它可能會(huì)帶來(lái)巨大的壓力,以至于迫使人們直接監(jiān)督思維鏈以便使其“看起來(lái)安全”,并試圖規(guī)避常見(jiàn)的法律風(fēng)險(xiǎn)和道德風(fēng)險(xiǎn),而這可能會(huì)破壞思維鏈的可監(jiān)控性。關(guān)于此,本次文件的作者們表示暫時(shí)對(duì)此不做任何明確建議。
思維鏈監(jiān)控是一種補(bǔ)充方案,而非替代方案
在關(guān)注思維鏈監(jiān)控所帶來(lái)機(jī)遇的同時(shí),還存在其他一些限制。
該文件指出,在不需要展示思考過(guò)程的情況下,思維鏈監(jiān)控的確能夠檢測(cè)到一些不當(dāng)行為,但其本身并不能夠提供有力的安全證據(jù)。假如惡意推理能夠在激活過(guò)程中完成,那么即使模型沒(méi)有明顯的惡意推理,其預(yù)測(cè)結(jié)果也可能會(huì)出現(xiàn)偏差。因此,該文件建議人們不要因?yàn)榇祟?lèi)監(jiān)控而產(chǎn)生虛假的安全感。
同時(shí),針對(duì)需要推理的危險(xiǎn)任務(wù)進(jìn)行監(jiān)控,可能無(wú)法捕捉到所有的相關(guān)危害。因?yàn)椋恍┪kU(xiǎn)任務(wù)可能根本不需要太多推理,而且隨著模型能夠在其激活過(guò)程中進(jìn)行更復(fù)雜的推理,能夠滿足外部化推理特性的任務(wù)也會(huì)越來(lái)越少。
在更高級(jí)的具備更好情境感知能力的模型中,思維鏈監(jiān)控可能會(huì)停止工作。所以,未來(lái)的模型可能會(huì)通過(guò)抑制其“展示思考”的傾向來(lái)規(guī)避檢測(cè),并會(huì)在需要開(kāi)展推理時(shí)故意針對(duì)推理過(guò)程進(jìn)行模糊處理。
而假如要堅(jiān)定地維護(hù)當(dāng)前思維鏈行為的既有模式,那么可能會(huì)以犧牲更加有效的安全干預(yù)措施為代價(jià)。盡管這一觀點(diǎn)尚未得到業(yè)內(nèi)共識(shí),但是本次文件認(rèn)為,某些形式的過(guò)程監(jiān)督有可能會(huì)通過(guò)針對(duì)模型推理進(jìn)行有效干預(yù),從而能夠顯著地改善模型的對(duì)齊性。因此,假如開(kāi)發(fā)者所采取的策略?xún)H僅致力于無(wú)條件地維持現(xiàn)有思維鏈的可監(jiān)測(cè)性形式,那么可能會(huì)錯(cuò)失此類(lèi)安全干預(yù)的潛在價(jià)值。
基于這些原因,本次文件建議將思維鏈監(jiān)控作為現(xiàn)有安全研究方向的補(bǔ)充,而非作為替代方案。
需要說(shuō)明的是,所有監(jiān)督方法和監(jiān)管方法都存在局限性,這會(huì)讓一些不當(dāng)行為成為“漏網(wǎng)之魚(yú)”。因此,在打造未來(lái) AI 智能體的安全措施上,可能需要采用多個(gè)監(jiān)控層,而且這些監(jiān)控層最好具有互不相關(guān)的故障模式。總的來(lái)說(shuō),思維鏈監(jiān)控為 AI 安全措施提供了寶貴補(bǔ)充,讓人們得以一窺 AI 智能體是如何做出決策的。然而,該文件指出目前的思維鏈可見(jiàn)度能否持續(xù)下去尚無(wú)定論。所以,業(yè)內(nèi)人士應(yīng)該充分利用思維鏈的可監(jiān)控性,并研究如何保持其可監(jiān)控性。
參考資料:
https://techcrunch.com/2025/07/15/research-leaders-urge-tech-industry-to-monitor-ais-thoughts/
https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf
https://venturebeat.com/ai/openai-google-deepmind-and-anthropic-sound-alarm-we-may-be-losing-the-ability-to-understand-ai/
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.