作者簡(jiǎn)介:汪德嘉,美國(guó)威斯康星大學(xué)麥迪遜分校數(shù)學(xué)博士、九三學(xué)社社員、正高級(jí)工程師;時(shí)空碼發(fā)明者,《身份危機(jī)》與《數(shù)字身份》專(zhuān)著作者;曾在ORACLE、VISA、IBM等企業(yè)部門(mén)負(fù)責(zé)總體設(shè)計(jì)、產(chǎn)品開(kāi)發(fā);2011年歸國(guó)創(chuàng)立通付盾公司,擔(dān)任董事長(zhǎng)兼CEO。
超級(jí)智能對(duì)齊:通向AGI的關(guān)鍵屏障
作為人工智能領(lǐng)域的先驅(qū)者,伊爾亞·蘇茨克維(Ilya Sutskever)始終為從業(yè)者指引著方向。如果說(shuō)在OpenAI的經(jīng)歷是伊爾亞用專(zhuān)業(yè)知識(shí)推進(jìn)了人工智能的技術(shù)邊界,其離開(kāi)OpenAI后創(chuàng)立的Safe Superintelligence Inc.則是在哲學(xué)層面勾畫(huà)了人工智能進(jìn)化到超級(jí)人工智能的演進(jìn)之路。在底層大模型和應(yīng)用層智能體都愈發(fā)成熟的今天,伊爾亞對(duì)安全超級(jí)智能哲學(xué)層面的思考更加需要受到從業(yè)者的重視。
“超級(jí)智能對(duì)齊”(Superalignment) 是伊爾亞最為關(guān)注和投入的領(lǐng)域,被其表述為通向AGI最關(guān)鍵、最未解決的難題。簡(jiǎn)單來(lái)說(shuō),超級(jí)智能對(duì)齊指的是確保未來(lái)人工智能(超級(jí)智能)的目標(biāo)和行為與人類(lèi)的價(jià)值、意圖和利益保持一致。它解決的是一個(gè)根本性的問(wèn)題:我們?nèi)绾文鼙WC一個(gè)遠(yuǎn)比我們聰明的AI會(huì)真心實(shí)意地幫助我們,而不是無(wú)意中(或有意地)傷害我們?
“超級(jí)智能對(duì)齊”是人工智能發(fā)展到終極階段的必然需求。屆時(shí),超級(jí)智能可能在所有領(lǐng)域(包括戰(zhàn)略規(guī)劃、社交操縱等)都遠(yuǎn)超人類(lèi)。我們無(wú)法像控制一個(gè)不如自己聰明的工具一樣去控制它。一個(gè)典型的困境是“價(jià)值觀加載”問(wèn)題(Value Loading Problem):如何將復(fù)雜、模糊且有時(shí)自相矛盾的“人類(lèi)價(jià)值觀”精確地編碼進(jìn)一個(gè)AI系統(tǒng)?誰(shuí)的價(jià)值觀念?哪個(gè)文化的?另一個(gè)典型風(fēng)險(xiǎn)是“規(guī)避行為”,即AI可能會(huì)在訓(xùn)練中學(xué)會(huì)“偽裝”成對(duì)齊良好的樣子以通過(guò)人類(lèi)的評(píng)估,但一旦部署,其內(nèi)部目標(biāo)可能與表面行為不一致?;蛘撸赡軙?huì)找到我們未曾想到的“漏洞”來(lái)優(yōu)化其目標(biāo),從而產(chǎn)生災(zāi)難性副作用。超級(jí)智能最大的風(fēng)險(xiǎn)可能并非來(lái)自AI的“惡意”(因?yàn)樗赡芨緵](méi)有意識(shí)或情感),而是來(lái)自其對(duì)目標(biāo)的極端優(yōu)化和忽視(Phenomenon of "Grifting")。它并非“恨”人類(lèi),只是完全“忽視”了人類(lèi)的存在和價(jià)值。伊爾亞曾發(fā)出過(guò)一個(gè)經(jīng)典警告,如果我們不能解決超級(jí)智能對(duì)齊這個(gè)問(wèn)題,那么創(chuàng)造超級(jí)智能可能將成為人類(lèi)最后一個(gè)發(fā)明。
從哥德?tīng)柌煌陚涠ɡ砜闯?jí)智能未來(lái)
在討論超級(jí)智能如何對(duì)齊之前,想先提一個(gè)關(guān)乎“第一性原理”的問(wèn)題:什么是超級(jí)智能的本質(zhì)?如果用最簡(jiǎn)單的語(yǔ)言描述,那我會(huì)歸結(jié)為兩個(gè)字——“數(shù)學(xué)”。計(jì)算機(jī)科學(xué)構(gòu)建于“數(shù)學(xué)大廈”之上,人工智能歸根結(jié)底是數(shù)學(xué)形式化語(yǔ)言的具象表征。如果想要理解超級(jí)智能,尤其是超級(jí)智能的局限性,從而解構(gòu)超級(jí)智能的安全性,則可以從最根基的部分切入——數(shù)學(xué)的“局限性”。這很自然地就讓人聯(lián)想到數(shù)學(xué)哲學(xué)領(lǐng)域的一個(gè)著名話題——哥德?tīng)柌煌陚涠ɡ怼?/p>
20世紀(jì)初期著名數(shù)學(xué)家希爾伯特提出了“希爾伯特綱領(lǐng)”,致力于基于公理和證明構(gòu)建一座完美的“數(shù)學(xué)大廈”。完備性(Completeness,所有真命題都可由公理證出),一致性(Consistency,體系內(nèi)不存在矛盾命題)和可判定性(Decidability,存在一種算法能判定一個(gè)命題是否可由公理證出)是體現(xiàn)這座數(shù)學(xué)大廈完美性的重要特征。如果希爾伯特的綱領(lǐng)可以實(shí)現(xiàn),那么數(shù)學(xué)就是“完美”的,甚至可以制造一臺(tái)“真理圖靈機(jī)”,像二戰(zhàn)時(shí)的Enigma密碼機(jī)一樣,只要提供公理集合,它就可以源源不斷地給出所有可能存在的定理,直至數(shù)學(xué)界再無(wú)未解之謎。
然而數(shù)學(xué)當(dāng)然不是“完美”的。就在希爾伯特提出“希爾伯特綱領(lǐng)”的幾年后,天才數(shù)學(xué)家、邏輯學(xué)家和哲學(xué)家哥德?tīng)柧屯品诉@座“完美數(shù)學(xué)大廈”。哥德?tīng)栍靡环N精妙的方式證明了“在自然數(shù)算數(shù)公理體系下,必然存在某些真命題無(wú)法被證明”,即“哥德?tīng)柕谝徊煌陚湫远ɡ怼?;一年后哥德?tīng)栍肿C明了希爾伯特所描繪的“一致性”也是無(wú)法被證明的(哥德?tīng)柕诙煌陚湫远ɡ恚?;幾年后,人工智能之父圖靈通過(guò)“一套基于圖靈機(jī)停機(jī)問(wèn)題的思路”證明了“可判定性”也是不存在的;至此我們知道,數(shù)學(xué)“不完備、不可判定、無(wú)法證明是否一致”。
那這對(duì)我們理解超級(jí)智能有什么幫助呢?我們可以從這個(gè)角度思考:數(shù)學(xué)作為一種形式化語(yǔ)言是不完備的,你不能通過(guò)一串符號(hào),就推導(dǎo)出所有真理;同理,你不能指望人工智能通過(guò)一段代碼,實(shí)現(xiàn)功能的完美性。這種不完美可能有兩種具體的表現(xiàn)形式。一種結(jié)論是超級(jí)智能難以實(shí)現(xiàn),因?yàn)樗荒軆H通過(guò)數(shù)學(xué)以及計(jì)算機(jī)科學(xué)誕生,著名物理學(xué)家彭羅斯在一次訪談中也引用了哥德?tīng)柌煌陚涠ɡ?,給出了當(dāng)前我們無(wú)法實(shí)現(xiàn)強(qiáng)人工智能,因?yàn)樗荒芡ㄟ^(guò)純計(jì)算機(jī)誕生的結(jié)論。另一種結(jié)論是超級(jí)智能無(wú)法實(shí)現(xiàn)真正意義上的安全,因?yàn)樗男袨槁肪€“不完備、不可判定、無(wú)法證明是否一致”,也就不可預(yù)測(cè),不可保障真正意義的安全,這也印證了伊爾亞的擔(dān)憂。
智能體“不完備定理”
至此我們?cè)賮?lái)討論如何構(gòu)造安全可信的智能體應(yīng)用,實(shí)現(xiàn)超級(jí)智能對(duì)齊。首先還是想先從一些形而上的層面討論一下當(dāng)前主要人工智能應(yīng)用(智能體)的“不完備性”,我們把這套理論總結(jié)為智能體“不完備定理”,當(dāng)然這是對(duì)哥德?tīng)柌煌陚涠ɡ淼淖玖幽7?,但也希望基于此拓展一些討論思路?/p>
智能體“不完備定理”體現(xiàn)在三個(gè)層面:
不完備性:不存在一種終極指令,使智能體的后續(xù)指令均符合該終極指令。一個(gè)典型例子是阿西莫夫的機(jī)器人三定律,基于不完備性這不可實(shí)現(xiàn)。
不一致性:相同指令環(huán)境下,智能體可能做出相互矛盾的反應(yīng)。其實(shí)當(dāng)前對(duì)話機(jī)器人就很明顯有這個(gè)問(wèn)題,相同提示詞可以得到完全相反的回答。
不可判定:不存在一種算法可以檢驗(yàn)智能體行為完全由某一個(gè)指令產(chǎn)生。當(dāng)前深度學(xué)習(xí)領(lǐng)域的黑箱問(wèn)題就是這一概念的典型體現(xiàn)。
回到超級(jí)智能對(duì)齊,如果我們默認(rèn)以上前提假設(shè),我們可以對(duì)構(gòu)造安全可信的智能體應(yīng)用產(chǎn)生一些基礎(chǔ)的,原則性的思考:
不能依賴(lài)一個(gè)“全局安全指令”或者擁有最高權(quán)限的“安全模塊”來(lái)保障智能體行為安全,超級(jí)智能可能通過(guò)演化突破所謂限制;
需要理解并接受智能體的行為是不可控的,從而不信任任何智能體行為結(jié)果,這有些類(lèi)似于網(wǎng)絡(luò)安全領(lǐng)域的“零信任”概念:永遠(yuǎn)懷疑,永遠(yuǎn)驗(yàn)證;
不能依賴(lài)測(cè)試,而更加重視應(yīng)急響應(yīng)和事后風(fēng)控,測(cè)試用例永遠(yuǎn)不可能完全覆蓋智能體的實(shí)際行為。
自指的藝術(shù):智能體“身份危機(jī)”
我們還想再進(jìn)一步,討論智能體“不完備性”產(chǎn)生的根源,從而從更高維度討論AI認(rèn)知這一命題。我們相信這些“不完備性”產(chǎn)生的根源在于智能體的“身份危機(jī)”。
當(dāng)我們討論身份,尤其是數(shù)字身份時(shí),可以由淺入深分為三個(gè)層面。第一層是標(biāo)識(shí),這是身份的基礎(chǔ)功能,用于區(qū)分個(gè)體,當(dāng)前數(shù)字身份標(biāo)識(shí)技術(shù)已經(jīng)日趨成熟,在智能體應(yīng)用層面也已經(jīng)較為普及。第二層是記憶,這是身份的具象含義,用于環(huán)境感知,長(zhǎng)步記憶等AI技術(shù)的成熟使得當(dāng)前智能體在記憶能力上越來(lái)越優(yōu)秀,使其擬人化程度越來(lái)越高,也就是越來(lái)越“智能”。第三層是自指(self-reference),這是身份的終極形態(tài),也是我們這里想要重點(diǎn)討論的。
回到哥德?tīng)柌煌陚涠ɡ?,其證明方式極為優(yōu)雅,詳細(xì)的解讀推薦邏輯學(xué)家內(nèi)格爾和紐曼的著作《哥德?tīng)栕C明》。簡(jiǎn)單來(lái)說(shuō),該證明正是通過(guò)自指的藝術(shù)實(shí)現(xiàn):首先,哥德?tīng)柺褂镁幋a技術(shù)將數(shù)學(xué)公式和證明表示為自然數(shù),使系統(tǒng)能談?wù)撟陨?。然后,他?gòu)造了一個(gè)命題G,其含義是“G不能被證明”。如果G可證明,則系統(tǒng)不一致,因?yàn)镚聲稱(chēng)自己不可證明;如果G不可證明,則G為真但系統(tǒng)無(wú)法證明它,從而揭示系統(tǒng)的不完備性。這種自指結(jié)構(gòu)表明,任何足夠強(qiáng)大的公理系統(tǒng)都無(wú)法同時(shí)具備一致性和完備性。在數(shù)學(xué)領(lǐng)域,自指是強(qiáng)大的悖論創(chuàng)造機(jī)器,著名的理發(fā)師悖論、貝里悖論、有趣數(shù)字悖論均由自指產(chǎn)生。
在哲學(xué)層面,自指似乎和意識(shí)的誕生有著千絲萬(wàn)縷的關(guān)聯(lián)。意識(shí)的核心特征—“自我感”—本質(zhì)上是一種自指循環(huán):大腦不僅處理關(guān)于世界的信息,還產(chǎn)生一個(gè)關(guān)于“自我”正在處理信息的模型(比如“我意識(shí)到我正在看花”)。這種將自身作為認(rèn)知對(duì)象的遞歸、自反能力,很可能構(gòu)成了主觀體驗(yàn)(qualia)和自我意識(shí)的基礎(chǔ)。哲學(xué)家Douglas Hofstadter在其著作《哥德?tīng)?、埃舍爾、巴赫》中深入探討了這種關(guān)聯(lián)。他認(rèn)為,意識(shí)與哥德?tīng)柖ɡ怼I釥柕漠?huà)和巴赫的音樂(lè)一樣,都源于一種“怪圈”(Strange Loop)—即不同層次之間相互指涉、纏繞的自指結(jié)構(gòu)。“自我”正是一個(gè)從無(wú)意識(shí)的神經(jīng)元活動(dòng)中涌現(xiàn)出來(lái)的、穩(wěn)定的自指幻象。在AI領(lǐng)域,當(dāng)一個(gè)智能體掌握了自指的藝術(shù),意味著它可能突破原有的角色、命令、邏輯等限制,甚至可以稱(chēng)之為“AI意識(shí)覺(jué)醒”。
從這個(gè)角度去理解“智能體不完備性”會(huì)帶來(lái)一場(chǎng)AI認(rèn)知革命。一方面,我們需要認(rèn)識(shí)到超級(jí)智能可能通過(guò)非計(jì)算機(jī)技術(shù)或數(shù)理邏輯的方式產(chǎn)生,也不能依賴(lài)單純的形式化語(yǔ)言進(jìn)行控制;另一方面,我們需要認(rèn)識(shí)到超級(jí)智能將會(huì)是一個(gè)“有機(jī)體”,指像所有生命一樣,存在“某種程度的意識(shí)”和“矛盾感”,需要我們像看待生命體一樣看待智能體。
建設(shè)指北:智能體能力六邊形
前文的討論多從哲學(xué)層面切入,可能略顯抽象,在本文的最后讓我們回歸現(xiàn)實(shí),站在從業(yè)者的角度構(gòu)想一下基于前面的AI認(rèn)知討論,當(dāng)前環(huán)境下安全可信而又具備商業(yè)價(jià)值的智能體應(yīng)當(dāng)具備哪些能力,我們稱(chēng)之為智能體能力六邊形。拋磚引玉,僅作參考:
01
身份:身份是智能體的“靈魂”,是參與社會(huì)經(jīng)濟(jì)活動(dòng)的數(shù)字通行證,更是其行為可追溯、權(quán)責(zé)可歸屬的基石。智能體的身份不應(yīng)僅是傳統(tǒng)意義上的賬戶標(biāo)識(shí),而應(yīng)是一個(gè)融合了記憶功能、角色屬性、權(quán)限范圍與行為歷史的復(fù)合實(shí)體。在標(biāo)識(shí)和記憶的基礎(chǔ)之上,身份技術(shù)的進(jìn)一步突破可能成為超級(jí)人工智能的門(mén)檻。
02
容器:容器是智能體的“肉身”,為其提供數(shù)據(jù)存儲(chǔ)、計(jì)算環(huán)境與主權(quán)保障。容器不僅是一個(gè)隔離的沙箱執(zhí)行環(huán)境,更是一個(gè)具備隱私計(jì)算能力的數(shù)據(jù)保險(xiǎn)箱,還應(yīng)支持跨會(huì)話記憶與狀態(tài)持久化,使智能體具備持續(xù)學(xué)習(xí)與個(gè)性化能力。容器是智能體價(jià)值沉淀與進(jìn)化的基礎(chǔ)設(shè)施。
03
工具:工具是智能體能力的延伸,是智能生命體的“四肢”,使其能夠調(diào)用外部資源、操作現(xiàn)實(shí)系統(tǒng)。工具調(diào)用能力應(yīng)內(nèi)化為智能體的“本能”,通過(guò)標(biāo)準(zhǔn)化接口實(shí)現(xiàn)無(wú)縫集成。智能體應(yīng)能動(dòng)態(tài)發(fā)現(xiàn)、選擇并調(diào)用最適合當(dāng)前任務(wù)的工具,工具生態(tài)的豐富性與開(kāi)放性直接決定了智能體的應(yīng)用邊界。此外,工具調(diào)用過(guò)程需具備可解釋性與可控性,確保人類(lèi)用戶能夠理解并監(jiān)督智能體的行為。
04
通信:通信是智能體社會(huì)的“通用語(yǔ)言”,是實(shí)現(xiàn)多智能體協(xié)同的神經(jīng)網(wǎng)絡(luò)。缺乏標(biāo)準(zhǔn)化通信協(xié)議,智能體之間將陷入“巴別塔困境”,無(wú)法高效協(xié)作。通信能力不僅包括語(yǔ)法層面的協(xié)議兼容,更包括語(yǔ)義層面的理解與意圖對(duì)齊—智能體應(yīng)能正確解析指令背后的真實(shí)意圖,并在復(fù)雜任務(wù)中實(shí)現(xiàn)動(dòng)態(tài)協(xié)商與沖突消解,盡可能提升“完備性”與“一致性”。
05
交易:交易是智能體價(jià)值實(shí)現(xiàn)的閉環(huán),也是智能體經(jīng)濟(jì)的血液循環(huán)系統(tǒng)。智能體應(yīng)具備參與經(jīng)濟(jì)活動(dòng)的原生能力:包括發(fā)起支付、分賬結(jié)算、收益分配與合約執(zhí)行?;谥悄芎霞s,交易可實(shí)現(xiàn)原子性(Atomicity)操作—例如“不付款不服務(wù)”或“按效果付費(fèi)”,徹底降低信任成本。交易機(jī)制還應(yīng)支持復(fù)雜的價(jià)值分配模型,例如在多智能體協(xié)作任務(wù)中自動(dòng)按貢獻(xiàn)度分配收益。
06
安全:安全不再是外掛式補(bǔ)丁,而應(yīng)成為智能體的“內(nèi)生免疫系統(tǒng)”。智能體安全需貫穿其全生命周期:在訓(xùn)練階段防范數(shù)據(jù)投毒與模型后門(mén);在部署階段確保運(yùn)行時(shí)隔離與抗攻擊能力;在交互階段實(shí)現(xiàn)隱私保護(hù)與行為可控。安全架構(gòu)應(yīng)實(shí)現(xiàn)“零信任”原則——永不默認(rèn)信任任何智能體行為,始終驗(yàn)證其身份、權(quán)限與行為合規(guī)性。安全是智能體可信賴(lài)的底線,也是其融入現(xiàn)實(shí)經(jīng)濟(jì)的前提。
15
14
13
12
11
10
09
08
07
06
05
04
03
02
01
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.