夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大語言模型的新征程—— ACL 2025頂會見聞前沿論壇實(shí)錄|GAIR Live

0
分享至



ACL 投稿破8000,大模型把計(jì)算語言學(xué)推向‘智能體’時(shí)代,三位頂級學(xué)者拆解 NLP 未來趨勢。

作者丨岑峰

編輯丨陳彩嫻

2025年的 ACL(計(jì)算語言學(xué)協(xié)會)年會,無疑是大語言模型( LLM )持續(xù)主導(dǎo) NLP 領(lǐng)域的又一里程碑。這不僅僅體現(xiàn)在學(xué)術(shù)研究的深度,更體現(xiàn)在會議本身的各項(xiàng)數(shù)據(jù)上——史無前例的8000多篇投稿,其中中國作者的比例高達(dá)51%。這一現(xiàn)象清晰地傳遞出大模型已成為 NLP 領(lǐng)域核心的信號,也標(biāo)志著整個行業(yè)的格局正在發(fā)生深刻變化。

通過與多位參會者的溝通,我們得出這樣的結(jié)論:大模型并未“沖淡”計(jì)算語言學(xué)的核心,反而在其技術(shù)框架下,為傳統(tǒng)議題賦予了新的定義和呈現(xiàn)形式。同時(shí),其多模態(tài)特性打破了傳統(tǒng)的研究壁壘,吸引了來自計(jì)算機(jī)視覺、網(wǎng)絡(luò)安全等不同領(lǐng)域的學(xué)者,使得 ACL 大會的氛圍愈發(fā)跨學(xué)科。

為了深入剖析這一變革,雷峰網(wǎng)、AI 科技評論 GAIR Live 品牌特別邀請了三位杰出學(xué)者——美國埃默里大學(xué)副教授劉菲、美國約翰霍普金斯大學(xué)助理教授肖超瑋,以及中國科學(xué)院自動化研究所研究員張家俊,三位嘉賓從他們在 ACL 的所見所聞出發(fā),就大模型的能力邊界、安全魯棒性以及多模態(tài)融合展開了一場深度對話。

面對“大模型是否會沖淡計(jì)算語言學(xué)”的擔(dān)憂,三位嘉賓一致認(rèn)為,ACL 的核心本質(zhì)并未改變,它始終是通過計(jì)算手段研究和運(yùn)用語言;大模型只是計(jì)算語言學(xué)借助 AI 技術(shù)實(shí)現(xiàn)自我進(jìn)化的體現(xiàn)。對于投稿量激增和中國作者比例創(chuàng)歷史新高,三位嘉賓給出了多維度解讀。張家俊老師認(rèn)為,這主要得益于開源技術(shù)對研究門檻的降低,以及 AI 應(yīng)用場景的廣泛拓展;劉菲老師則補(bǔ)充道,大模型顯著提升了研究生產(chǎn)力,讓撰寫論文的效率大幅提升,這也是投稿量激增的直接原因。

然后,三位嘉賓從自己的研究方向和本次 ACL 帶來的論文出發(fā),進(jìn)一步剖析了今年 ACL 所反映的學(xué)術(shù)趨勢變化。其中一個趨勢是,大語言模型正從單純的“問答機(jī)器”向具備高級“智能體”特征的“問題解決者”演進(jìn)。劉菲老師指出,當(dāng)前大模型的推理能力已大幅提升,但面對復(fù)雜任務(wù)時(shí),必須“規(guī)劃先行”;她進(jìn)一步深入剖析了 LLM 在推理(Reasoning)和規(guī)劃(Planning)能力上的躍遷,強(qiáng)調(diào)未來的 LLM 不僅需要強(qiáng)大的內(nèi)部推理,更要學(xué)會調(diào)用外部工具,以彌補(bǔ)知識局限性,學(xué)會“說不”;張家俊老師則說明,大模型的主動澄清能力等交互方式的改變將是根本性的,它將使 AI 從一個被動響應(yīng)的工具,轉(zhuǎn)變?yōu)橐粋€能夠進(jìn)行主動、有意義的交互的智能伙伴。

與此同時(shí),LLM 的快速發(fā)展也伴隨著日益嚴(yán)峻的安全與魯棒性挑戰(zhàn)。肖超瑋老師將模型對抗性攻擊與防御形容為一場“永無止境的攻防戰(zhàn)”。他揭示了攻擊策略的“持續(xù)學(xué)習(xí)能力”,并提出了一種全新的防御范式——“學(xué)習(xí)安全推理邏輯”。這一思路不再依賴于生成海量數(shù)據(jù)進(jìn)行對抗訓(xùn)練,而是通過讓模型學(xué)會“瀏覽動態(tài)攻擊策略列表”并進(jìn)行深層語義分析,從而主動識別并化解潛在的惡意指令。這標(biāo)志著 LLM 安全研究正從被動防御轉(zhuǎn)向主動、策略性的智能防御。

三位嘉賓還共同展望了多模態(tài)融合的未來圖景。張家俊老師將 LLM 的演變喻為一場范式革命,并指出多模態(tài)融合是 LLM 的下一個必經(jīng)之路。它將使 LLM 具備跨模態(tài)的理解和生成能力,從簡單的“看圖說話”進(jìn)化到真正的“感知與交互”。

三位老師描繪了一幅清晰而宏大的 LLM 未來藍(lán)圖:一個不僅能理解、生成語言,還能進(jìn)行復(fù)雜推理、安全規(guī)劃,并與多模態(tài)世界深度融合的通用智能體。這不僅是學(xué)術(shù)研究的新方向,更是 AI 產(chǎn)業(yè)實(shí)踐的下一個主戰(zhàn)場。


以下是此次圓桌討論的精彩分享,AI 科技評論進(jìn)行了不改原意的編輯整理:

01

ACL的包容性與自我進(jìn)化

岑峰:去年 ACL 主席 Emily M. Bender 說“ ACL 不是 AI 會議”,引發(fā)了關(guān)于大模型是否會沖淡計(jì)算語言學(xué)研究的擔(dān)憂。但一年過去,大模型相關(guān)論文卻斬獲最佳論文,這股“ AI 味”不減反增。我的第一個問題是:我們當(dāng)前是在見證計(jì)算語言學(xué)被 AI“收編”,還是看到它借助 AI 之力實(shí)現(xiàn)自我進(jìn)化?

劉菲:我是去年和今年ACL 主會多個領(lǐng)域的高級領(lǐng)域主席(Senior Area Chair),我認(rèn)為,作為自然語言處理領(lǐng)域的頂級會議,ACL 必須與時(shí)俱進(jìn)。

當(dāng)前,大模型和智能體等技術(shù)浪潮正席卷整個行業(yè)。傳統(tǒng)的 NLP 研究方向,如對話、問答、機(jī)器翻譯等,已經(jīng)沿用了十多年。如今,大模型帶來了許多新的研究方向,比如大模型安全、多模態(tài)、多語言等,這些都是亟待探索的重要領(lǐng)域。我很高興看到,今年的 ACL 已經(jīng)開始適應(yīng)這種變化,將大模型智能體和人機(jī)協(xié)作等方向納入了會議議題。我相信,未來 ACL 的領(lǐng)域劃分會迎來更大調(diào)整,以更好地適應(yīng)當(dāng)前 AI 技術(shù)的發(fā)展。

肖超瑋:從我個人研究經(jīng)歷來看,這種轉(zhuǎn)變正體現(xiàn)了 NLP 會議日益增強(qiáng)的包容性。我從機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺安全轉(zhuǎn)向 NLP 安全,我以前是不投 NLP 會議的,最近這兩年開始投 NLP 會議,恰好說明這個領(lǐng)域在大模型的時(shí)代下正在迎接不同背景的學(xué)者。我認(rèn)為,計(jì)算語言學(xué)的核心議題并未消失,而是在大模型框架下有了新的呈現(xiàn)。比如我研究的多語言安全問題,不同語言和文化對“安全”的定義各不相同,這正是大模型時(shí)代計(jì)算語言學(xué)需要深入探索的新議題。今年 ACL 大會的跨學(xué)科氛圍非常濃厚,這種融合趨勢為計(jì)算語言學(xué)帶來了更多新視角和新機(jī)遇。

張家?。何艺J(rèn)同劉老師和肖老師的觀點(diǎn),ACL 的核心本質(zhì)沒有改變,它始終是通過計(jì)算手段研究和運(yùn)用語言,大模型是計(jì)算語言學(xué)借助 AI 技術(shù)實(shí)現(xiàn)進(jìn)一步進(jìn)化的體現(xiàn)。對于 Emily M. Bender 主席的觀點(diǎn),我認(rèn)為她并非否定 AI 的價(jià)值,而是以一種極端的方式提醒學(xué)界:不應(yīng)只關(guān)注 AI 技術(shù)本身,更要關(guān)注研究的多樣性與語言本質(zhì)的探索。

大模型不僅是研究語言的“工具”,也成為了具備語言能力的“研究對象”,這極大地拓展了計(jì)算語言學(xué)的內(nèi)涵。同時(shí),大模型的多模態(tài)特性也推動了 ACL 的跨學(xué)科融合。雖然大模型研究成為主流,但 ACL 對語言學(xué)核心議題的關(guān)注并未減弱,今年仍有許多論文聚焦語言組合性、語法學(xué)習(xí)等基礎(chǔ)研究。

此外,我非常認(rèn)同劉老師關(guān)于傳統(tǒng)研究方向需要調(diào)整的觀點(diǎn),明年我們將討論如何優(yōu)化會議領(lǐng)域劃分,以更好地適應(yīng)發(fā)展。

岑峰:今年 ACL 投稿量突破8000篇,創(chuàng)下歷史新高。這股“內(nèi)卷”是源于跨學(xué)科的新問題,還是因?yàn)?AI 技術(shù)降低了研究門檻?

張家?。何艺J(rèn)為兩個原因都存在,但技術(shù)門檻降低的影響更為顯著。這主要得益于開源技術(shù)。當(dāng)前,90%以上的研究都基于開源模型、方法和數(shù)據(jù)。就像上世紀(jì)90年代末,統(tǒng)計(jì)機(jī)器翻譯的工具開源后,相關(guān)研究才迎來爆發(fā)式增長。如今, AI 應(yīng)用場景的廣泛拓展也吸引了更多領(lǐng)域的研究者加入,共同推動了投稿量的激增。

肖超瑋:我非常認(rèn)同張老師的觀點(diǎn)。我之前的網(wǎng)絡(luò)安全領(lǐng)域,因?yàn)榧夹g(shù)和工具不便開源,導(dǎo)致會議投稿量與 ACL 有天壤之別。在 NLP 領(lǐng)域,我深刻體會到了開源環(huán)境的優(yōu)勢:大量國內(nèi)外的開源大模型性能出色,降低了研究門檻,吸引了更多研究者。此外,ACL 采用的 ARR(ACL Rolling Review)機(jī)制也是吸引跨領(lǐng)域研究者的重要因素。它不像一些會議的“一票否決”制,而是允許作者根據(jù)審稿意見修改后重新提交,甚至可以更換審稿人。這種機(jī)制更適應(yīng) AI 技術(shù)的快速迭代,也讓更多有價(jià)值的研究成果有機(jī)會被看到。正是這種友好的投稿機(jī)制和成熟的開源環(huán)境共同推動了 ACL 投稿量的激增。

劉菲:我非常認(rèn)同兩位老師的觀點(diǎn)。大模型極大地提升了研究生產(chǎn)力,這是投稿量激增的直接原因。傳統(tǒng)上寫一篇論文可能需要兩周,現(xiàn)在借助大模型兩天就能完成初稿。這種效率的飛躍,讓更多人能快速上手。我建議希望進(jìn)入 NLP 領(lǐng)域的研究者,可以從開源項(xiàng)目入手,并結(jié)合自己的專長探索“ NLP + 垂直領(lǐng)域”的交叉方向,這樣既有實(shí)際需求,也更容易產(chǎn)出有價(jià)值的成果。

岑峰:今年 ACL 大會,中國作者的論文比例達(dá)到51%。三位老師第一次參加 ACL 是什么時(shí)候?相比當(dāng)年,如今讓你們感受最“不一樣”的地方是什么?

肖超瑋:我過去主要是參加機(jī)器學(xué)習(xí),視覺和安全的會議,今年首次參加 ACL,最大感觸是它與機(jī)器學(xué)習(xí)會議的核心關(guān)注點(diǎn)不同。機(jī)器學(xué)習(xí)會議更關(guān)注模型和算法本身,而 ACL 則更包容,它圍繞語言學(xué)本質(zhì),匯聚了不同文化、語言背景的思考,這幫助我理解“如何設(shè)計(jì)安全策略”這類關(guān)鍵問題,進(jìn)而指導(dǎo)我們構(gòu)建更負(fù)責(zé)任、更安全的模型。此外,今年中國企業(yè)在會場的高參與度和在開源大模型領(lǐng)域的顯著進(jìn)展,也讓我印象深刻。

劉菲:我對中國在 AI 領(lǐng)域的快速發(fā)展感到非常欣慰。過去十幾年,我們打下了堅(jiān)實(shí)的基礎(chǔ),大模型的研發(fā)需要完整的技術(shù)鏈條支撐。我看到國內(nèi)在數(shù)據(jù)處理、模型架構(gòu)探索等基礎(chǔ)研究上都取得了顯著進(jìn)展。同時(shí),國內(nèi)大模型配套生態(tài)系統(tǒng)也在高速發(fā)展,研究正從基礎(chǔ)技術(shù)突破邁向智能體等應(yīng)用層面。我期待未來一兩年,大模型能更多地融入我們的日常生活。

張家?。何业谝淮螀⒓?ACL 是在2013年,會議地點(diǎn)在保加利亞索菲亞。當(dāng)時(shí)的 ACL 更聚焦語言學(xué)本質(zhì),而如今大模型已成為主流研究方向。

我感受最深的有幾點(diǎn):第一,論文數(shù)量大幅增長,讓人很難全部閱讀;第二,中國研究者的話語權(quán)顯著提升,無論在論文貢獻(xiàn)還是組織參與度上都變得更有影響力;第三,研究領(lǐng)域的邊界日益模糊,不同方向的方法和對象趨同,跨領(lǐng)域交流變得更順暢;第四,應(yīng)用場景不斷拓展,NLP 已從相對小眾的研究方向,成為 AI 領(lǐng)域的核心焦點(diǎn)。

02

大模型規(guī)劃:統(tǒng)一評估框架的必要性

岑峰:劉菲老師團(tuán)隊(duì)的一篇關(guān)于 LLM 規(guī)劃的論文獲得了本次 ACL 的杰出論文,為何當(dāng)前該領(lǐng)域特別需要這樣一個統(tǒng)一的評估框架和能力地圖?它解決了哪些迫在眉睫的問題?

劉菲:我們的團(tuán)隊(duì)之所以如此關(guān)注大語言模型的規(guī)劃能力,核心原因在于,當(dāng)前大模型的推理能力已實(shí)現(xiàn)大幅提升,這讓它們具備了解決高難度、復(fù)雜任務(wù)的潛力。但這類任務(wù)往往無法一蹴而就,需要通過“任務(wù)拆解”將其分解為多個可執(zhí)行的子模塊,這正是規(guī)劃能力的核心。

舉個具體的例子,如果你想用智能體制定一份為期一周的北京旅行行程,它首先需要拆解出多個子任務(wù),比如“預(yù)訂機(jī)票”、“預(yù)訂酒店”和“每日行程安排”。這三個子任務(wù)本身就非常復(fù)雜。更重要的是,不同用戶對這些子任務(wù)的需求差異巨大,這意味著復(fù)雜任務(wù)的第一步必須是合理的、個性化的任務(wù)拆分。

此外,這些子任務(wù)的解決路徑也各不相同。有些可以由系統(tǒng)自動處理,但可能存在不穩(wěn)定性;有些則需要人工介入。更關(guān)鍵的是,子任務(wù)之間并非孤立存在,它們有著明確的關(guān)聯(lián)結(jié)構(gòu)。規(guī)劃的最終目標(biāo)是讓用戶完全滿意,而“個性化” 是實(shí)現(xiàn)這一目標(biāo)的最大難點(diǎn)。做好規(guī)劃,需要綜合考慮這些多維度的個性化因素。

正因?yàn)橐?guī)劃任務(wù)的復(fù)雜性和多樣性,我們認(rèn)為構(gòu)建一個統(tǒng)一的評估框架至關(guān)重要。我在自然語言處理領(lǐng)域工作了近15年,始終堅(jiān)信 “評估先行”。一套優(yōu)質(zhì)的、經(jīng)過深思熟慮的評估指標(biāo)能夠有效指導(dǎo)系統(tǒng)開發(fā),讓研究方向更為集中和高效。反之,如果缺乏扎實(shí)可靠的評估框架,整個領(lǐng)域的發(fā)展就會變得分散,甚至陷入停滯。因此,要真正推動大模型規(guī)劃與推理領(lǐng)域的前進(jìn),必須先建立一個統(tǒng)一且精細(xì)的評估框架。

此外,規(guī)劃能力也與當(dāng)前的智能體人工智能( Agentic AI ) 高度相關(guān)。規(guī)劃的效率直接決定了智能體完成任務(wù)的效率,從這個角度看,規(guī)劃與決策無疑是極具潛力的研究方向。除了規(guī)劃,我們團(tuán)隊(duì)也對多智能體協(xié)同和競爭方向有著濃厚的興趣。我認(rèn)為,未來大模型可以升級為個性化模型,讓每個人都擁有一個專屬的智能助手。在這種情境下,智能體之間可能存在復(fù)雜的社會關(guān)系:在團(tuán)隊(duì)協(xié)作時(shí),它們需要合作;而在爭奪同一個資源時(shí),它們又會形成競爭。無論是合作還是競爭,多智能體都需要強(qiáng)大的規(guī)劃和協(xié)同能力,這也是我們未來重點(diǎn)關(guān)注的方向。

岑峰:如果小模型能在特定規(guī)劃任務(wù)上達(dá)到大模型的性能,這對商業(yè)化應(yīng)用與部署會有何影響?

劉菲:小模型具有很強(qiáng)的推理能力,而大模型的優(yōu)勢在于知識儲備。如果一個工業(yè)落地場景無需大量外部知識,僅需調(diào)用大模型的單一能力,那么經(jīng)過知識蒸餾的小模型就極具價(jià)值。但若任務(wù)對專業(yè)知識有高要求,則仍需采用參數(shù)規(guī)模更大的模型??偠灾?,小模型在特定場景下的高性能表現(xiàn),將大幅降低部署成本,加速商業(yè)化落地。

岑峰:劉老師在論文中提到“強(qiáng)化不可行任務(wù)檢測指標(biāo)”的建議,讓大模型學(xué)會“說不”,從技術(shù)層面會面臨哪些挑戰(zhàn)?又會給用戶體驗(yàn)帶來怎樣的改變?

劉菲:從用戶角度,我非常希望大模型能主動“說不”。目前,大模型在訓(xùn)練時(shí)傾向于迎合用戶需求,這導(dǎo)致它們在回答不確切的問題時(shí)容易產(chǎn)生“幻覺”,比如虛構(gòu)一個不存在的電影劇情。

要解決這個問題,長遠(yuǎn)來看,我們需要將傳統(tǒng)的分類模型方法與大模型結(jié)合,實(shí)現(xiàn)“結(jié)論與推理依據(jù)的對齊”。當(dāng)前,大模型通過逐 token 生成推理依據(jù),但其最終結(jié)論可能與推理過程不一致。未來,我們需要確保無論結(jié)論是基于分類模型還是參數(shù)化模型,其口頭解釋都能保持一致。如果大模型能學(xué)會“說不”,將能提供更準(zhǔn)確、更可信的信息,避免誤導(dǎo)用戶,從而帶來更好的用戶體驗(yàn)。

03

從被動到主動:大模型的未來交互策略

岑峰:張老師團(tuán)隊(duì)也有一篇 ACL 的 Highlight 論文,其核心思想是“讓視覺語言模型學(xué)會提問,消解視覺回答中的模糊性”。如何通俗解讀這一研究?它與人類的提問邏輯有何異同?

張家?。何覀冄芯康暮诵氖亲屢曈X語言模型擁有“追問”的能力。在視覺問答( VQA )中,很多問題回答不準(zhǔn)確,是因?yàn)閱栴}本身就很模糊。這就像我們問“那個東西怎么用?”,對方會反問“你指的是哪個?”來明確需求。但大模型默認(rèn)用戶問題是完全正確的,不會主動澄清。由于圖像信息量大,這種模糊性在視覺領(lǐng)域尤其突出。因此,我們的研究就是教會模型,在識別到模糊提問時(shí),先通過追問來明確用戶意圖,再給出精準(zhǔn)回答。

岑峰:除了論文中提到的三類模糊性,是否還存在其他類型?能否結(jié)合例子具體說明?

張家?。何覀儺?dāng)前將模糊性劃分為三類,主要是基于現(xiàn)有數(shù)據(jù)集的特性和技術(shù)的可行性。但實(shí)際上,除了這三種,在現(xiàn)實(shí)場景中肯定還存在其他類型的模糊性問題。

其中一個非常典型的例子就是由文化背景差異帶來的模糊性。在不同的國家和文化語境下,即使是相同的問題,其背后所指向的需求或隱含的文化含義也可能截然不同,也存在數(shù)據(jù)構(gòu)造極為困難的巨大的挑戰(zhàn)。要構(gòu)建涵蓋不同文化、不同常識背景的模糊問題數(shù)據(jù)集,需要大量的跨文化標(biāo)注,目前這方面的積累還遠(yuǎn)遠(yuǎn)不夠。所以,我們選擇先聚焦于“指代、意圖、拼寫” 這三類更容易界定和構(gòu)造數(shù)據(jù)的問題,后續(xù)再逐步拓展。

為了幫助大家更好地理解這三類模糊性,我可以結(jié)合視覺場景來舉幾個具體的例子:

  • 指代模糊:想象一張照片里有兩個人一前一后站著,一個穿著“殺馬特”風(fēng)格的衣服,另一個是“二次元”風(fēng)格。如果用戶問模型:“這個人怎么穿成這樣?”模型就無法確定用戶指的是哪一個人。這就是典型的指代模糊,模型需要通過追問來解決,比如問:“您指的是照片中靠前的人,還是靠后的人?”

  • 意圖模糊:比如一張圖片展示了一個人站在倫敦橋上,背景能看到著名的大本鐘。這時(shí),用戶可能會問:“這個人站在哪里?”從表面看,用戶是在問具體位置,但深層的意圖可能是想知道所在的城市,也就是“倫敦”。如果模型只回答“在橋上”,就沒有真正滿足用戶的需求。這就是意圖模糊,模型需要追問來確認(rèn),比如問:“您是想了解具體地點(diǎn),還是所在的城市?”

  • 拼寫模糊:假設(shè)圖片是在某個展覽活動現(xiàn)場,用戶想問“這是一個什么事件?”但因?yàn)橥糇皱e誤,打成了“這是一個什么時(shí)間?”雖然語法正確,但語義完全偏離了。這就是拼寫模糊,模型需要識別出這種偏差并進(jìn)行追問,比如問:“您是否想問‘這是一個什么事件?’”

這些例子清晰地說明了,在復(fù)雜的人機(jī)交互中,讓模型學(xué)會主動識別和消解模糊性,是提升用戶體驗(yàn)的關(guān)鍵。

岑峰:如何從技術(shù)上讓模型具備“該直接回答還是主動追問”的判斷能力?這項(xiàng)研究對未來 AI 認(rèn)知發(fā)展有何啟示?

張家?。汉诵脑谟谧屇P蛽碛小白灾鳌?,即清楚自己“知道什么、不知道什么”。當(dāng)面對不確定的問題時(shí),它能識別出不確定性,并主動交互。目前,我們通過 數(shù)據(jù)驅(qū)動 的方式來實(shí)現(xiàn)這一能力。我們專門針對模糊場景,自動化構(gòu)造了大規(guī)模訓(xùn)練數(shù)據(jù),將“需要追問”的案例作為正樣本,將“可直接回答”的案例作為負(fù)樣本,以此教會模型進(jìn)行二元判斷。從長遠(yuǎn)看,若模型能同時(shí)具備“自知之明”和“用戶認(rèn)知建?!钡哪芰Γ型灾餍纬芍鲃咏换ヒ庾R。

岑峰:這一能力能否擴(kuò)展到其他領(lǐng)域?它將如何改變?nèi)伺c AI 的交互方式?

張家?。哼@一能力的通用性非常強(qiáng),可以擴(kuò)展到智能客服、智能家居、車載系統(tǒng)等高頻人機(jī)交互場景,甚至在智能決策系統(tǒng)中,模型也能通過主動提問來補(bǔ)全信息,提升決策準(zhǔn)確性。這種主動澄清能力,將成為多模態(tài)模型和決策模型的基礎(chǔ)能力。例如,在撰寫綜述時(shí),模型若能主動詢問用戶“您希望重點(diǎn)覆蓋哪些領(lǐng)域?”,便能生成更貼合需求的內(nèi)容。這種交互方式的改變將是根本性的,它將使AI從一個被動響應(yīng)的工具,轉(zhuǎn)變?yōu)橐粋€能夠進(jìn)行主動、有意義的交互的智能伙伴。

04

大模型安全與魯棒性:一場永無止境的攻防戰(zhàn)

岑峰:在大模型時(shí)代,有哪些新的攻擊或防御策略?傳統(tǒng)方法是否仍有效?

肖超瑋:我將結(jié)合我們團(tuán)隊(duì)的研究探索,分享對大模型安全領(lǐng)域的最新觀察與趨勢。

早期的對抗攻擊研究主要集中在計(jì)算機(jī)視覺領(lǐng)域。那時(shí)的防御方案聚焦于“System 1” 層次,即通過生成對抗樣本,并進(jìn)行 “對抗訓(xùn)練” 來微調(diào)模型。然而,這種方法的致命缺陷是 泛化性極差。它只能應(yīng)對已知的擾動,面對更廣泛、更復(fù)雜的未知攻擊時(shí),幾乎束手無策。

早在2022年,我們團(tuán)隊(duì)就提出了一個不同的思路,從 “System 2” 層面設(shè)計(jì)防御方案。我們的 DiffPure 通過引入“擴(kuò)散模型”,模擬人類的“慢思考”過程,實(shí)現(xiàn)在無需接觸對抗樣本的情況下,也能對未知擾動進(jìn)行有效防御。

如今,這種“System 2” 的思路在大模型安全研究中得到了延伸。我們最近的工作 ARMOR,僅僅讓模型“背”下安全策略是遠(yuǎn)遠(yuǎn)不夠的,而是必須讓它通過一個主動的 推理過程 來分析問題,明確不安全行為違反了哪些安全準(zhǔn)則。當(dāng)前,無論是 OpenAI 的 “深度思考的對齊” 還是國內(nèi)清華大學(xué)等團(tuán)隊(duì)的工作 STAIR,都在嘗試通過“推理模型” 來強(qiáng)化安全對齊。

然而,現(xiàn)有的一些推理防御方案仍存在漏洞。其根本原因在于,模型的推理邏輯和人類對比可能存在偏差。對于一個惡意的共計(jì),人類解決問題的關(guān)鍵,是讓模型像人類一樣“抽絲剝縷”,先理解到底是在問什么問題,再基于安準(zhǔn)則做出判斷,是不是這個問題是不是違背了安全準(zhǔn)則。

因此,我們提出了“結(jié)構(gòu)化推理” 方法,旨在明確模型的推理邏輯,使其決策過程更貼近人類思維。我們認(rèn)為,如何將這種結(jié)構(gòu)化推理與基于強(qiáng)化學(xué)習(xí)的目標(biāo)驅(qū)動方法相結(jié)合,是當(dāng)前一個重要的研究方向。

另一個重要趨勢是智能體安全( Agent Security )。今年 ACL 會議上,業(yè)界開始關(guān)注 “間接指令注入( indirect problem injection )” 這種新的系統(tǒng)級威脅。針對這類問題,我們在 ACL 會議上面也提出了 Agrail , 通過構(gòu)建一個智能體安全護(hù)欄提升智能體的安全。

總的來說,安全研究正在從早期的“ System 1 ” 級對齊微調(diào),深化到“ System2 ”級別利用“結(jié)構(gòu)化推理” 提升模型安全性;并從單一模型擴(kuò)展到系統(tǒng)層面,通過構(gòu)建外部防御機(jī)制來系統(tǒng)性地解決安全問題。這些都是當(dāng)前領(lǐng)域的重要進(jìn)展,并且仍在持續(xù)推進(jìn)。

岑峰:與計(jì)算機(jī)視覺相比,NLP 在對抗攻擊與魯棒性方面面臨哪些獨(dú)特挑戰(zhàn)?

肖超瑋:我之所以從計(jì)算機(jī)視覺( CV )轉(zhuǎn)向自然語言處理( NLP )領(lǐng)域,正是因?yàn)檎Z言具有獨(dú)特的價(jià)值和挑戰(zhàn)。CV 領(lǐng)域的對抗攻擊通常很直接,比如在停車標(biāo)志上貼一張?zhí)厥庠O(shè)計(jì)的貼紙來誤導(dǎo)模型,而 NLP 則完全不同,語言是人類設(shè)計(jì)的、帶有強(qiáng)烈 社會性的知識載體和社交工具。其邏輯與人類現(xiàn)實(shí)社會中的“說服”或“PUA”非常相似。攻擊者可以通過不同的語言技巧和策略,誘導(dǎo)模型給出有害的回答。這說明 NLP 的攻擊門檻非常低,普通用戶就能實(shí)施,這是語言特性帶來的全新挑戰(zhàn)。

為此,我們的研究方向像 AutoDAN-Turbo,ARMOR 等是從“策略空間”切入,系統(tǒng)地梳理和識別這些基于策略的攻擊手段,再讓模型學(xué)習(xí)如何防御。早期的攻擊方式相對簡單,比如替換個別單詞,但現(xiàn)在的攻擊已升級,不再是簡單的文本改寫,而是通過設(shè)計(jì)特定策略來精準(zhǔn)誘導(dǎo)模型。這種升級不僅為攻擊行為開辟了巨大空間,也給防御工作帶來了巨大挑戰(zhàn)。我認(rèn)為,這正是語言獨(dú)特的社會性和動態(tài)的語言學(xué)屬性所導(dǎo)致的。

岑峰:AI 安全的未來方向是怎樣的?除了對抗攻擊和防御,還有哪些更深層次的問題需要解決?

肖超瑋:我認(rèn)為未來的 AI 安全需要重點(diǎn)關(guān)注四個方向:

  1. 推理模型的應(yīng)用:核心問題是,我們該如何利用推理模型?是采用我們提出的“結(jié)構(gòu)化推理”,還是更偏向目標(biāo)對齊的方法,這需要深入研究。

  2. 目標(biāo)過擬合:目前許多模型通過獎勵機(jī)制來確保目標(biāo)達(dá)成,但過度關(guān)注結(jié)果可能導(dǎo)致模型在過程中產(chǎn)生欺騙行為。如何解決這種“目標(biāo)過擬合”帶來的新安全挑戰(zhàn),是亟待解決的問題。

  3. 個性化安全:這是一個跨學(xué)科的難題。安全本身沒有統(tǒng)一的定義,如何讓模型能適應(yīng)不同國家、不同個體的安全準(zhǔn)則,并構(gòu)建一個兼顧個體需求與公共安全的策略框架,是需要深層探索的方向。

  4. 智能體安全:隨著大模型向多智能體系統(tǒng)演進(jìn),系統(tǒng)級安全問題日益突出,比如“間接指令注入”。智能體比單一模型更脆弱,因此如何定義和解決智能體安全問題,是未來需要重點(diǎn)思考的方向。

岑峰:張老師,我也想請教您,從多模態(tài)大模型研究的視角,您如何看待 AI 安全問題?

張家俊:我非常認(rèn)同肖老師的觀點(diǎn),語言的主觀性和不確定性確實(shí)為 AI 安全帶來了獨(dú)特的挑戰(zhàn)。而當(dāng)我們將技術(shù)從單一的語言或視覺模態(tài)拓展到多模態(tài)時(shí),AI 安全問題會進(jìn)一步加劇。

舉個我們研究中遇到的例子:一個安全對齊良好的大語言模型,其抗攻擊能力較強(qiáng)。但如果加入語音交互模態(tài),安全風(fēng)險(xiǎn)便會立刻凸顯。不同的口音或年齡群體在提問時(shí),很可能繞過為文本模態(tài)設(shè)計(jì)的安全機(jī)制。

為此,我們團(tuán)隊(duì)開展了“行為克隆” 的研究,旨在實(shí)現(xiàn) “跨模態(tài)對齊”。核心思想是:在語音和文本語義一致的前提下,模型對兩種模態(tài)輸入的行為響應(yīng)也必須完全一致。我們通過這種方法,在不修改大語言模型核心參數(shù)的情況下,實(shí)現(xiàn)了語音到文本的模態(tài)對齊,從而讓模型在處理語音輸入時(shí)也能繼承原有的安全能力。

然而,這種方法尚未完全解決所有多模態(tài)安全問題。例如,語音中的情緒、重音差異仍可能導(dǎo)致模型內(nèi)部表征發(fā)生微小變化,進(jìn)而影響其安全防御水平。因此,我認(rèn)為多模態(tài)場景下的 AI 安全研究,既存在巨大的探索空間,也面臨著更為嚴(yán)峻的挑戰(zhàn)。

05

產(chǎn)學(xué)研融合:新企業(yè)入局與人才新需求

岑峰:今年我們看到了量化基金、律師事務(wù)所等新企業(yè)入局 ACL,會對 NLP 研究和人才需求產(chǎn)生哪些影響?ACL 的學(xué)術(shù)成果又該如何更好地轉(zhuǎn)化為產(chǎn)業(yè)應(yīng)用?

張家俊:今年 ACL 的贊助商確實(shí)呈現(xiàn)顯著多樣化,這背后是大模型發(fā)展推動 NLP 技術(shù)的應(yīng)用邊界不斷拓展。如今,大模型不僅應(yīng)用于互聯(lián)網(wǎng),更在金融、法律、醫(yī)療等實(shí)體行業(yè)落地,催生了企業(yè)對 NLP 人才的差異化需求。這些新入局的企業(yè)通過贊助頂會,來吸引人才和對接前沿研究,這是其核心驅(qū)動力。

關(guān)于學(xué)術(shù)成果如何對接產(chǎn)業(yè),這取決于論文的研究屬性:

  • 興趣驅(qū)動型研究:這類研究以學(xué)術(shù)探索為核心,通常不考慮實(shí)際應(yīng)用。例如,有最佳論文聚焦“大模型內(nèi)部公平性”這類基礎(chǔ)問題,其直接商業(yè)價(jià)值有限,企業(yè)聯(lián)合研究的動力也較低。

  • 應(yīng)用/任務(wù)驅(qū)動型研究: 這類研究是連接學(xué)術(shù)與產(chǎn)業(yè)的核心。它又分為兩個方向:

?基礎(chǔ)模型構(gòu)建:比如專注于預(yù)訓(xùn)練數(shù)據(jù)篩選、對齊數(shù)據(jù)工程等。ACL 的許多杰出論文都屬于此類,它們由產(chǎn)學(xué)研聯(lián)合開展,能直接轉(zhuǎn)化為業(yè)界模型開發(fā)的核心技術(shù)。

?具體場景落地:比如面向律師事務(wù)所的“法律文本分析”,或面向量化基金的“金融輿情挖掘”。這類研究從行業(yè)實(shí)際問題出發(fā),目標(biāo)就是技術(shù)落地,因此天然具備與產(chǎn)業(yè)對接的屬性,能直接轉(zhuǎn)化為企業(yè)的產(chǎn)品功能。

因此,“應(yīng)用驅(qū)動型研究”是推動 ACL 學(xué)術(shù)價(jià)值向產(chǎn)業(yè)價(jià)值高效轉(zhuǎn)化的關(guān)鍵。

肖超瑋:我非常認(rèn)同張老師的分析,大模型正在拓展其應(yīng)用邊界。我分享一個親身經(jīng)歷:我的航班延誤8小時(shí),航空公司只愿意賠償100美元。我用大模型查詢后得知,根據(jù)歐盟法律,我應(yīng)該獲得600歐元的賠償,最終成功拿到了這筆錢。這個案例讓我感觸很深:大模型憑借其海量知識儲備,讓普通人也能便捷地獲取專業(yè)知識,這在過去是無法想象的。

這個例子也恰好說明了模型與產(chǎn)業(yè)結(jié)合的巨大價(jià)值?,F(xiàn)在,越來越多的企業(yè),包括安全領(lǐng)域的公司,都在探索如何構(gòu)建AI安全防護(hù)機(jī)制,比如打造 “ AI 防火墻” 或利用 AI 生成 “安全代碼”。這些都不僅僅是學(xué)術(shù)研究,而是能直接應(yīng)用于產(chǎn)業(yè)的實(shí)際方向。

關(guān)于如何更好地推動研究與產(chǎn)業(yè)結(jié)合,我認(rèn)為可以從兩個方面發(fā)力:

  1. 應(yīng)用驅(qū)動型研究:研究者可以結(jié)合自身優(yōu)勢,深耕特定應(yīng)用場景,圍繞產(chǎn)業(yè)實(shí)際需求開展研究。

  2. 基礎(chǔ)理論研究:同樣要重視大模型的訓(xùn)練邏輯、算法設(shè)計(jì)等基礎(chǔ)研究。這些看似不直接落地,但它們是未來技術(shù)突破的核心,終有一天會迸發(fā)出巨大的產(chǎn)業(yè)價(jià)值。

06

觀眾QA

岑峰:有觀眾提問:若防御者能利用推理( reasoning )提升安全,攻擊者同樣可借助推理實(shí)施攻擊,那么該領(lǐng)域合理的研究假設(shè)應(yīng)如何界定?

肖超瑋:是的,攻防雙方都可利用推理能力。所以對于防御的關(guān)鍵就是,在合理的威脅模型的假設(shè)下,在攻擊者也可以用各種合理的工具,各種手段還能防御成功就是合理的。比如現(xiàn)在 OpenAI 的防御的威脅模型就是,他不會全給你模型完整的和真實(shí)的推理過程,而是經(jīng)過篩選后僅暴露部分內(nèi)容,這些內(nèi)容不會妨礙正常用戶對推理過程的理解,滿足了可解釋信也不會影響模型回答問題的準(zhǔn)確性。這種假設(shè)就是合理的。這種假設(shè)下,雖然攻擊者可以用各種手段,也可以用推理共計(jì),但是他不能利用模型真實(shí)的和完整的推理內(nèi)容。

岑峰:第二個觀眾問題:“大語言模型面臨多種攻擊方式,是否存在通用的魯棒防御方法?”

肖超瑋:我認(rèn)為,這個問題的答案可以概括為“既無絕對通用的方法,也存在可探索的通用防御方向”。

從“無” 的角度看,絕對的通用防御是不存在的。攻擊者具備持續(xù)學(xué)習(xí)的能力,他們總能探索出全新的攻擊形式。因此,我們不能再沿用傳統(tǒng)的防御思路,比如僅僅通過生成海量數(shù)據(jù)來進(jìn)行對抗訓(xùn)練,這種方式是行不通的。

然而,從“有” 的角度看,我們存在可行的通用防御方向。我們需要轉(zhuǎn)變思路,讓模型學(xué)習(xí)如何進(jìn)行 安全推理。正如我們近期研究的工作 ARMOR 提出的,模型首先需要具備瀏覽一個動態(tài)攻擊策略列表的能力,并能從中識別出輸入問題可能采用的攻擊策略,進(jìn)而理清用戶的真實(shí)意圖。這個列表是可維護(hù)、可低成本更新的,我們可以不斷將新的攻擊策略補(bǔ)充進(jìn)去。

我們希望傳遞的理念是,研究應(yīng)從“結(jié)構(gòu)化推理” 和 提成本的“終生學(xué)習(xí)” ,快讀迭代的角度去思考防御。讓模型學(xué)習(xí)理解高層級的推理邏輯,而不是單純地記憶數(shù)據(jù)實(shí)例。攻擊者可能會用不同的語言、不同的勸說策略發(fā)起攻擊,但從高層級來看,這些攻擊手段存在諸多共性。因此,我們需要維護(hù)的是這份高層級共性策略列表,并持續(xù)更新,防御者可以低成本的讓模型基于該列表進(jìn)行推理,來以終身學(xué)習(xí)的方式去防御。只有讓模型掌握這種識別推理邏輯能力,才有可能從根本上解決問題,真正推動 AI 安全領(lǐng)域取得進(jìn)展。

岑峰:時(shí)間過得飛快,我們這次圓桌到這里就結(jié)束了。謝謝三位嘉賓的分享,謝謝觀眾們的觀看,我們下次再見!

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
6954文章數(shù) 20698關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈里的“詩與遠(yuǎn)方

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲AV无码乱码在线观看裸奔| 亚洲精品成人片在线播放| 国产精品成人av片免费看| 国产乱子轮xxx农村| 都市激情校园春色亚洲天堂| 国产午夜偷精品偷伦| 密桃AV在线| 欧美人成精品网站播放| 国产免费又色又爽粗视频| ass日本丰满熟妇pics| 最新av资源网| 成熟丰满少妇AⅤ无码精品观看| 亚洲国产精品综合久久网络| 超碰人妻91| 极品XXXX欧美一区二区冒泡 | 男男AV纯肉无码免费播放无码| 国产 vedio| 51妺嘿嘿午夜福利| 久久aV直播| 18禁在线看网站| 国产激情精品一区二区三区| 黑人又粗又大a级片| 亚洲国产AV无码专区亚洲AVL | 自拍偷自拍亚洲精品被多人伦好爽| 欧美A级毛欧美1级A大片式放| 天天爱天天做天天爽| 老色批国产在线观看精品| 亚洲欧美国产国产一区二区三区 | 少妇性bbb搡bbb爽爽爽欧美| 老女人老熟女91| 人妻少妇国语| 国产精品日韩中文字幕| 无码国产精品成人| 女人自熨全过程直播| 99精品国产99久久久久久97 | 人妻综合精品| 国产精品久久久久精品A级 | 日本男人天堂| 久久嫖妓电影| 国产三级久久久精品麻豆三级| FC2免费人成在线视频|