受訪者 | 吳翼
采訪 | 王啟隆 編輯 | 屠敏
出品 | CSDN(ID:CSDNnews)
人工智能的浪潮席卷而來,從大模型競賽到智能體系統(tǒng)的探索,從生成模型到推理模型,技術(shù)巨頭們紛紛入場,推動(dòng)著一場“AI 重新定義一切”的時(shí)代躍遷。但在這場熱潮背后,真正推動(dòng)技術(shù)向前的,從來不是一場場轟動(dòng)的發(fā)布會(huì),也不是那些令人眼花繚亂的融資神話,而是一群敢于直面復(fù)雜性、埋頭鉆研底層機(jī)制的工程師與研究者。
吳翼,就是其中一位。
1992 年出生的他,高中時(shí)期便在全國青少年信息學(xué)奧林匹克競賽(NOI2009)中斬獲金牌,并代表中國參加國際信息學(xué)奧林匹克競賽(IOI2010)。此后,他被清華大學(xué)交叉信息研究院提前“簽下”,保送進(jìn)入以“頂尖人才訓(xùn)練”著稱的姚班,成為圖靈獎(jiǎng)得主姚期智教授的桃李門生。在本科階段,吳翼先后前往微軟亞洲研究院、Facebook 實(shí)習(xí),積累了豐富的經(jīng)驗(yàn)。
2014 年本科畢業(yè)后,吳翼赴加州大學(xué)伯克利分校,攻讀人工智能方向的博士學(xué)位,師從著名 AI 學(xué)者 Stuart Russell,深入研究深度強(qiáng)化學(xué)習(xí)的泛化性以及多智能體學(xué)習(xí)。博士畢業(yè)后,他加入 OpenAI,成為全職研究員。
在 OpenAI,吳翼深度參與了多個(gè)項(xiàng)目的研發(fā)。其中,他與團(tuán)隊(duì)共同推出的“多智能體捉迷藏”項(xiàng)目,通過模擬多個(gè)智能體在環(huán)境中的自我博弈與策略演化,展示了復(fù)雜行為如何通過簡單規(guī)則自發(fā)涌現(xiàn)。該項(xiàng)目發(fā)布后廣受關(guān)注,成為 OpenAI 歷史上觀看量最高的研究視頻之一,也被廣泛引用于集體智能相關(guān)研究中。
然而,吳翼并未選擇留在硅谷。他在 OpenAI 工作一年半后,于 2020 年回到國內(nèi),出任清華大學(xué)交叉信息研究院助理教授,將前沿技術(shù)帶回教育與研究體系,并同步展開產(chǎn)業(yè)化探索。
2023 年,他創(chuàng)辦邊塞科技,嘗試將大語言模型與強(qiáng)化學(xué)習(xí)結(jié)合,打造面向普通用戶的智能系統(tǒng)。
2024 年,他參與的清華大學(xué)與螞蟻技術(shù)研究院合作項(xiàng)目推出了 AReaL——一款專為大規(guī)模推理模型打造的開源強(qiáng)化學(xué)習(xí)系統(tǒng),兼具靈活性與高效性,也重塑了強(qiáng)化學(xué)習(xí)訓(xùn)練新標(biāo)桿。
從清華到伯克利求學(xué)之路,從 OpenAI 到邊塞科技的前沿探索,再到清華、螞蟻技術(shù)研究院的深度耕耘,吳翼用十余年的時(shí)間穿越了多個(gè)技術(shù)浪潮。他不是趕上時(shí)代的幸運(yùn)兒,而是那個(gè)始終提前啟程的人。
他的故事,也許沒有太多浮夸的包裝,但是一段由技術(shù)熱愛與長期主義驅(qū)動(dòng)的科研旅程,靜水深流,值得被認(rèn)真記錄。
在 2025 年全球機(jī)器學(xué)習(xí)大會(huì)現(xiàn)場,CSDN 資深編輯王啟隆對吳翼進(jìn)行了面對面專訪,聊人生、聊技術(shù),也聊聊強(qiáng)化學(xué)習(xí)背后的那些真實(shí)挑戰(zhàn)與希望。
AI 產(chǎn)品爆發(fā),但你的痛點(diǎn)解決了嗎?8.15-16 北京威斯汀·全球產(chǎn)品經(jīng)理大 會(huì) PM-Summit,3000+ AI 產(chǎn)品人社群已就位。
直面 AI 落地難題、拆解頭部案例、對接精準(zhǔn)資源!
掃碼登記信息,添加小助手進(jìn)群,搶占 AI 產(chǎn)品下一波紅利:
進(jìn)群后,您將有機(jī)會(huì)得到:
· 吳翼在 2025 全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)上海站的演講 PPT
· 獨(dú)家視頻及文章解讀 AGI 時(shí)代的產(chǎn)品方法論及實(shí)戰(zhàn)經(jīng)驗(yàn)
· 不定期贈(zèng)送 AI 產(chǎn)品干貨資料和秘籍
姚班出發(fā)、伯克利深造、OpenAI 歷練、清華歸來,吳翼的程序人生
王啟?。赫埬茸鰝€(gè)簡單的自我介紹吧。
吳翼:大家好,我叫吳翼。目前在清華大學(xué)交叉信息研究院擔(dān)任助理教授,同時(shí)也是博士生導(dǎo)師。我的研究方向長期聚焦在強(qiáng)化學(xué)習(xí)。我于 2019 年在 UC Berkeley 獲得博士學(xué)位,之后在 OpenAI 工作了一年半,2020 年回到清華任教。
最近,我也受邀幫助螞蟻集團(tuán)在螞蟻研究院新組建了強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室,專注于強(qiáng)化學(xué)習(xí)相關(guān)的開源算法、模型以及基礎(chǔ)設(shè)施的建設(shè)。
王啟隆:您曾走過一條頗具代表性的路徑:從清華姚班到伯克利攻讀博士,再到加入 OpenAI 擔(dān)任研究員,隨后回到清華任教。期間,您還創(chuàng)辦了邊賽科技。一路走來,身份多次轉(zhuǎn)換,您有哪些最深的體會(huì)?又遇到過哪些挑戰(zhàn)?
吳翼:最大的挑戰(zhàn)是——開公司真的太難了。
王啟隆:相比之下,OpenAI 的工作節(jié)奏和現(xiàn)在在清華當(dāng)老師,哪個(gè)更“卷”?或者說,是兩種不一樣的“卷”法?
吳翼:我覺得,創(chuàng)業(yè)絕對是最“卷”的。因?yàn)閯?chuàng)業(yè)公司幾乎每天都在和“死亡”賽跑,尤其是在 AI 這種競爭極其激烈的領(lǐng)域,稍有不慎就可能錯(cuò)失關(guān)鍵的時(shí)間窗口。比如錯(cuò)過融資機(jī)會(huì)、商業(yè)合作,甚至只是晚了半年,結(jié)果都可能完全不同。
像 Manus,如果晚發(fā)布半年,影響會(huì)非常大;DeepSeek-R1 也是一樣。哪怕是在做開源系統(tǒng),第一個(gè)和第二個(gè)推出的效果也可能天差地別。ChatGPT 能拿到那么多紅利,很大程度上就是因?yàn)樗堑谝粋€(gè)出現(xiàn)的大模型產(chǎn)品。
所以,時(shí)間窗口非常短。對創(chuàng)業(yè)公司來說,抓不住這個(gè)窗口,可能就意味著“死”。而在 OpenAI 工作,不太可能“死”;在學(xué)校教書,即便科研進(jìn)展、項(xiàng)目申請不順利,學(xué)校也提供了很好的保障,無非是在哪工作的事,不至于生死攸關(guān)。
總體來看,無論是在學(xué)校還是早期的 OpenAI,環(huán)境相對更寬松,更適合專心做研究,不需要操心那么多。而創(chuàng)業(yè)就完全不一樣了。所以我也經(jīng)常勸身邊的人,如果沒有想得特別清楚,真的不建議輕易去創(chuàng)業(yè)。
但如果你在我勸退之后,還是堅(jiān)持要去創(chuàng)業(yè),那反倒說明你是真的準(zhǔn)備好了,那就可以去試試。創(chuàng)業(yè)確實(shí)能讓人快速成長,也能學(xué)到很多東西。
王啟隆:您在 2020 年選擇離開 OpenAI 回到清華,這個(gè)轉(zhuǎn)變非常關(guān)鍵。您當(dāng)時(shí)是出于什么原因做出這個(gè)決定的?
吳翼:其實(shí)關(guān)鍵原因可能是——當(dāng)時(shí)不知道股權(quán)那么值錢(笑)。
王啟隆:哈哈哈哈。
吳翼:(笑)開個(gè)玩笑啦。但我想澄清一點(diǎn),不是我先在 OpenAI 工作,然后再?zèng)Q定回國的,而是反過來。我在 2018 年底就先答應(yīng)姚期智先生要回清華了。然后我說,在正式回國之前想再在硅谷多待一段時(shí)間,于是去了 OpenAI。
王啟隆:剛好就趕上了 OpenAI 的那個(gè)關(guān)鍵時(shí)期?
吳翼:對,現(xiàn)在回頭看,有時(shí)候覺得人太守信用,可能也會(huì)“吃虧”。(笑)但當(dāng)時(shí)確實(shí)是客觀決定。我在美國讀博期間經(jīng)?;貒鴮?shí)習(xí),所以很幸運(yùn)也親眼看到了中國互聯(lián)網(wǎng)時(shí)代的尾聲。這也讓我覺得中國仍然有很多機(jī)會(huì),這是我選擇回來發(fā)展的一個(gè)重要原因。
王啟隆:在讀博期間,你似乎也有過方向上的迷茫,最后是怎么選擇了做強(qiáng)化學(xué)習(xí)(RL)的呢?
吳翼:說實(shí)話,我當(dāng)時(shí)的選擇其實(shí)挺隨機(jī)的。最早我做的是編譯器方向,研究一些跟邏輯推理相關(guān)的內(nèi)容。但后來發(fā)現(xiàn),一方面我在這個(gè)方向上做得不是特別好,另一方面我也不是特別感興趣,而且它本身也比較小眾。所以我開始考慮轉(zhuǎn)方向。
這一點(diǎn)上我真的很感謝 Berkeley,那里的合作氛圍非常好。當(dāng)時(shí)我就去找了 Pieter Abbeel,他是 OpenAI 早期的首席科學(xué)家之一,后來離開創(chuàng)辦了機(jī)器人公司 Covariant,前陣子剛被亞馬遜收購。
我敲開他的門,說我想做強(qiáng)化學(xué)習(xí)——因?yàn)槟菚?huì)兒 RL 正火。他當(dāng)時(shí)提了兩個(gè)要求:第一,你得先跟你自己的導(dǎo)師溝通好,不能直接繞過導(dǎo)師來找我。我說這事我已經(jīng)溝通過了;第二,他給了我三個(gè)項(xiàng)目,讓我自己挑一個(gè)。我當(dāng)時(shí)閉著眼隨便選了一個(gè),結(jié)果正好選中了后來拿了 Best Paper 的那個(gè)。所以你看,這完全就是運(yùn)氣,當(dāng)時(shí)對方向根本沒有太多判斷力。
其實(shí)很多時(shí)候的選擇,真的是這樣。你回頭再看,可能都很難解釋當(dāng)時(shí)為什么會(huì)做出那個(gè)決定。
王啟隆:一路走來,你一直在“大神云集”的環(huán)境中,比如姚班、OpenAI,現(xiàn)在在清華。這種環(huán)境對你來說,是壓力更大,還是動(dòng)力更強(qiáng)?
吳翼:首先,壓力肯定會(huì)存在。我認(rèn)為,“動(dòng)力”應(yīng)源自內(nèi)心真正想做的事。如果動(dòng)力單純來自外界環(huán)境,往往難以持久——畢竟,靠環(huán)境施壓很難讓人堅(jiān)持一件事五到十年。能支撐一個(gè)人長期投入的,必定是源自內(nèi)心的熱愛與認(rèn)同。
就像有些人能十年如一日地跑步,那不是因?yàn)橛腥四帽拮颖扑?,而是因?yàn)樗麖闹蝎@得了快樂和放松感。
同理,如果你發(fā)現(xiàn)自己做很多事是出于周圍人的影響或比較心態(tài),我建議可以稍微放松一下,去想一想有沒有什么事是你無論身處哪個(gè)環(huán)境都愿意做的。那種內(nèi)在動(dòng)機(jī)才更重要。
當(dāng)然,“大神云集”也有好處,比如你能認(rèn)識很多人,他們會(huì)在關(guān)鍵時(shí)刻幫助你、給你機(jī)會(huì)。Pieter 給了我做 RL 的機(jī)會(huì),Stuart Russell 給了我很多研究上的啟發(fā)。但環(huán)境的壞處是,壓力太大也容易讓人迷失方向。所以我建議大家多花時(shí)間去思考:我真正想做的是什么?
螞蟻與清華開源強(qiáng)化學(xué)習(xí)框架 AReaL 究竟是什么?
王啟?。?/strong>你的團(tuán)隊(duì)和螞蟻技術(shù)研究院聯(lián)合發(fā)布了AReaL,能否簡要說明一下 AReaL 主要想解決的問題是什么?
吳翼:強(qiáng)化學(xué)習(xí)最近在整個(gè) AI 尤其是大模型的發(fā)展中,帶來了很多新的變化。其中一個(gè)核心的新趨勢就是所謂的“推理模型”(Reasoning Model)。最初是由 OpenAI 的 o1 模型提出的這個(gè)概念,后來包括 DeepSeek-R1 等模型也在延續(xù)和擴(kuò)展這一方向。
推理模型的核心理念是:在生成最終答案之前,大模型會(huì)先“思考”一下,輸出一段“thinking token”。研究發(fā)現(xiàn),Thinking token 越多,模型的最終回答往往越準(zhǔn)確。而強(qiáng)化學(xué)習(xí)正是訓(xùn)練這種“先思考、后回答”能力的有效方式。
推理模型的出現(xiàn),使得強(qiáng)化學(xué)習(xí)在大模型訓(xùn)練中再次變得尤為關(guān)鍵,成為提升模型推理能力的一個(gè)重要 scaling 工具。因此我們設(shè)計(jì)了 AReaL ——全稱是 Ant Reasoning Reinforcement Learning,即螞蟻推理強(qiáng)化學(xué)習(xí)框架。AReaL 致力于為這一類推理模型提供高效、開源、可復(fù)用的訓(xùn)練方案。
當(dāng)然,AReaL 并不僅限于推理模型的訓(xùn)練,作為一個(gè)強(qiáng)化學(xué)習(xí)框架,它也可以適配其他任務(wù)。但我們?yōu)檫m應(yīng)新范式做了很多定制化的優(yōu)化和設(shè)計(jì)。
王啟隆:與大家熟悉的 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))相比,AReaL 的強(qiáng)化學(xué)習(xí)目標(biāo)有何不同?RLHF 通常是依賴人類標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練的。
吳翼:這是一個(gè)非常重要的問題。首先要說明的是,其實(shí)所有的機(jī)器學(xué)習(xí)訓(xùn)練,廣義上都離不開人類的參與和標(biāo)注,只是參與的方式和標(biāo)注的內(nèi)容不同而已。
RLHF 最初是為了解決“大模型不好用”的問題。比如早期的 GPT-3,經(jīng)常出現(xiàn)的問題是:你問它一個(gè)問題,它反而只是重復(fù)你的問題,而不給你真正的解答。這種行為讓模型在實(shí)際應(yīng)用中體驗(yàn)很差。
為了讓模型更“聽話”,OpenAI 研究了將近兩年,最終提出了 RLHF 方法。其核心思路是:人類提供一批“好”答案和“不好”答案,讓模型學(xué)習(xí)哪些回答是被偏好、被認(rèn)可的,從而調(diào)整生成行為。這一方法顯著提升了模型的可用性,讓 GPT-3 這樣的原始模型轉(zhuǎn)變?yōu)椤凹嚷犜捰趾糜谩钡?ChatGPT。
但 RLHF 并不提升模型的“智力”,它只是讓模型在形式上更合乎人類預(yù)期。直到后來,像 o1 這樣的推理模型出現(xiàn),大家才發(fā)現(xiàn):強(qiáng)化學(xué)習(xí)不僅可以調(diào)優(yōu)行為,還能實(shí)質(zhì)性地增強(qiáng)模型的推理能力。
所以說,兩者關(guān)注點(diǎn)不同:RLHF 的目標(biāo)是“讓模型聽話”;而 AReaL 更關(guān)注“讓模型更聰明”。這也正是 AReaL 構(gòu)建的初衷之一。在推理模型訓(xùn)練中,我們發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)也呈現(xiàn)出類似 Scaling Law 的特性:你投入越多算力和高質(zhì)量數(shù)據(jù),模型智力的提升就越顯著。這是 RLHF 所不具備的能力,也是我們?yōu)槭裁匆獜摹奥犜挕弊呦颉奥斆鳌钡年P(guān)鍵所在。
王啟隆:對,這是非常關(guān)鍵的一項(xiàng)技術(shù)。RLHF 本身并沒有改變 Scaling Law。今年出現(xiàn)了一個(gè)非常有意思的研究成果——DeepSeek 推出的 R1 Zero,它是完全基于強(qiáng)化學(xué)習(xí)訓(xùn)練的,沒有使用 SFT。這種純強(qiáng)化學(xué)習(xí)的路線吸引力何在?它目前的成本或者說技術(shù)挑戰(zhàn)又有哪些?這些挑戰(zhàn)是可以克服的嗎?
吳翼:它的作用其實(shí)就是“秀肌肉”,說得直接一點(diǎn)。我打個(gè)比方,比如梅西可以從后場一路帶球過人到前場,然后完成射門得分。但他不會(huì)在每一場比賽里都這樣做。訓(xùn)練時(shí)會(huì)這樣做,目的是兩個(gè):一是鍛煉腳法,二是告訴別人“我很厲害”。
R1 Zero 就是這樣的“全場帶球進(jìn)球”。它展示了 DeepSeek 的訓(xùn)練數(shù)據(jù)是可靠的、訓(xùn)練流程是正確的、算法和基礎(chǔ)設(shè)施也是可行的。它是一種能力的展示。但這不會(huì)成為他們在實(shí)際生產(chǎn)系統(tǒng)中的標(biāo)準(zhǔn)做法,因?yàn)檫@樣效率太低。正常情況下,一定是團(tuán)隊(duì)配合,把球傳到禁區(qū)附近,再讓“梅西”發(fā)揮個(gè)人能力。同理,常規(guī)流程還是先通過 SFT 訓(xùn)練模型到一定水平,再用強(qiáng)化學(xué)習(xí)進(jìn)一步提升表現(xiàn),實(shí)現(xiàn) Scaling。
王啟隆:之前 OpenAI 官號在 YouTube 上曾發(fā)布一個(gè)爆火的視頻,是關(guān)于多智能體的捉迷藏實(shí)驗(yàn),那時(shí)你也參與了這個(gè)項(xiàng)目。其實(shí)當(dāng)時(shí)也用了強(qiáng)化學(xué)習(xí)。你覺得當(dāng)時(shí)的 RL 訓(xùn)練和如今開發(fā) AReaL 所面臨的挑戰(zhàn)是否類似?這些年來強(qiáng)化學(xué)習(xí)在技術(shù)難點(diǎn)上的變化體現(xiàn)在哪里?
吳翼:這兩者之間確實(shí)有很大不同。當(dāng)然,也有些 Agent 相關(guān)的難點(diǎn)現(xiàn)在又重新出現(xiàn)了。我們可以從兩個(gè)主要方面來談。
第一個(gè)是模型體積的變化帶來了巨大的挑戰(zhàn)。在傳統(tǒng)強(qiáng)化學(xué)習(xí)中,無論是機(jī)器人任務(wù)、捉迷藏,還是 Dota,所使用的模型都非常小,通常只有幾十兆或最多一兩百兆。推理和生成過程甚至可以在 CPU 上完成,計(jì)算需求很低,因此你根本不需要考慮推理效率問題,算法才是重點(diǎn)。那時(shí)候,訓(xùn)練更多是靠 CPU 來擴(kuò)展,比如運(yùn)行大量的游戲環(huán)境。
但進(jìn)入大模型時(shí)代后,模型規(guī)模增長了幾個(gè)數(shù)量級,可能是上千億參數(shù)(100B)的模型,對比之前的 100M,擴(kuò)展了 1000 倍。這對訓(xùn)練和推理提出了全新的要求。
第二個(gè)是環(huán)境交互的變化。以前訓(xùn)練游戲智能體時(shí),一個(gè)對局可能持續(xù) 20 分鐘。而在今天的大模型任務(wù)中,像操作系統(tǒng)交互、代碼生成或數(shù)學(xué)推理等場景,環(huán)境交互往往很短,甚至有時(shí)模型是在“腦子里”推理,不依賴真實(shí)環(huán)境。所以交互過程變得更加簡化。
雖然交互變簡單了,但模型本身變得極為龐大,這反而成了新的瓶頸。所以我們也對之前為游戲類強(qiáng)化學(xué)習(xí)開發(fā)的系統(tǒng)進(jìn)行了大量改造,以適配如今大模型的訓(xùn)練需求。
“神之一手”能否批量復(fù)現(xiàn)?
王啟隆:提到游戲,難免聯(lián)想到 AlphaGo 人機(jī)大戰(zhàn)中第二局第 37 手(Move 37)那步顛覆職業(yè)棋手認(rèn)知的操作。如今人們期待大模型(尤其是推理模型)能否迎來類似的 "AlphaGo 時(shí)刻"。對此可探討兩個(gè)問題:①強(qiáng)化學(xué)習(xí)的 Scaling Law 是否是通向該時(shí)刻的路徑;②若某模型出現(xiàn) "Move 37" 級表現(xiàn),其突破能力是可持續(xù)的,還是更可能局限于游戲等垂直場景?
吳翼:首先,對于有沒有出現(xiàn)類似 Move 37 的“神之一手”這個(gè)問題,其實(shí)已經(jīng)出現(xiàn)了。比如 DeepSeek-R1 為什么能出圈?就是因?yàn)樗谝淮握故玖饲逦耐评礞湥尨蠹腋惺艿健癆I 是在認(rèn)真思考”,而不是隨便給個(gè)答案。它的推理過程讓人覺得“哇,它像個(gè)人”。這就是一種“神之一手”,而且是大家都能理解的“神之一手”。所以它出圈了。
其次,Scaling Law 是否會(huì)持續(xù)?我認(rèn)為是會(huì)的。比如最近 OpenAI 發(fā)布的 o3、o4,從結(jié)果來看,強(qiáng)化學(xué)習(xí)在后訓(xùn)練階段確實(shí)帶來了效果的進(jìn)一步提升。當(dāng)然這種提升不是只靠后訓(xùn)練,而是“預(yù)訓(xùn)練 × 后訓(xùn)練”的聯(lián)合作用。只是預(yù)訓(xùn)練的邊際收益越來越低,ROI 降低了,所以強(qiáng)化學(xué)習(xí)的提升空間相對更值得挖掘。整體來看,Scaling Law 的趨勢還在繼續(xù)。
最后,“神之一手”是否只會(huì)局限于游戲等垂直場景力?我認(rèn)為,垂類模型的應(yīng)用場景絕非局限于游戲領(lǐng)域。大模型的核心價(jià)值在于泛化能力——支持多場景交互、適配各類用戶需求,僅憑單一游戲場景的模型無法體現(xiàn)這一時(shí)代特征。
真正的垂類模型往往誕生于細(xì)分領(lǐng)域的深度優(yōu)化。例如 Deep Research、OpenAI 曾推出的 operator(盡管未達(dá)預(yù)期),以及 Claude 在代碼生成、PPT 制作等場景的突出表現(xiàn),這些案例均表明:強(qiáng)化學(xué)習(xí)技術(shù)既能推動(dòng) o1、o3 等通用模型的演進(jìn),也能針對特定場景打造專用產(chǎn)品。
王啟隆:當(dāng)一個(gè)模型的能力與泛化能力達(dá)到某個(gè)臨界點(diǎn),甚至進(jìn)入新的 “突破階段”(如能產(chǎn)出類似 AlphaGo 的 “神之一手”),這是否意味著它已具備批量生成 “神之一手” 的能力?即達(dá)到類似 AGI(通用人工智能)的水平?還是說,其突破仍會(huì)像Deep Research那樣,以產(chǎn)品發(fā)布的形式陸續(xù)出現(xiàn)?
吳翼:這個(gè)問題可以從兩個(gè)層面分析:
第一,即便模型接近 AGI 能力,產(chǎn)品層面的創(chuàng)新空間依然存在。類比人類社會(huì):一個(gè)頂尖人才搭配更高效的工具或協(xié)作方式,仍能產(chǎn)出更卓越的成果。例如,微信作為成熟平臺,仍可通過小程序生態(tài)持續(xù)延伸價(jià)值。未來 AI 生態(tài)可能呈現(xiàn)多層次結(jié)構(gòu)——既有統(tǒng)一的基礎(chǔ)模型,也有基于其開發(fā)的垂直應(yīng)用。
這種生態(tài)的厚度和多樣性值得探索,盡管其最終形態(tài)(多層級或簡單化)可能需要 1-2 年才能清晰化。我傾向于認(rèn)為,“產(chǎn)品 + 強(qiáng)化學(xué)習(xí)” 仍將是重要方向,但不排除未來出現(xiàn)極強(qiáng)的統(tǒng)一 AI 模型。
第二,模型尺寸的權(quán)衡我們可能看到兩類模型分化:
大而強(qiáng)但成本高的模型:具備更強(qiáng)的通用能力,但部署成本高昂;
輕量化、高效的小模型:針對特定場景優(yōu)化,性價(jià)比更高。這種分化將推動(dòng)模型架構(gòu)與產(chǎn)品形態(tài)的多元化。
此外,不同公司的模型(如 OpenAI、Gemini、Claude、Grok 及國內(nèi)模型)在使用體驗(yàn)上的差異,也可能影響產(chǎn)品定義方式。這些趨勢的走向,或許需要一年后才能更清晰地判斷。
強(qiáng)化學(xué)習(xí)三要素:獎(jiǎng)勵(lì)、搜索與提示
王啟隆:你之前提到 RL 包含三個(gè)要素:一個(gè)是獎(jiǎng)勵(lì)模型(Reward Model),一個(gè)是搜索/探索機(jī)制,還有一個(gè)是 Prompt。在目前的技術(shù)水平下,這三者中哪個(gè)最難搞定?
吳翼:首先需要明確強(qiáng)化學(xué)習(xí)的基本框架 —— 它包含任務(wù)定義(即提示詞)、環(huán)境(產(chǎn)品場景或交互載體,如文本輸入)、獎(jiǎng)勵(lì)函數(shù)這三大核心要素。當(dāng)我們討論如何構(gòu)建一個(gè)強(qiáng)化學(xué)習(xí)模型時(shí),實(shí)則涉及四個(gè)關(guān)鍵要素:基座模型、訓(xùn)練系統(tǒng)、訓(xùn)練數(shù)據(jù)和訓(xùn)練算法。
這里需要說明:模型定義本身并無優(yōu)劣之分,只要符合強(qiáng)化學(xué)習(xí)的框架即可(否則便不屬于該領(lǐng)域問題)。因此,我們的討論應(yīng)聚焦于訓(xùn)練要素 —— 基座模型、系統(tǒng)、數(shù)據(jù)、算法中,哪些更難突破?
在我看來,預(yù)訓(xùn)練模型屬于預(yù)訓(xùn)練階段的范疇(如開源社區(qū)或企業(yè)提供的基礎(chǔ)模型),其優(yōu)化是另一維度的課題,暫不納入本次討論。聚焦強(qiáng)化學(xué)習(xí)的訓(xùn)練環(huán)節(jié),核心挑戰(zhàn)集中在算法、系統(tǒng)和數(shù)據(jù)這三者。
這三者中,我認(rèn)為算法反而是“最不重要”。最難的是系統(tǒng)和數(shù)據(jù)。后兩者中,我個(gè)人認(rèn)為系統(tǒng)的門檻更高。我的排序是:系統(tǒng)>數(shù)據(jù)(我甚至打個(gè) 1.5)>算法。
為什么這么說呢?
先說數(shù)據(jù)。強(qiáng)化學(xué)習(xí)要想做得好,訓(xùn)練的數(shù)據(jù)質(zhì)量非常關(guān)鍵。你出什么題給模型練習(xí),決定了它能不能真正變強(qiáng)。出太簡單的題,比如讓大學(xué)生做小學(xué)數(shù)學(xué)題,是沒用的;出太難的,比如讓他去解菲爾茲獎(jiǎng)?lì)}目,也一樣學(xué)不到東西。所以數(shù)據(jù)的構(gòu)造要?jiǎng)倓偤?,足夠有挑?zhàn)但又能學(xué)得會(huì)。
再說系統(tǒng)。系統(tǒng)的關(guān)鍵作用在于加快實(shí)驗(yàn)迭代的速度。算法的進(jìn)步,本質(zhì)上是靠反復(fù)實(shí)驗(yàn)積累出來的。如果一個(gè)團(tuán)隊(duì)能在相同時(shí)間和資源下跑一萬個(gè)實(shí)驗(yàn),而另一個(gè)團(tuán)隊(duì)只能跑一百次,即使后者有再好的人才,差距也是非常大的。你可能一萬對一千還能靠人彌補(bǔ),但一萬對一百就基本沒戲了。
所以,訓(xùn)練系統(tǒng)的效率和穩(wěn)定性,直接決定了算法團(tuán)隊(duì)的迭代能力,進(jìn)而決定了整個(gè)模型的進(jìn)化速度。這也是為什么我們團(tuán)隊(duì)會(huì)花這么多精力投入在訓(xùn)練系統(tǒng)上——甚至認(rèn)為,開源訓(xùn)練系統(tǒng)的價(jià)值,可能比開源模型還要大。
AI 是否需要知道自己“不知道”?
王啟隆:我曾經(jīng)在北京一次智源大會(huì)上,見到你在現(xiàn)場與Stuart Russell(加州大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)系教授)教授對話。他是你在伯克利的博導(dǎo),也是 AI 對齊領(lǐng)域的權(quán)威,起還與他人合著了《人工智能:現(xiàn)代方法》這本教材。他一直非常關(guān)注 AI 的安全和對齊問題。當(dāng)時(shí)他提到,AI 需要知道自己不知道人類的價(jià)值觀。那你現(xiàn)在在設(shè)計(jì)強(qiáng)化學(xué)習(xí)系統(tǒng)時(shí),怎么體現(xiàn)對不確定性或安全性的考量?
吳翼:我非常認(rèn)同 Russell 教授對 AI 安全的看法。這個(gè)問題的核心在于目標(biāo)定義。當(dāng)我們讓一個(gè)模型去推理或完成任務(wù)時(shí),人類其實(shí)很難用一種完全明確的語言表達(dá)出自己真正想要的東西。所以,如果 AI 對目標(biāo)過于自信,就很容易出現(xiàn)偏差或錯(cuò)誤,這也是 Russell 強(qiáng)調(diào)“AI 應(yīng)該知道自己可能不知道”的原因。
但在當(dāng)前階段,能夠體現(xiàn)這種“不確定性認(rèn)知”的方法還不成熟,還難以直接應(yīng)用在工業(yè)或大規(guī)模的生產(chǎn)環(huán)境中。目前我們在產(chǎn)品層面還是默認(rèn)模型需要給出明確、準(zhǔn)確的結(jié)果——輸入要明確、輸出要精確。
不過我在清華做的一些人機(jī)協(xié)作游戲相關(guān)工作,就特別關(guān)注這類問題。比如 AI 和人一起玩 Overcooked、狼人殺,AI 要與人配合,就必須猜測人類的行為,這就需要模型對“我可能不知道人類怎么想”有某種形式的認(rèn)知。我們也在這些項(xiàng)目中用了不少這類方法,如果大家感興趣,可以看看我們的一些論文,里面有很多好玩的嘗試。
王啟隆:當(dāng)時(shí) Russell 教授還談到提示工程。他覺得我們現(xiàn)在和 AI 對話時(shí)還得加上“請你”“幫我”這樣的敬語,有點(diǎn)像在馴化一只動(dòng)物。那你怎么看?未來我們和 AI 對話還會(huì)一直需要提示工程嗎?還是會(huì)變得更自然?
記得 o1 出來時(shí),很多人說提示工程要消失了,提示工程師這職業(yè)也要完了。但到 R1 出來后,風(fēng)向又變了。連 Sam Altman 自己都說,提示工程師未來幾年仍然很重要。我自己感覺也是,如果不用提示工程、只是隨便說幾句,自然語言生成效果確實(shí)不如寫得精準(zhǔn)一些。
吳翼:首先,我覺得在任何階段,提示工程都是有價(jià)值的。這是因?yàn)檎麄€(gè) AI 的交互范式已經(jīng)從原來的圖形界面變成自然語言了。這是方式本身就會(huì)帶來了“誰用得好、誰用得不好”的差異。就像以前大家用 Google 搜索,關(guān)鍵詞好不好,結(jié)果會(huì)差很多。任何產(chǎn)品形態(tài)都會(huì)有“用得溜的人”和“用得一般的人”,這在歷史上屢見不鮮。Prompt 工程也是一樣,它的價(jià)值一定會(huì)持續(xù)存在。
其次,產(chǎn)品的發(fā)展趨勢,肯定是讓用戶說得越來越少、用得越來越簡單。早期的 Prompt Engineering 要寫幾千個(gè) token,現(xiàn)在很多只需要幾百個(gè),甚至更短。這說明 AI 系統(tǒng)本身變得更智能,Prompt 負(fù)擔(dān)更小。但 Prompt 工程不會(huì)消失,它的形式會(huì)演化,越來越貼近自然語言,但本質(zhì)上,它仍然是“把事情表達(dá)清楚”的能力。
王啟隆:我突然想到人工智能教父Geoffrey Hinton在一次采訪里提到,他和 Ilya Sutskever(前 OpenAI 聯(lián)合創(chuàng)始人和首席科學(xué)家)都是典型的“直覺型”決策者,甚至一個(gè)電話就能決定方向。你剛才說“隨機(jī)”,我感覺也有點(diǎn)像這種風(fēng)格。
吳翼:對,我基本上也差不多。我有個(gè)“拋硬幣理論”:當(dāng)你在兩個(gè)或多個(gè)選項(xiàng)之間糾結(jié)時(shí),其實(shí)說明這些選項(xiàng)都差不多,沒有明顯好或不好。既然這樣,那就拋個(gè)硬幣吧,正面選 A,反面選 B。
但其實(shí),大多數(shù)人并不會(huì)真的去看硬幣的正反面——一旦你決定“交給命運(yùn)”,你內(nèi)心就已經(jīng)有傾向了。所以拋硬幣的過程,反而幫你做出了決策。
王啟隆:某次訪談中,你提到過自己是 INTJ 人格,這種人格特質(zhì)會(huì)影響你理想中的人機(jī)交互方式嗎?你更傾向于 AI 主動(dòng)一點(diǎn),還是保持被動(dòng)響應(yīng)?
吳翼:這需要因人而異。我認(rèn)為,AI 產(chǎn)品的設(shè)計(jì)必須是多樣化、可個(gè)性化的。比如面對 I 型人格和 E 型人格用戶,AI 的交互方式就應(yīng)該有所差異。作為典型的 I 型人,我更希望 AI 減少主動(dòng)打擾,但能精準(zhǔn)捕捉我的需求。
這也是我此前研究人機(jī)協(xié)作時(shí)的核心出發(fā)點(diǎn):當(dāng)人和 AI 共同完成任務(wù)(例如玩游戲)時(shí),我做出一個(gè)動(dòng)作,AI 最好能預(yù)判我接下來的意圖,而不是反復(fù)追問。未來 AI 的核心競爭力之一,正是個(gè)性化。我覺得,AI 產(chǎn)品的設(shè)計(jì)一定是多樣化、可個(gè)性化的。
王啟隆:但現(xiàn)在 AI 還有一個(gè)問題,就是“幻覺”——它經(jīng)常一本正經(jīng)地胡說八道。那 AI 應(yīng)該學(xué)會(huì)“猶豫”嗎?比如說“我不確定”或者“我不知道”?
吳翼:我覺得應(yīng)該。AI 需要知道什么時(shí)候自己不確定。
王啟隆:但現(xiàn)在似乎沒有哪個(gè) AI 模型會(huì)主動(dòng)這么做。
吳翼:對,我覺得這可能是底層架構(gòu)上的問題。
我們當(dāng)然是希望 AI 能意識到自己“不知道”。這也是我老師 Stuart Russell(加州大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)系教授)一直強(qiáng)調(diào)的觀點(diǎn)。他做了很多關(guān)于 AI 為什么要具備“不確定性意識”的研究,認(rèn)為一個(gè)好的 AI 系統(tǒng)應(yīng)該知道自己“不知道”。
但要做到這一點(diǎn),其實(shí)非常難。難的原因主要有兩個(gè):
第一個(gè)原因是現(xiàn)有的訓(xùn)練范式本身就不鼓勵(lì) AI 說“不知道”。比如強(qiáng)化學(xué)習(xí),需要明確的目標(biāo)和獎(jiǎng)勵(lì)機(jī)制;又比如 Next Token Prediction,它的訓(xùn)練目標(biāo)就是“預(yù)測下一個(gè)詞”,而沒有內(nèi)置處理不確定性的機(jī)制。這跟訓(xùn)練算法的設(shè)計(jì)有關(guān)。但問題是,目前這些方法雖然有理論局限,卻是“能用”的。所以我們才不得不用。
第二個(gè)原因是深度學(xué)習(xí)本身帶來的問題:模型越大,越容易“過度自信”。這是一個(gè)我們在理論和實(shí)踐中都觀察到的現(xiàn)象。因?yàn)榇竽P偷挠洃浟?qiáng),你給它一個(gè)有瑕疵的答案,它也可能完整記下來,然后非常自信地復(fù)述出來。
所以我們現(xiàn)在面臨的難題是,怎么讓一個(gè)本質(zhì)上“過度自信”的模型,學(xué)會(huì)承認(rèn)自己的不確定性。這非常難。過去有不少科學(xué)家在研究這個(gè)問題,但還沒有找到特別好的解決方法。
我自己對這件事情做了一個(gè)公開演講,如果大家對這個(gè)方向感興趣,可以看看我在 B 站的視頻(搜索“深度學(xué)習(xí)+我的名字+螞蟻公開課”),當(dāng)然也可以自行做一些這樣的研究,這仍然是一個(gè)非常開放且挑戰(zhàn)極大的問題。
AI 的下一站突破會(huì)在哪里?
王啟?。?/strong>展望未來三到五年,甚至更短的時(shí)間,你最期待 AI 在哪個(gè)方向上取得突破?你今天其實(shí)也提到了多智能體協(xié)作。最近我看到 Stanford 有篇論文提到,多智能體協(xié)作的研究進(jìn)展緩慢、瓶頸明顯——為什么會(huì)這樣?
吳翼:這個(gè)問題其實(shí)可以分為兩個(gè)部分。
第一部分是關(guān)于未來 AI 最有可能取得突破的方向。其實(shí)很難想象未來會(huì)是什么樣,因?yàn)?AI 的能力還沒有達(dá)到上限。不過,就我個(gè)人而言,我還是比較關(guān)注“記憶表達(dá)”和“個(gè)性化”。這些年 OpenAI 也在探索個(gè)性化方向,但目前還沒做得特別好。
從長期來看,大家對 AI 智能水平的不斷提升已經(jīng)見怪不怪了,但“智能如何更好地與人交互”仍有很大探索空間。短期內(nèi),大模型仍在不斷追求 Scaling Law 帶來的性能提升。
第二部分是關(guān)于多智能體系統(tǒng)為什么發(fā)展緩慢、瓶頸明顯。我認(rèn)為根本問題在于,目前我們所謂的“多智能體協(xié)作”,很多時(shí)候本質(zhì)上還是在解決“指令執(zhí)行”問題——人給出一個(gè)明確的指令,多個(gè)智能體按照分工去完成它。這個(gè)前提是:指令本身是清晰、完整的。
很多被稱作“多智能體協(xié)作”的場景,其實(shí)是因?yàn)橐粋€(gè)模型能力不夠強(qiáng),我們才用多個(gè)模型互相配合,試圖通過工程方式或是 Prompt Engineering 手段來補(bǔ)足。
換句話說,如果將來出現(xiàn)了一個(gè)能力更強(qiáng)、泛化性更好的單模型,那原本需要多個(gè)智能體協(xié)作才能完成的任務(wù),它一個(gè)模型就能勝任——那還需要多智能體嗎?所以,從理論上講,多智能體框架并不是“必需”的,它更像是一種可選的優(yōu)化路徑,而不是不可替代的基礎(chǔ)。
但確實(shí)存在一些任務(wù),天然就需要多智能體建模。比如那些本質(zhì)上涉及博弈或協(xié)作的任務(wù):人和 AI 一起打游戲、協(xié)作完成任務(wù),或是在有競爭關(guān)系的系統(tǒng)中互動(dòng)。在這些情況下,你沒法用一個(gè)模型來模擬所有 Agent,就必須引入多智能體系統(tǒng)。
另一個(gè)典型場景是,等到 Agent 真正普及,比如每個(gè)人都擁有自己的 AI 助手,這些助手幫助人類獲取信息、使用工具,那整個(gè)世界本質(zhì)上就變成了一個(gè)多智能體環(huán)境。建模方法也必須適應(yīng)這種結(jié)構(gòu)化、多主體的現(xiàn)實(shí)。
2025 全球產(chǎn)品經(jīng)理大會(huì)
8 月 15–16 日
北京·威斯汀酒店
2025 全球產(chǎn)品經(jīng)理大會(huì)將匯聚互聯(lián)網(wǎng)大廠、AI 創(chuàng)業(yè)公司、ToB/ToC 實(shí)戰(zhàn)一線的產(chǎn)品人,圍繞產(chǎn)品設(shè)計(jì)、用戶體驗(yàn)、增長運(yùn)營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。
更多詳情與報(bào)名,請掃碼下方二維碼。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.