夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

為何強(qiáng)化學(xué)習(xí)火遍硅谷?AGI的關(guān)鍵一步

0
分享至

文 | 硅谷101

RL(Reinforcement Learning 強(qiáng)化學(xué)習(xí))曾在AlphaGo時(shí)代登頂熱搜,又在大模型浪潮中沉寂多年。如今,不管在AI Agent的技術(shù)架構(gòu)還是模型預(yù)訓(xùn)練中,使用強(qiáng)化學(xué)習(xí)的方式搭建技術(shù)架構(gòu)已經(jīng)成為硅谷的一種主流趨勢。強(qiáng)化學(xué)習(xí)的頂級(jí)人才,正成為硅谷巨頭與投資人的香餑餑。

本期《硅谷101》,主播泓君繼續(xù)對話Pokee.ai創(chuàng)始人、前Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)負(fù)責(zé)人朱哲清,我們將討論:

1.模型進(jìn)化與Agent的商業(yè)化中,最新技術(shù)方向是什么;

2.Meta收購ScaleAI背后的商業(yè)邏輯

3.硅谷強(qiáng)化學(xué)習(xí)頂級(jí)人才的大本營

以下是這次對話內(nèi)容的精選:

01 強(qiáng)化學(xué)習(xí)與AGI的五個(gè)層次,真實(shí)的分水嶺在哪?

泓君:我注意到這一次OpenAI的發(fā)布會(huì)里也提到了在用RL(Reinforcement Learning 強(qiáng)化學(xué)習(xí))的底層架構(gòu)。我知道RL(強(qiáng)化學(xué)習(xí))的架構(gòu)也是你的強(qiáng)項(xiàng),你可不可以簡單介紹一下用RL的架構(gòu)好在哪?它對應(yīng)的是什么?


來源:Scribbr

朱哲清:我覺得先要簡單解釋一下的是RL的架構(gòu)有很多種,有完全以LLM(Large Language Model 語言模型)為核心的基于token(令牌)的,也有我們這種整個(gè)action(行為),即我要讓Agent(智能體)不再以language token(語言令牌)作為決策的element(元素)的強(qiáng)化學(xué)習(xí)。

這兩種決策方式?jīng)]有好壞之分,他們的用例也不太一樣。但是總體來說,為什么要用RL的framework(框架)去完成Agent訓(xùn)練是因?yàn)橛心繕?biāo)在。不管是Deep Research(深度研究),它可能只需要從token by token(逐個(gè)令牌)的generation(生成)方式去盡可能地搜索相關(guān)信息,然后完成一整個(gè)報(bào)告;還是說agentic system(智能體系統(tǒng))里面,像Pokee一樣,我的工具可能就是一個(gè)tokenize(令牌化)的東西,然后我可能通過很多個(gè)工具放在一塊可以解決一個(gè)問題,它都是以目標(biāo)為驅(qū)動(dòng)。跟過往的LLM訓(xùn)練很大的一個(gè)不同在于LLM本身的訓(xùn)練可以通過大量的supervised learning data(監(jiān)督學(xué)習(xí)數(shù)據(jù))完成,即auto regressive(自回歸)的training(訓(xùn)練)方式,而agentic system很難做到。Deep Research仍然可以用一些,但是到了tool calling(工具調(diào)用)這一部分,單一的工具調(diào)用可以通過數(shù)據(jù)來完成,但是變成工具鏈的時(shí)候就很難再完成一個(gè)自回歸的訓(xùn)練。比如我有一個(gè)任務(wù),其對應(yīng)的是50個(gè)工具調(diào)用,然后把這個(gè)數(shù)據(jù)復(fù)議地給它去訓(xùn)練,沒有人撞見過這個(gè)數(shù)據(jù),也不可能通過互聯(lián)網(wǎng)去得到這個(gè)數(shù)據(jù),因?yàn)榛ヂ?lián)網(wǎng)上也沒有人產(chǎn)生過這種數(shù)據(jù),所以如果你非要用這樣的數(shù)據(jù)就只能靠人為標(biāo)注了。


圖源:技術(shù)吧

泓君:你覺得有哪些任務(wù)用監(jiān)督學(xué)習(xí)微調(diào)的方式更加容易?有哪些任務(wù)是一定要通過這種RL(強(qiáng)化學(xué)習(xí))的方式來做呢?這兩者之間,我想它針對的任務(wù)也是不太一樣的。

朱哲清:對,目前的共識(shí)是針對于世界上已有的很多協(xié)作數(shù)據(jù)、文本、視頻、圖片,這一系列有大量已標(biāo)注數(shù)據(jù)的任務(wù)一般通過監(jiān)督學(xué)習(xí)就可以得到很高的水平,然后再通過RLHF(Reinforcement Learning from Human Feedback 基于人類反饋的強(qiáng)化學(xué)習(xí))的post training(后訓(xùn)練)的方式,使這個(gè)能力再上一個(gè)臺(tái)階可以更符合大多數(shù)人類preference(偏好)的效果。為什么要做這個(gè)是因?yàn)榇罅康谋O(jiān)督數(shù)據(jù)中摻雜著好壞,并不是每一個(gè)數(shù)據(jù)點(diǎn)都是人類喜歡的,那它訓(xùn)練完了以后是完全泛化到所有互聯(lián)網(wǎng)上的數(shù)據(jù)。下一步就是我能不能以人類喜好為目標(biāo)去fine-tune(精調(diào))一下我的模型,使它更偏向于人類喜好的模式,那這是RLHF的目的。

那為什么現(xiàn)在甚至要講RL pretraining(強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練),原因是在于很多的任務(wù)是只有目標(biāo)驅(qū)動(dòng)的。

泓君:有哪些公司在做RL pretraining ?

朱哲清:現(xiàn)在只有研究的組在做RL pretraining,但我們其實(shí)已經(jīng)開始做一些類似于RL pretraining的東西。但它還有些prior knowledge(先驗(yàn)知識(shí))沒法靠預(yù)訓(xùn)練得到,它基本上把中間的很多訓(xùn)練的過程給扔掉了。

以強(qiáng)化學(xué)習(xí)為核心的訓(xùn)練機(jī)制是為了解決什么問題,很多的任務(wù)是以目標(biāo)驅(qū)動(dòng)的,比如寫代碼,數(shù)學(xué)、物理,金融機(jī)構(gòu)的一些東西;城市規(guī)劃,operations(執(zhí)行)、research(研究)、supply chain(供應(yīng)鏈),它都是有明確目標(biāo)的,世界機(jī)制也很完整,如果a發(fā)生了會(huì)出現(xiàn)b,在這種情況下pretraining就變得不是很有必要。第一,這種專業(yè)型的以目標(biāo)為驅(qū)動(dòng)的場景,大多數(shù)都是沒有任何數(shù)據(jù)的。數(shù)學(xué)跟代碼是唯一的倆個(gè)可能有相對較多數(shù)據(jù)點(diǎn)的場景。除此以外,我剛剛說的剩下那些點(diǎn)都沒什么數(shù)據(jù),很難在互聯(lián)網(wǎng)上得到大量的數(shù)據(jù)去完成這個(gè)訓(xùn)練。

第二,本質(zhì)上它要解決的問題是非常泛化的。而書面上已經(jīng)出現(xiàn)的數(shù)據(jù)大多數(shù)都非常聚焦在經(jīng)常會(huì)發(fā)生的代碼問題和數(shù)學(xué)問題,非常高深難測的數(shù)學(xué)問題是從來沒有出現(xiàn)過的,那它就必須要通過一個(gè) counter factual(反事實(shí)的)形式,即我要生成一些市面上從來沒有出現(xiàn)過的代碼、數(shù)學(xué)、物理規(guī)劃等輸出。然后靠一個(gè)ground truth(真實(shí)標(biāo)簽)的validator(驗(yàn)證集)來告訴我做得對不對,然后去self train(自我訓(xùn)練)。這種訓(xùn)練方式非常適合于有g(shù)round truth且能夠做出精確判斷的用例,然后去進(jìn)行優(yōu)化,這是RL(強(qiáng)化學(xué)習(xí))最閃光的時(shí)候了。其實(shí)有很多研究在網(wǎng)上都說過現(xiàn)在最大的問題是verification(驗(yàn)證),如果能找到一個(gè)好的verifier(驗(yàn)證器)就可以認(rèn)為問題解決了,因?yàn)橥ㄟ^RL去完成這個(gè)驗(yàn)證器的優(yōu)化就可以。接下來我也講一個(gè)我認(rèn)為可能有一定非共識(shí)的事情,在verifier之上,我們可能下一步最需要完成的就是怎么去提升驗(yàn)證方向的模型或者驗(yàn)證機(jī)制的泛化性,以及當(dāng)Agent本身輸出在偏離人們實(shí)際看到的東西,如何能夠使verifier適應(yīng)到新的輸出上使它可以完成更好的驗(yàn)證。這個(gè)如果有誰能做出來,我們可能會(huì)真正踏入向super intelligence(超級(jí)人工智能)邁進(jìn)的一條路,因?yàn)榭赡芩a(chǎn)出的知識(shí)就是人類所不擁有的。

泓君:這個(gè)如果能做出來,它是可以解決幻覺的問題嗎?

朱哲清:我覺得幻覺的問題是另外一個(gè)問題,這個(gè)東西很容易產(chǎn)生幻覺。就像我們當(dāng)年看到Alpha Zero(DeepMind 開發(fā)的一種通用強(qiáng)化學(xué)習(xí)算法打敗人類一樣,它能夠走出的一些路子是人類正常想象不到的。甚至通過這個(gè)機(jī)制可能可以發(fā)現(xiàn)新的物理定理,發(fā)現(xiàn)人類所不擁有的知識(shí),這可能是下一步真正邁向super intelligence的一個(gè)關(guān)鍵點(diǎn),但是目前還沒有很好的突破。

泓君:對,你說到這個(gè)點(diǎn)讓我想起Open AI對AGI(Artificial General Intelligence,通用人工智能)的五個(gè)層次的劃分,其實(shí)也是因?yàn)镺pen AI在這一輪跟微軟爭奪控制權(quán)的問題上,把他們之前跟微軟簽的一份協(xié)議給曝光了。我覺得整個(gè)路徑就是在沿著你說的這個(gè)方向走,它的AGI的第一個(gè)層級(jí)就是聊天機(jī)器人,像ChatGPT的對話型AI。


來源:OpenAI

第二個(gè)是推理型的AI,這也是大家在去年看到的一個(gè)方向。第三個(gè)方向就是AI agent(智能體),這個(gè)AI不僅能思考,還能替代人類去執(zhí)行多步驟的自主操作,完成一系列的任務(wù),比如旅行訂航班、訂酒店,看起來今年也在朝著這個(gè)方向邁進(jìn)了。第四個(gè)等級(jí)的AI就是創(chuàng)新型AI,稱為innovators(創(chuàng)新者),它需要具備創(chuàng)造性思維,能夠自主地發(fā)明新的工具或者方案。比如說在藥物發(fā)現(xiàn)中它可以去發(fā)現(xiàn)一個(gè)新的分子,這個(gè)時(shí)候AI就已經(jīng)可以提出人類沒有想過的辦法,然后自己去找到創(chuàng)新型的解決方案。像你剛剛說的如果有了這個(gè)方案,AI是不是在創(chuàng)作性的問題上可以超越人的范疇,去提出一些人沒有想到的解決方式。第五個(gè)等級(jí)就是組織型或者是超人級(jí)的AI,它可以獨(dú)立承擔(dān)一個(gè)組織的全部職責(zé),遠(yuǎn)超常人,有點(diǎn)類似于“超級(jí)AGI”。

朱哲清:不得不說的一個(gè)點(diǎn)是,他們對于AI能力的定義其實(shí)是偏產(chǎn)品能力的,而不是偏技術(shù)能力的。從某種意義上來說,第二跟三(層級(jí))之間沒有一個(gè)巨大的跨越性。第一(層級(jí))看你怎么定義它了?因?yàn)榱奶鞕C(jī)器人可以是非常普通的,也可能是我們現(xiàn)在看到的這些聊天機(jī)器人。然后第四跟第五(層級(jí))之間我認(rèn)為也沒有很大的gap(差距)。主要是第三到第四(層級(jí))之間有個(gè)巨大的gap,核心原因就是驗(yàn)證能力的無法跨越。從人的角度來舉例子,因?yàn)槿说膶W(xué)習(xí)方式跟RL(強(qiáng)化學(xué)習(xí))很像,比如小時(shí)候?qū)W一個(gè)東西,你可能可以判斷的東西都是在你知識(shí)范圍之內(nèi)的;比如說你學(xué)會(huì)了加法,那你只能判斷“1 + 1”,“2 + 2”等于多少,你無法直接泛化到判斷“3 - 2”等于多少,這個(gè)reasoning(推理)的過程并不是一個(gè)靠內(nèi)在知識(shí)就可以完全提升的。我們現(xiàn)在所說的verifiable(可驗(yàn)證的)的,比如reinforcement(強(qiáng)化)和fine-tuning(精調(diào)),都是以一個(gè)內(nèi)在驗(yàn)證體系就可以完成的知識(shí)迭代。比如有一個(gè)verification(驗(yàn)證)是永久固定的,你可以通過這個(gè)verification去不停地提升,或者我預(yù)置了給你一定verification knowledge(驗(yàn)證知識(shí)),你可以根據(jù)這個(gè)知識(shí)不停提升。但如果一個(gè)agent可以做到20位數(shù)的加減法,但它從來沒有見過減法這個(gè)東西,就仍然沒辦法verify一個(gè)減法是對還是錯(cuò)。

泓君:我覺得人也是,哈哈。假設(shè)我學(xué)的是數(shù)學(xué),或者說我從來沒有學(xué)過生物,我的數(shù)學(xué)領(lǐng)域的知識(shí),我不知道生物的底層邏輯的話,我也很難泛化。

朱哲清:對,所以最難的兩個(gè)地方是:

1. 如何通過一個(gè)人類給定的簡單描述,比如減法跟加法的關(guān)系是什么,就能夠(得到)從a推理到b的驗(yàn)證是什么,如果可以做到這一點(diǎn),那Agent的驗(yàn)證泛化性就會(huì)上到下一個(gè)臺(tái)階。

2. 它能不能通過自我探索,基于現(xiàn)有知識(shí)的 grounding(錨定),去完成對于未來知識(shí)驗(yàn)證的延伸,這個(gè)也很難。比如你已經(jīng)知道了大多數(shù)的堿和酸之間會(huì)生成二氧化碳,那你能不能對二氧化碳的性質(zhì)進(jìn)行一個(gè)簡單的了解,并且對未來可能會(huì)出現(xiàn)(針對)二氧化碳的問題做出驗(yàn)證,這個(gè)也是非常難的。未來如果出現(xiàn)了類似的 Agent 產(chǎn)生的結(jié)果,能否verify 這個(gè)結(jié)果是對還是錯(cuò)?這個(gè)也非常非常難。

泓君:所以我們在說到AGI的五個(gè)等級(jí)時(shí),從第三層級(jí)代理型AI到創(chuàng)新型AI,它可能是跨越從低于人類水平到超過人類的平均水平,甚至是超過最好的人類水平的時(shí)間基點(diǎn)。

朱哲清:對。所以第三到第四(層級(jí))之間是遠(yuǎn)超過第一二三(層級(jí))跟第四五(層級(jí))之間的gap(差距)的。我覺得第五層級(jí)可能還有一個(gè)很微妙的東西:agent跟agent之間會(huì)不會(huì)出現(xiàn)人之間的politics(政治)?因?yàn)槿绻鸄gent之間是decentralized(去中心化的),那么它們的objective(目標(biāo))可能互相之間會(huì)有misalignment(不一致),在去中心化的multi-agent system (多智能體系統(tǒng)) 就有可能中出現(xiàn)politics。

泓君:你指的人與人之間的(politics),比如辦公室政治斗爭?

朱哲清:對,但是在Agent環(huán)境下會(huì)出現(xiàn)完全不一樣的(情況),因?yàn)樗麄兊膐bjective會(huì)互相沖突,一旦出現(xiàn)互相沖突會(huì)卡死在那,甚至有點(diǎn)像在計(jì)算機(jī)系統(tǒng)里面的那種racing condition(競態(tài)條件),直接lock(卡?。?。

泓君:回形針問題。

朱哲清:對,可能會(huì)出現(xiàn)類似的情況。但是第一二三(層級(jí))跟第四(層級(jí))之間是一個(gè)鴻溝,如果誰能解決的話會(huì)是非常非常大的一個(gè)突破。

泓君:有大公司在沿著你說的方向,用RL(強(qiáng)化學(xué)習(xí))做pretraining(預(yù)訓(xùn)練)的路徑去解決嗎?包括做驗(yàn)證機(jī)制的泛化。

朱哲清:驗(yàn)證機(jī)制的泛化還沒有看到誰(在這個(gè)路徑)有非常大的突破,目前就是Human Knowledge Distillation(人類知識(shí)蒸餾)來做到驗(yàn)證(能力)的提升。

強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練確實(shí)有很多人在提,但是它有一個(gè)致命弱點(diǎn)。因?yàn)镽L是一個(gè)完全counter factual learning(反事實(shí)學(xué)習(xí))的過程,一個(gè)無法避免的問題是它會(huì)不會(huì)出現(xiàn)能夠解決問題但人類看不懂的解決方案。比如我們寫一個(gè)代碼驗(yàn)證能夠驗(yàn)證input(輸入)和output(輸出)是什么。然后這個(gè)Agent 寫了一段代碼,它確實(shí)能運(yùn)行,但是里面所有的operator(操作者)都是你看不懂的,比如object(對象)的variable(變量)的定義都是亂碼;它的加減乘除都是用的非常復(fù)雜的,編譯語言寫出來的,然后把它再硬生生摁進(jìn)了原來的代碼里面,人類就看不懂了,但它就是能運(yùn)行。所以它的reward definition(獎(jiǎng)勵(lì)定義)會(huì)非常重要,比如說human readability(人類可讀性)要怎么樣?但是human readability你沒有辦法用一個(gè)rule(規(guī)則)來解決,所以就變成unverifiable(不可驗(yàn)證的)。

泓君:整個(gè)聽下來世界也很危險(xiǎn)啊。我大概能理解為什么Jeffrey Hinton會(huì)那么悔恨自己去創(chuàng)造了AI的底層了,比如說當(dāng)這個(gè)AI已經(jīng)可以用人類不知道的語言寫出超越人類知識(shí)的時(shí)候,還是蠻危險(xiǎn)的。

朱哲清:那應(yīng)該Richard S. Sutton會(huì)更悔恨一點(diǎn)因?yàn)镴effrey Hinton所創(chuàng)造的neural network(人工神經(jīng)網(wǎng)絡(luò))更多的是能夠表示人類知識(shí)的,而要做到counterfactual(反事實(shí)的)的知識(shí)發(fā)現(xiàn)或者policy discovery(策略發(fā)現(xiàn)),還得靠RL(強(qiáng)化學(xué)習(xí))。我覺得最終如果要談到監(jiān)管的信息,對reward design(獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì))可能是需要一定的regulatory efforts(監(jiān)管治理)的。訓(xùn)練的時(shí)候給Agent是什么樣的incentive(激勵(lì)),可能會(huì)決定這個(gè)Agent訓(xùn)練出來是什么樣子。

泓君:嗯嗯。關(guān)于剛剛我們在比較強(qiáng)化學(xué)習(xí)跟SFT(Supervised Fine-Tuning監(jiān)督微調(diào))學(xué)習(xí)的時(shí)候,我也聽到了這樣一個(gè)說法,(我在有一期節(jié)目里面講過),比如說我們用強(qiáng)化學(xué)習(xí)的效果比SFT的效果好兩倍,但是它消耗的token(令牌)數(shù)量可能在10倍之多,對于現(xiàn)在大家馬上要商業(yè)化,要應(yīng)用來說,這個(gè)性價(jià)比算不過來,你怎么看?

朱哲清:對,這個(gè)是很正常的,因?yàn)閞einforcement fine-tuning(強(qiáng)化學(xué)習(xí)微調(diào)) 的做法是說我只有一個(gè)reward function(獎(jiǎng)勵(lì)函數(shù)),沒有其他信息,我要去完成那個(gè)目標(biāo)。而SFT(監(jiān)督微調(diào))是說我已經(jīng)有標(biāo)準(zhǔn)答案了,我只是需要想辦法去靠近那個(gè)標(biāo)準(zhǔn)答案就好。無法避免的就是RL fine-tuning(強(qiáng)化學(xué)習(xí)微調(diào))的價(jià)格會(huì)更高,但是長期以往有更復(fù)雜的任務(wù),它就沒有辦法做SFT,因?yàn)樗鼪]有標(biāo)準(zhǔn)答案,所以就不再是一個(gè)選擇性問題?,F(xiàn)在為什么會(huì)有選擇性問題是因?yàn)槲覀兘鉀Q的問題還不夠復(fù)雜,到了未來問題會(huì)越來越復(fù)雜,當(dāng)它到了極度復(fù)雜的時(shí)候就沒有選擇了。

泓君:嗯對。然后你剛剛提到強(qiáng)化學(xué)習(xí)跟監(jiān)督學(xué)習(xí)微調(diào)的這些方式不太一樣的一個(gè)大點(diǎn):強(qiáng)化學(xué)習(xí)是在你沒有標(biāo)注數(shù)據(jù)的時(shí)候也可以用的方法,但是比如說對傳統(tǒng)的方法,這個(gè)數(shù)據(jù)必須是標(biāo)注的。而且這個(gè)可能已經(jīng)慢慢的成為業(yè)界的一個(gè)共識(shí)了。

02 Meta收購ScaleAI,背后藏著多模態(tài)焦慮

泓君:那Meta 為什么還要收購Scale AI?

朱哲清:數(shù)據(jù)的重要性在現(xiàn)在是有下降的。但是有一個(gè)方向是無法避免的:數(shù)據(jù)的標(biāo)注性在 Multimodality(多模態(tài)),特別是在視頻和圖片數(shù)據(jù)上,是目前無法跳開的一件事情。因?yàn)樗膙erification(驗(yàn)證)能力會(huì)基于,比如說我們要做基于視頻跟圖像的reinforcement fine-tuning(強(qiáng)化學(xué)習(xí)微調(diào)),它的圖像輸入的解析能力要達(dá)到很高的一個(gè)程度,而且沒有辦法靠human rule(人類規(guī)則)來完成,它必須要靠模型的解析能力去把視頻和圖片的內(nèi)容解析出來,在這個(gè)內(nèi)容之上人類才能寫rule說我怎么去驗(yàn)證它,這個(gè)解析能力就變得非常的難。因?yàn)槲覀兌贾缊D片,視頻里面的很多細(xì)節(jié)是我們的模型現(xiàn)在沒有辦法很好地解析的,特別是這種Multi-model(多模態(tài))的模型還是更多地偏向于文本的能力,所以他們可能想在多模態(tài)上面發(fā)力,而多模態(tài)以及Robotics(機(jī)器人)的標(biāo)注是目前還跳不開的一個(gè)問題,所以這可能會(huì)是Meta接下來發(fā)力的一個(gè)點(diǎn)。

泓君:所以第一步多模態(tài)上還是得有先解析或者已標(biāo)注好了的數(shù)據(jù),把所有的數(shù)據(jù)先有一個(gè)基礎(chǔ)的訓(xùn)練以后,我們再看強(qiáng)化學(xué)習(xí)能怎么處理。

朱哲清:我現(xiàn)在看的整個(gè)路徑都是這樣。ChatGPT最早是我有大量的數(shù)據(jù)訓(xùn)練出了模型,這個(gè)基礎(chǔ)模型再做一些SFT(監(jiān)督微調(diào))把它變成一個(gè)精煉的基礎(chǔ)模型,在這之上,最早是說我們拿一些數(shù)據(jù)訓(xùn)練一個(gè)reward model(獎(jiǎng)勵(lì)模型),然后通過這個(gè)獎(jiǎng)勵(lì)模型再去訓(xùn)練我的language model(語言模型),用RL(強(qiáng)化學(xué)習(xí))去訓(xùn)練語言模型讓它變得泛化性更強(qiáng),或者說它在未知領(lǐng)域能夠達(dá)到更好的效果。現(xiàn)在慢慢就變成強(qiáng)化學(xué)習(xí)微調(diào),不要獎(jiǎng)勵(lì)模型,我就用現(xiàn)在的共識(shí)或者說LLM as judge(大語言模型評(píng)估)去訓(xùn)練模型,那這個(gè)慢慢會(huì)變成一個(gè)共識(shí)。


來源:DeepMind Safety Research

在多模態(tài)上面現(xiàn)在還處于第一階段,第二步就是說我現(xiàn)在有大量的數(shù)據(jù)在訓(xùn)練一個(gè)基礎(chǔ)模型,訓(xùn)練完了以后我做了一些強(qiáng)化微調(diào),那我怎么能夠去做一個(gè)標(biāo)準(zhǔn)化的judge(判斷),verifier(驗(yàn)證器),或者說一個(gè)rule based(基于規(guī)則)的verifier?這個(gè)是目前不存在的一個(gè)東西,而且非常難做。因?yàn)橐粋€(gè)圖像本身它沒有標(biāo)準(zhǔn)答案,所以它可能會(huì)說我先通過數(shù)據(jù)來訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型,然后使得我多模態(tài)能力變到最大。然后再說我多模態(tài)的能力已經(jīng)很強(qiáng)了,我能不能通過這個(gè)輸入輸出的能力把它變成一個(gè)驗(yàn)證器?然后通過這個(gè)驗(yàn)證器我再去做強(qiáng)化微調(diào),我覺得整個(gè)周期都是這樣在轉(zhuǎn),到目前為止。

泓君:對,你覺得Scale AI在標(biāo)注圖片跟視頻的這些數(shù)據(jù)上更像是一個(gè)技術(shù)含量很高的一個(gè)工作,還是說它其實(shí)就是我找很多工人來給這個(gè)數(shù)據(jù)打標(biāo),只要找的人多打的標(biāo)多,它就可以成為一個(gè)數(shù)據(jù)庫很多的地方,還是說它這個(gè)中間其實(shí)要很多考驗(yàn)?zāi)慵夹g(shù)的環(huán)節(jié)?

朱哲清:我覺得第一點(diǎn)最難的地方就是文字的人為打標(biāo)還稍微簡單一點(diǎn),圖片的人為打標(biāo)就變得更難了。比如說你要生成一個(gè)產(chǎn)品圖,這個(gè)產(chǎn)品圖是好還是壞? 100 個(gè)人估計(jì)有 100 個(gè)說法,那他怎么能夠標(biāo)化那個(gè)產(chǎn)品圖好壞?這個(gè)非常非常難,所以這里面其實(shí)有alignment(對齊)問題,這個(gè)是個(gè)技術(shù)問題,我覺得短時(shí)間內(nèi)可能很難解決,他們可能會(huì)先寫一個(gè)非常復(fù)雜的rubrics(評(píng)分標(biāo)準(zhǔn)),然后去訓(xùn)練這些人,說這些圖哪些比較好,哪些比較不好,然后 Robotics(機(jī)器人學(xué)習(xí)領(lǐng)域)就變得更難了,就是說在這個(gè)情況下,Robot干了這么一件事情,是好還是不好?人可能都看不懂這個(gè)Robot在干嘛,但Robot可能自己心里有計(jì)劃要先做這個(gè)再做那個(gè),但是人可能完全不懂這個(gè)Robot為什么干這件事情。所以多模態(tài),以后再加上多模態(tài)加action(執(zhí)行)這一長串下來其實(shí)需要很多數(shù)據(jù)的支持。所以我覺得數(shù)據(jù)是個(gè)中期問題,如果你說非常短期,比如說資源,人才,中期可能會(huì)在數(shù)據(jù)上面有瓶頸,長期可能還是一個(gè)optimization RL(強(qiáng)化學(xué)習(xí)優(yōu)化)的問題,所以它短中長期所需要的資源和能力都不太一樣。而Meta可能希望Scale AI能夠從某種意義上解決它自己的中期的數(shù)據(jù)問題,使得它自己多模態(tài)的能力會(huì)有比較大的提升。

泓君:它挖的這批人算是在解決長期問題嗎?

朱哲清:對。

泓君:短期是什么?是算力?

朱哲清:對,我們最早不是遇到了卡不夠,各種各樣的問題,那個(gè)問題已經(jīng)解決了,現(xiàn)在就到中期問題,中期就說我們可能已經(jīng)解決了一些在文字,代碼上面的 optimization(優(yōu)化)問題,但現(xiàn)在多模態(tài)上面是不是也能夠解決這些問題?在數(shù)據(jù)上還是有缺口的,那之前的那些數(shù)據(jù)缺口,在GPT4o之后的那一整批的iteration(迭代)里面其實(shí)已經(jīng)基本上完成了對于代碼和文字上面的這些迭代。那現(xiàn)在就到了多模態(tài)上面,等于是一模一樣的gain chart(增益圖),那它只是把這個(gè)東西橫移過來了而已。

泓君:但是也會(huì)有新的問題產(chǎn)生,比如說剛我們提到的審美、圖片、視頻的標(biāo)注。

朱哲清:對,但我覺得都是時(shí)間問題。

泓君:那你覺得你自己做Pokee AI,你搭A(yù)I Agent的底層開發(fā)哲學(xué)跟邏輯是什么?

朱哲清:最核心的邏輯是我們現(xiàn)在認(rèn)為AI Agent使用不像當(dāng)年ChatGPT剛出來的時(shí)候那么簡單,但我們希望AI Agent 的使用就跟ChatGPT一樣簡單,不只是在用戶(consumer)層面,而是對于任何的企業(yè)開發(fā)者(professional)來說,他們調(diào)用一個(gè)Agent就是對著一個(gè)簡單的API(應(yīng)用程序接口),一行 prompt(提示詞),就完成了整個(gè)Agent調(diào)用,得到的就是你最后的結(jié)果,而你不用擔(dān)心中間出現(xiàn)各種各樣的Browser(瀏覽器)的環(huán)境,這些問題都不再存在,這是我們的開發(fā)邏輯。這是為什么?我們盡可能避免了非常非常復(fù)雜的Infra(infrastructure 基礎(chǔ)設(shè)施)架構(gòu),而是通過很多的集成把更多的能力全都?jí)涸贏gent本身的模型里面。而不是說我通過一個(gè)語言模型,然后不停地去調(diào)用市面上更多的infrastructure(基礎(chǔ)設(shè)施)去bypass(繞開)這個(gè)工具的能力,把工具的數(shù)量去壓縮。某種意義上說,你用瀏覽器就是用一個(gè)工具代替了幾千個(gè)工具,但是同時(shí)也意味著你的模型所需要的能力會(huì)更小一些,而我們的方式就是我們希望模型的能力變得最強(qiáng),然后工具就直接把它鋪開,你就直接去想要用什么工具就好了,相當(dāng)于一個(gè)Agent可以操作整個(gè)互聯(lián)網(wǎng)和一個(gè)Agent只能看一個(gè)網(wǎng)頁的區(qū)別。

泓君:模型的能力用到最強(qiáng)還是接其他的基座大模型嗎?還是你們自己也會(huì)開發(fā)自己的模型?

朱哲清:我們會(huì)開發(fā)自己的模型,我們現(xiàn)在很多的模型調(diào)用、選擇的這些能力都是我們自己的模型在做了,未來的話可能連語言模型的部分會(huì)跟我們的模型直接結(jié)合在一塊,變成一個(gè)單一模型。那個(gè)時(shí)候就從用戶的輸入到語義理解到工具選擇、規(guī)劃,到最后的結(jié)果全都變成同一個(gè)Agent來完成,此時(shí)這個(gè)Agent會(huì)變得非常好用,因?yàn)樗辉傧窈芏嗍忻嫔系腁gent一樣需要有大量的在Infra之間的跳轉(zhuǎn),而是說你只要把 prompt輸進(jìn)一個(gè)API,這個(gè)API就可以給你最終可交付的結(jié)果。

泓君:為什么要開發(fā)自己的模型?這個(gè)是所有的通用型Agent它必須具備的一個(gè)技能,還是說它也可以只接大模型?

朱哲清:如果你用瀏覽器,你用那些Sandbox(沙盒虛擬機(jī)),想讓另外一個(gè)編程Agent去完成編程的過程,然后再給結(jié)果,你可以不用自己開發(fā)大模型。原因是在于你把工具壓縮了,我去依賴于另外一個(gè)寫代碼的Agent去跳過這些工具的使用,或者說我選擇一個(gè)瀏覽器的Agent,去跳過你選擇工具的使用。這個(gè)就是通過壓縮工具的數(shù)量選擇更通用的工具來完成你的目標(biāo),而不是說直接選擇工具。

為什么我們要去訓(xùn)練模型的原因:第一,成本很高。你從一開始去解析用戶、理解、規(guī)劃,到你選擇Sandbox,其本身價(jià)格很高, 瀏覽器還有視覺的部分。第二,它速度很慢。第三它的泛化性很差。它訓(xùn)練的時(shí)候見過很多網(wǎng)頁,當(dāng)你進(jìn)入到專業(yè)場景以后,它就很難。我舉個(gè)例子,有朋友問我們要的一個(gè)feature(功能),說我能不能從 PostHog,一個(gè)分析網(wǎng)絡(luò)流量的網(wǎng)站上面,是個(gè)很復(fù)雜的網(wǎng)頁,去找到這個(gè)用戶本身的行為,然后基于用戶行為的一些指標(biāo),去導(dǎo)入一個(gè)分析的script(腳本),然后在這個(gè)腳本里面得到幾個(gè)segmentation(用戶分群)的圖表,再放進(jìn)報(bào)告里生成一個(gè)PDF。就這么一個(gè) Agent flow(流程),你是不可能通過瀏覽器Sandbox 來完成的,你必須要直接訪問那個(gè)工具去得到最精確的數(shù)據(jù)然后再去做分析,那這個(gè)流程就變成了我們的優(yōu)勢。類似于這種的用戶設(shè)立其實(shí)非常多,如在廣告分析,用戶分析里面,其實(shí)有很多的工具是在互聯(lián)網(wǎng)上面,但是正常的瀏覽器肯定是搞不定的,因?yàn)樗麄冊谟?xùn)練當(dāng)中從來沒見過。所以我們能夠通過我們的foundation model(基礎(chǔ)模型)把成本降下來,把泛化性提升,把它適用的workflow(工作流)的類型有很大程度的拓展,而不只是限定于那幾個(gè)最簡單的購物,寫幻燈片,做些研究,其實(shí)有很多專業(yè)型的workflow是他們解決不了的。

泓君:所以你們搭的是一個(gè)垂直的選Agent的模型對不對?

朱哲清:選工具的模型,我們不選Agent,它不只是選單一工具,它是選一個(gè)工具序列,就是一個(gè)推理加工具選擇的一個(gè)模型。

泓君:因?yàn)槲铱匆姶蠹以谡劦紸I的時(shí)候,大家其實(shí)一般有兩種派別:一種是我把越來越多的問題交給AI,然后端到端的訓(xùn)練,它主打的就是人更少地干預(yù),讓AI去犯錯(cuò)誤,去學(xué)習(xí)。那另外一種就是說我們在真實(shí)應(yīng)用中還是產(chǎn)品跟用戶體驗(yàn)優(yōu)先,那這種情況下我們就要減少幻覺,方式是我們還是要拆分一些細(xì)節(jié),讓它的工作流中能確認(rèn)的地方更加確認(rèn),讓產(chǎn)品跟應(yīng)用能夠先用起來跟落地,你自己的產(chǎn)品哲學(xué)上更偏向于哪種?

朱哲清:我作為一個(gè)CEO,現(xiàn)在一半的我是一個(gè)產(chǎn)品人,一半的我是一個(gè)研究者。作為一個(gè)研究者我同意第一個(gè)觀點(diǎn),因?yàn)?strong>越是通用的環(huán)境能訓(xùn)練出越強(qiáng)的模型。作為一個(gè)產(chǎn)品人,我會(huì)選擇第二種,因?yàn)?strong>用戶的體驗(yàn)跟模型的能力是不成正比的,我們模型能力肯定很強(qiáng),但是最后用戶的體驗(yàn)可以是非常糟糕的。

舉個(gè)簡單例子,我們之前遇到的問題就是我們模型其實(shí)選擇工具從頭到尾都是對的。我們的工具是可以發(fā)帖到所有平臺(tái)的,以社媒運(yùn)營為例,之前我們有一段時(shí)間我發(fā)布完了以后,那個(gè)鏈接沒有給到你,有很多用戶就非常困惑的來問我這發(fā)文發(fā)到哪去了,他也不知道自己應(yīng)該跑到哪個(gè)賬戶里面去看是不是有新的視頻,新的圖片出現(xiàn)了,就導(dǎo)致能力其實(shí)都端到端打通了,但是這個(gè)用戶不知道你的產(chǎn)品在干什么。還有一個(gè)另外的例子,比如生成Google Slides(幻燈片),我們之前是給你個(gè)Google Slides鏈接你自己去看。但現(xiàn)在我們會(huì)直接把它embed(嵌入)在我們的網(wǎng)頁里面,你可以直接在Pokee 里面修改Google Slides,大家就會(huì)覺得這個(gè)是完全在我的掌控之下的一個(gè)東西,而不是說我還要跑到另外一個(gè)網(wǎng)頁里面去再改,完了回來再看你生成點(diǎn)什么東西。所以它有很多這種用戶細(xì)節(jié)在里面,跟你模型能力毫不相關(guān)。在這種情況下,作為產(chǎn)品或者作為一家創(chuàng)業(yè)公司,你必須要去打磨產(chǎn)品的細(xì)節(jié)。而模型能力是決定你的產(chǎn)品下限的,而產(chǎn)品的上限是由你的產(chǎn)品細(xì)節(jié)決定的。

03 強(qiáng)化學(xué)習(xí)正當(dāng)時(shí),技術(shù)圈層與路徑正在重構(gòu)

泓君:對,我們剛剛好多次提到了Richard S. Sutton 教授,他是強(qiáng)化學(xué)習(xí)的奠基人之一,也是2025年的圖靈獎(jiǎng)得主。你在斯坦福讀博,自己學(xué)的也是強(qiáng)化學(xué)習(xí)嘛。所以你跟Richard S. Sutton的淵源是什么?


來源:amii.ca

朱哲清:Richard S. Sutton跟我的導(dǎo)師是鐵哥們,在他們提出RL(強(qiáng)化學(xué)習(xí))這個(gè)概念,當(dāng)時(shí)提出temporal difference learning (時(shí)序差分學(xué)習(xí))的時(shí)候就認(rèn)識(shí)了。當(dāng)年證明Q-learning,最基礎(chǔ)的基于時(shí)序差分的策略學(xué)習(xí),的理論能夠被function approximation(函數(shù)逼近)完成,那篇論文是我導(dǎo)師寫的。然后我在斯坦福讀博的時(shí)候其實(shí)見過好幾次Richard S. Sutton,甚至有一次在我導(dǎo)師家里,他來開party,然后大家就在一起吃燒烤。

為什么我提到Richard S. Sutton?第一是他的這個(gè)經(jīng)歷跟很多人不太一樣,他當(dāng)年其實(shí)是罹患癌癥的,有好幾年都沒有任何工作,一度非常艱難,但是他從來沒有放棄RL這個(gè)研究方向。后來他去了University of Alberta(阿爾伯塔大學(xué)),Alberta給了他挺大的支持,但他整個(gè)人身體的狀態(tài)一直都不是很好,即便很多人都說強(qiáng)化學(xué)習(xí)是一個(gè)玄學(xué),那時(shí)候也沒有放棄過。

第二個(gè)就是他這個(gè)人,我跟他交流過幾次,他非常講原則。他的這批學(xué)生是我們公司的視覺科學(xué)家,所以有更多的淵源在里面。我們其實(shí)有聊很多我們初創(chuàng)的想法,模型的想法,他其實(shí)有非常多的前瞻性的想法,他不會(huì)拘泥于現(xiàn)在,比如說LLM(大語言模型)的能力,或者說基礎(chǔ)模型是否會(huì)取代強(qiáng)化學(xué)習(xí)。就是因?yàn)樗膱?jiān)持,所以現(xiàn)在有了RL(強(qiáng)化學(xué)習(xí))整個(gè)行業(yè)的基礎(chǔ),有那么大的發(fā)展。雖然現(xiàn)在市面上有很多謠言,很多人其實(shí)并不是特別懂強(qiáng)化學(xué)習(xí),但所有人都在說我們無論如何要做強(qiáng)化學(xué)習(xí)。但真正能夠把強(qiáng)化學(xué)習(xí)優(yōu)化好的,其實(shí)整個(gè)行業(yè)也就這么幾十號(hào)人吧。然后你可以看到都集中在這些人發(fā)的 paper 和做的產(chǎn)品里面,我覺得未來還是有很大的潛力的,而且要感謝他能夠?qū)@個(gè)行業(yè)和他自己的領(lǐng)域有那么強(qiáng)的堅(jiān)持,否則也沒有我們現(xiàn)在那么大的發(fā)展。泓君:嗯,然后你提到你跟Richard S. Sutton在聊天的時(shí)候,他提到了很多非常前瞻性的想法,你覺得有哪些想法是非常打動(dòng)你的,讓你印象深刻的?

朱哲清:我覺得他跟我提了很多次model plasticity(模型可塑性)這個(gè)問題,模型本身你是不可以無限制對它訓(xùn)練的,你訓(xùn)練到某一個(gè)程度它就會(huì)fall apart(崩潰)。其實(shí)在強(qiáng)化學(xué)習(xí)領(lǐng)域,之前經(jīng)??吹浇衏atastrophic forgetting(災(zāi)難性遺忘),就是說在你訓(xùn)練很久很久以后,它開始忘記所有過往的學(xué)習(xí)到的知識(shí),然后整個(gè)模型像瘋了一樣,它所有原來的 policy(策略)都消失。

泓君:這個(gè)出現(xiàn)過嗎?

朱哲清:出現(xiàn)過,很多文章里都提到過這種事情。這是為什么你一開始模型要建的足夠大,其實(shí)就像海綿一樣,然后你往里面不停地注水,你注水注到一定程度它滿了,那你再往里面注水會(huì)發(fā)生什么?就是它會(huì)流出來一些,但流出來的不一定是注入的水,很有可能是原來已經(jīng)有的水,那如果原來已經(jīng)有的一部分水是很重要的水,就像你大腦里面不停地灌輸知識(shí),然后到最后你過載了,把加減乘除忘了,那是不是剩下的所有的知識(shí)體系就直接崩潰?這個(gè)問題本身叫模型可塑性,就是說它的可塑性到了某種程度就直接崩潰了,然后你要怎么去解決這個(gè)問題叫 continue learning(持續(xù)學(xué)習(xí)),現(xiàn)在可能有一天人類會(huì)生成一個(gè)1TB data,那10天是10TB,那未來可能生成數(shù)據(jù)還會(huì)越來越多,那你怎么能夠用一個(gè)模型無限地去訓(xùn)練它,讓它仍然能夠?qū)ξ磥淼闹R(shí)進(jìn)行獲???這是不可能的。

泓君:你覺得現(xiàn)在整個(gè)模型的訓(xùn)練,比如說到GPT 4,甚至是GPT 5,它的數(shù)據(jù)量已經(jīng)到極限了嗎?

朱哲清:還沒有,模型的規(guī)模是一個(gè)線性在增長的過程,但是我們的數(shù)據(jù)量是一個(gè)指數(shù)在往上漲的過程,到了某一個(gè)階段一定會(huì)碰壁的,沒有辦法這樣規(guī)?;氯?。其實(shí)我們在Pokee訓(xùn)練的時(shí)候就已經(jīng)遇到過這個(gè)問題,因?yàn)槲覀冇?xùn)練的模型比較小,然后我們的工具量,數(shù)據(jù)量又很大,我們其實(shí)用小模型訓(xùn)練到某一個(gè)點(diǎn),它就突然整個(gè)performance(表現(xiàn))就會(huì)掉得非常厲害。所以我們必須要把模型變得更大一號(hào)然后再去訓(xùn)練,才能夠不出現(xiàn)這個(gè)災(zāi)難性遺忘的情況,它取決于你的使用場景,有些使用場景可能小模型有一定的數(shù)據(jù)量它就已經(jīng)發(fā)生了。另外一個(gè)他一直提的就是reward design(獎(jiǎng)勵(lì)設(shè)計(jì))的問題。在未來的世界,如果RL作為核心的模型優(yōu)化機(jī)制了,那去設(shè)計(jì)這個(gè)reward model的人,他有什么樣的標(biāo)準(zhǔn)?這個(gè)激勵(lì)本身怎么設(shè)計(jì)能夠保證他的道德標(biāo)準(zhǔn)?這是一個(gè)非常麻煩的事情,因?yàn)閺?qiáng)化學(xué)習(xí)是一個(gè)sequential decision making(序列決策)的問題,它的激勵(lì)是相加的。你可以定義一個(gè)單步的激勵(lì)是合理的。當(dāng)它被加起來變成很多步以后,它就變得不是一個(gè)你可預(yù)測的東西,因?yàn)樗目傮w激勵(lì)如果是跟著策略(Agent policy)或者它的決策機(jī)制所改變,它的設(shè)計(jì)就可能跟你原來的想法已經(jīng)背道而馳了。然后還有一個(gè)問題,比如說你有多個(gè)激勵(lì)怎么辦?你要同時(shí)優(yōu)化四五個(gè)不同的目標(biāo),在這種情況下你怎么能夠做到平衡這些目標(biāo)?在它們當(dāng)中找到一個(gè)每個(gè)項(xiàng)目都做得相對比較好的狀態(tài),這也是個(gè)問題。他也提出過這個(gè)想法叫g(shù)eneralize value function(廣義價(jià)值函數(shù)),怎么能夠去學(xué)到一個(gè)同時(shí)優(yōu)化多個(gè)目標(biāo)的價(jià)值函數(shù)?價(jià)值函數(shù)就是在強(qiáng)化學(xué)習(xí)里面去決策我去到下一步,去到哪個(gè)狀態(tài)能夠達(dá)到更優(yōu)解的一件事情,然后它可以在一個(gè)狀態(tài)下得到多個(gè)目標(biāo)所對應(yīng)的值,這樣它可以判斷如何平衡這些對應(yīng)的目標(biāo)。

泓君:嗯,挺有意思的。你覺得你從他身上學(xué)到了什么?

朱哲清:如果你自己覺得第一性原理是對的,就不要放棄。有很多東西,中期、短期、長期所看到的結(jié)果都很不一樣。有些東西可能短期內(nèi)你可以看到很多的結(jié)果,但你會(huì)卡死在那。但有些你可能退一步,真正去專注于你認(rèn)為第一性原理是對的東西,你可能長期會(huì)得到更好的結(jié)果。

泓君:嗯,你說到現(xiàn)在對RL(強(qiáng)化學(xué)習(xí))研究得特別深的人,是以哪些高校或者以哪些中心為原點(diǎn)的?

朱哲清:就是以O(shè)pen AI早期的這批人,Pieter Abbeel的學(xué)生,可能現(xiàn)在PI(Physical Intelligence機(jī)器人公司)里面的這批人,Sergey Levine的學(xué)生,Richard Sutton的學(xué)生基本上都在學(xué)界。除此以外,也有很多現(xiàn)在已經(jīng)分支出來的好的教授,學(xué)界偏多一些,但是學(xué)界一個(gè)問題就是大家做RL都做得太理論,寫很多Regret Bound(后悔界),寫一些新的理論之類的。產(chǎn)業(yè)的話,就是David Silver為核心的DeepMind的那批人,我導(dǎo)師也在DeepMind,可能對強(qiáng)化學(xué)習(xí)的領(lǐng)域是最了解然后做的最好的,然后Microsoft也有,比如說像John Langford其實(shí)是做強(qiáng)化學(xué)習(xí)的理論方向很先驅(qū)的人之一,但是這個(gè)核心人群并不大,基本上不管他們怎么換地方,你都看到是這幾個(gè)核心人底下的學(xué)生,或者跟他們一同工作的這些人衍生出來的。

泓君:對,你覺得倫敦會(huì)是一個(gè)RL的大本營嗎?我是想到當(dāng)年AlphaGo、AlphaZero的那段時(shí)間,是強(qiáng)化學(xué)習(xí)非?;鸬囊欢螘r(shí)間,可能也是最早的一批人在研究強(qiáng)化學(xué)習(xí)的方向的,算是一個(gè)小熱潮吧。你覺得那個(gè)時(shí)候研究強(qiáng)化學(xué)習(xí),跟現(xiàn)在大家去研究強(qiáng)化學(xué)習(xí),方向上會(huì)有很大的不同嗎?

朱哲清:2015-2018年是AlphaGo、AlphaZero、Mu Zero,到后面比如StarCraft游戲里面的,強(qiáng)化學(xué)習(xí)發(fā)展的一個(gè)巔峰,之后就開始沉寂了,然后所有人都說大語言模型可以解決所有事情,到現(xiàn)在突然之間強(qiáng)化學(xué)習(xí)又變火了。我自己看下來是覺得倫敦的David Silver他們這批人做的強(qiáng)化學(xué)習(xí)是有一個(gè)自己的風(fēng)格的。它有一個(gè)formal verification(形式化驗(yàn)證)的方式,一定能夠知道對或錯(cuò)?;谶@個(gè)verification(驗(yàn)證)方式去訓(xùn)練一個(gè)非常dedicated(特定的),只能解決一個(gè)問題的Agent。它沒有真的說通過一個(gè)非常通用的采取決策的action space(行動(dòng)空間)去訓(xùn)練一個(gè)可以解決很多問題的,可驗(yàn)證的Agent。但是現(xiàn)在倫敦其實(shí)做強(qiáng)化學(xué)習(xí)的人也不止David Silver,有很多人在做強(qiáng)化學(xué)習(xí),我覺得大本營還是灣區(qū),因?yàn)镺pen AI跟DeepMind的人都在那,大概率還是以那邊為核心。

泓君:OpenAI是不是也是2015-2017年左右是花了很多時(shí)間去研究強(qiáng)化學(xué)習(xí)的?因?yàn)槲矣浀盟麄冊缙诘难芯烤褪怯懈鞣N游戲里面的推方塊,我覺得那些好像都是強(qiáng)化學(xué)習(xí)去解決問題的。

朱哲清:對對對,最早的時(shí)候是Gym environments,他們希望能夠通過一些比較簡單的游戲證明強(qiáng)化學(xué)習(xí)的目標(biāo)導(dǎo)向的解決問題的能力,但因?yàn)檫@些游戲就止于游戲。2018 年為什么慢慢RL(強(qiáng)化學(xué)習(xí))開始沉寂的核心原因就是因?yàn)榇蠹叶颊J(rèn)為RL就是一個(gè)游戲環(huán)境的產(chǎn)物,它沒有一個(gè)真正能夠解決實(shí)際問題的能力。但是直到現(xiàn)在我不得不承認(rèn)的一點(diǎn)就是,強(qiáng)化學(xué)習(xí)還是作為一個(gè)大語言模型之上的optimizer(優(yōu)化器),它并不是從零開始訓(xùn)練出了一個(gè)可以解決通用問題的機(jī)制的。所以RL pretraining(強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練)也是一個(gè)值得去深究的一件事情,這個(gè)事如果能做成的話意味著可以從零開始訓(xùn)練一個(gè)完全通用的強(qiáng)化學(xué)習(xí)解決方案,這個(gè)會(huì)是一個(gè)非常大的一個(gè)成果。

泓君:在我們整個(gè)的聊天過程中,我感覺你的整個(gè)思維方式,包括你的眼界還是非常非常超前的。但是當(dāng)你真正去做產(chǎn)品或者去跟投資人賣一個(gè)想法的時(shí)候,可能有的時(shí)候是越超前是越?jīng)]有共識(shí)的,你有遇到類似的困難嗎?

朱哲清:有,其實(shí)上禮拜在ICML panel的時(shí)候,其中有一個(gè)問題就是怎么跟投資人聊特別技術(shù)的初創(chuàng)項(xiàng)目,我個(gè)人認(rèn)為是不要嘗試去賣你的想法,除非你的想法是共識(shí),但是一旦你的想法是超共識(shí)的話,那投你的項(xiàng)目也沒有任何的意義。如果要去跟投資人聊的話,利用市場的共識(shí),但是在這共識(shí)之上加一個(gè)邏輯飛躍,比如說市場共識(shí)是強(qiáng)化學(xué)習(xí)agent是很火熱的,大家都覺得這個(gè)東西有未來,你的唯一的那個(gè)吸引人的點(diǎn)是說你怎么能夠?qū)崿F(xiàn)它?同時(shí)你實(shí)現(xiàn)它的時(shí)候你有什么優(yōu)勢?你告訴他我訓(xùn)練強(qiáng)化學(xué)習(xí)Agent的這個(gè)方式跟所有人都不一樣其實(shí)是沒有任何意義的,所有人都不會(huì)理解說你為什么跟別人不一樣,你要說的是你要解決的這個(gè)問題在你的技術(shù)基礎(chǔ)之上是很有意義的,以及你為什么有這個(gè)不公平的優(yōu)勢。

泓君:剛剛其實(shí)我們在談到你做這個(gè)AI Agent底層哲學(xué)的時(shí)候,我也把兩種不同的思維方式有丟給你。然后我們剛剛在評(píng)價(jià)幾家不同的AI Agent公司的時(shí)候,比如說GensPark、Manus、 Open AI 的ChatGPT,還有Fellou,所有的公司大家用的方法都不太一樣,你覺得未來Agent能在這中間脫穎而出的核心點(diǎn)是什么?是技術(shù)路線、產(chǎn)品、還是什么樣的決策?

朱哲清:我覺得這些公司最后都會(huì)走向不一樣的專注領(lǐng)域,像早期的,Mistral,OpenAI,Anthropic,大家后面都走了不一樣的路。最后會(huì)有一個(gè)區(qū)分化、多樣化的過程,然后大家會(huì)發(fā)現(xiàn)Agent 都越發(fā)展越不一樣,因?yàn)閯?chuàng)始人也不一樣,人在這里面會(huì)自然地發(fā)展出很多不一樣的一些決定。第二,技術(shù)方向會(huì)是一個(gè)決定一家公司能否存活下去的核心,原因在于agentic system(智能體系統(tǒng))的成本很高,雖然你融了很多錢,但是很多 AI 公司的一個(gè)核心痛點(diǎn)就是你融了錢,你的growth(增長)越快,你死得越快,因?yàn)槟愣际侨氩环蟪龅脑谧鲈鲩L,然后你下一輪融資的時(shí)候給所有的投資人一看,你的毛利潤全是負(fù)的50%,第一反應(yīng)就是就算我投了你下一輪你有什么辦法把它轉(zhuǎn)正嗎?你說你沒有,那投資人也不會(huì)買賬??傮w來說就變成了一個(gè)無限消耗的過程,那技術(shù)的提升會(huì)使得你可以把這個(gè)毛利潤轉(zhuǎn)正,對投資人來說,只要能增長,那就值得投。所以技術(shù)路徑是你能夠活下來的核心,但是最后的產(chǎn)品發(fā)展形態(tài)以及最后的市場的格局會(huì)是 創(chuàng)始人以及這個(gè)團(tuán)隊(duì)的決策所導(dǎo)致的,而且區(qū)分度會(huì)很大。

泓君:對,講得特別好。如果你技術(shù)路徑選錯(cuò)了,那可能整個(gè)AI的成本就太高了,短時(shí)間還可以靠融資維持,但是這不是一個(gè)長時(shí)間能一直維持的事情。

朱哲清:當(dāng)然很多可能都估值很高,都快上10億美金了,可能被收購的可能性不太大。但是小一點(diǎn)團(tuán)隊(duì),現(xiàn)在相對拋得比較高的那種團(tuán)隊(duì),被收購的概率其實(shí)都挺大的。所以這個(gè)市場可能接下來一到兩年都會(huì)是一個(gè)非常瘋狂的大魚吃小魚的過程,所以我們可以拭目以待,我覺得接下來的商業(yè)市場會(huì)是一個(gè)非常有意思的故事。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
恩愛15年抵不過殘酷現(xiàn)實(shí)!43歲呂燕貌美如花,63歲法國老公已萎縮

恩愛15年抵不過殘酷現(xiàn)實(shí)!43歲呂燕貌美如花,63歲法國老公已萎縮

銀河史記
2025-08-07 18:05:22
國外懸崖上發(fā)現(xiàn)中國漢字,內(nèi)容被翻譯后專家熱淚盈眶:終于對上了

國外懸崖上發(fā)現(xiàn)中國漢字,內(nèi)容被翻譯后專家熱淚盈眶:終于對上了

削桐作琴
2025-08-07 19:47:49
中超第20輪今晚打響,賽事全預(yù)測,2場爭冠之戰(zhàn)關(guān)注度極高

中超第20輪今晚打響,賽事全預(yù)測,2場爭冠之戰(zhàn)關(guān)注度極高

第一體育
2025-08-08 10:22:02
謝什科曼聯(lián)周薪曝光,經(jīng)紀(jì)人希望他穿9號(hào)!紅魔一舉動(dòng)打動(dòng)萊比錫

謝什科曼聯(lián)周薪曝光,經(jīng)紀(jì)人希望他穿9號(hào)!紅魔一舉動(dòng)打動(dòng)萊比錫

羅米的曼聯(lián)博客
2025-08-08 12:22:03
4-0!凱恩反戈一擊,7500萬新援啞火,拜仁不留情,橫掃歐聯(lián)冠軍

4-0!凱恩反戈一擊,7500萬新援啞火,拜仁不留情,橫掃歐聯(lián)冠軍

我的護(hù)球最獨(dú)特
2025-08-08 02:26:45
樓市大局已定!國內(nèi)超過41.5%的家庭,或許不得不面臨3個(gè)大難題

樓市大局已定!國內(nèi)超過41.5%的家庭,或許不得不面臨3個(gè)大難題

說故事的阿襲
2025-08-08 00:19:07
吉林黑老大李海峰,曾為禍一方,最后因貪戀女色而團(tuán)伙覆滅

吉林黑老大李海峰,曾為禍一方,最后因貪戀女色而團(tuán)伙覆滅

瑾瑜聊情感
2025-08-08 09:34:37
英國軍官不解:英國為何歸還香港?直到2000年一英國上將道出真相

英國軍官不解:英國為何歸還香港?直到2000年一英國上將道出真相

壹知眠羊
2025-07-27 07:30:03
7點(diǎn)35分!籃協(xié)重罰不到1周,張峻豪黃秋實(shí)去向敲定,楊鳴送祝福

7點(diǎn)35分!籃協(xié)重罰不到1周,張峻豪黃秋實(shí)去向敲定,楊鳴送祝福

璞玉話體壇
2025-08-07 14:29:35
秦始皇陵到底灌溉了多少水銀?專家:看看附近的石榴樹,就知道了

秦始皇陵到底灌溉了多少水銀?專家:看看附近的石榴樹,就知道了

興趣知識(shí)
2025-08-08 05:24:22
娃哈哈百億遺產(chǎn)大戰(zhàn)細(xì)節(jié)曝光:信托沒成立宗馥莉想加子女,杭州訴訟定輸贏

娃哈哈百億遺產(chǎn)大戰(zhàn)細(xì)節(jié)曝光:信托沒成立宗馥莉想加子女,杭州訴訟定輸贏

特特農(nóng)村生活
2025-08-08 11:53:27
成都世運(yùn)會(huì)首金誕生,徒步定向男子中距離決賽瑞士選手奪冠

成都世運(yùn)會(huì)首金誕生,徒步定向男子中距離決賽瑞士選手奪冠

懂球帝
2025-08-08 12:57:21
國乒4人出戰(zhàn) WTT橫濱冠軍賽今日看點(diǎn)來了

國乒4人出戰(zhàn) WTT橫濱冠軍賽今日看點(diǎn)來了

大象新聞
2025-08-08 07:22:02
河南鄭州:切實(shí)守牢不傷亡少傷亡底線,最大限度減少損失,確保度汛平安、平安度汛

河南鄭州:切實(shí)守牢不傷亡少傷亡底線,最大限度減少損失,確保度汛平安、平安度汛

政知新媒體
2025-08-07 23:43:43
董明珠:不用格力你就是在犯錯(cuò)誤 我們冰箱可讓蔬菜水果放20天跟剛摘一樣新鮮

董明珠:不用格力你就是在犯錯(cuò)誤 我們冰箱可讓蔬菜水果放20天跟剛摘一樣新鮮

快科技
2025-08-08 14:45:15
央5直播中國男籃VS約旦,比賽時(shí)間是黃金檔,1/4決賽對手出來了

央5直播中國男籃VS約旦,比賽時(shí)間是黃金檔,1/4決賽對手出來了

體育大學(xué)僧
2025-08-07 22:14:47
58歲中國大叔一夜暴富,出國專獵洋妞,卻不敢碰伊朗女,內(nèi)幕扎心

58歲中國大叔一夜暴富,出國專獵洋妞,卻不敢碰伊朗女,內(nèi)幕扎心

禾寒?dāng)?/span>
2025-08-08 00:29:58
確認(rèn)了,新臺(tái)風(fēng)生成!或達(dá)超強(qiáng)臺(tái)風(fēng),路徑直奔我國沿海!

確認(rèn)了,新臺(tái)風(fēng)生成!或達(dá)超強(qiáng)臺(tái)風(fēng),路徑直奔我國沿海!

FM93浙江交通之聲
2025-08-08 13:45:53
歌頌苦難的人,正是苦難的締造者

歌頌苦難的人,正是苦難的締造者

律法刑道
2025-08-06 09:38:45
40秒95!田徑全錦賽:廣東隊(duì)刷新4x100米男女混合接力全國紀(jì)錄

40秒95!田徑全錦賽:廣東隊(duì)刷新4x100米男女混合接力全國紀(jì)錄

直播吧
2025-08-08 08:54:44
2025-08-08 15:44:49
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
122013文章數(shù) 860918關(guān)注度
往期回顧 全部

科技要聞

看懂GPT-5發(fā)布:屠榜、免費(fèi),但沒有"炸裂"

頭條要聞

記者被緊急召喚到白宮 聽取特朗普"重大"宣布

頭條要聞

記者被緊急召喚到白宮 聽取特朗普"重大"宣布

體育要聞

百年“大蝦隊(duì)”瀕臨解散,小城天塌了

娛樂要聞

陳思誠卡零點(diǎn)為佟麗婭慶生 離婚不離親

財(cái)經(jīng)要聞

招商證券與幻方高管被曝存返傭腐敗

汽車要聞

全家人的移動(dòng)頭等艙 全新別克GL8 陸尊來了!

態(tài)度原創(chuàng)

房產(chǎn)
旅游
家居
數(shù)碼
藝術(shù)

房產(chǎn)要聞

太貴了!??诤诵恼?,又又流拍了!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

通透流暢 時(shí)尚簡約新居

數(shù)碼要聞

智能清潔3.0時(shí)代已來!留給大疆掃地機(jī)器人的時(shí)間不多了

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進(jìn)入關(guān)懷版 欧美va精品亚洲va精品| 好屌色一区二区三区| 超碰凹凸人人人澡| 亚洲码国产精品高潮在线| 人与禽zozo性伦| 国产超高清麻豆精品传媒麻豆精品 | 开心婷婷六月丁香| 羞羞影院午夜男女爽爽| 正在播放肥臀熟妇在线视频| 亚洲av片无码久久五月| 国产精品白丝久久av网站| 人人操人人插人人| 亚洲成av人片香蕉片| 六月婷亚洲男人的天堂| 九九热视频在线精品18| 国产熟女白浆精品视频2 | mm131久久久| 亚洲熟乱自拍| 欧美精品视频在线观亚洲| 天天综合网,日日夜夜| 网友自拍超碰| 久久九九热视频免费| 中文字幕一精品亚洲无线一区| 国产精品免费无码二区| 无码 制服 丝袜 国产 另类| 成人无码国产| 粉嫩AV四季AV绯色AV第一区| 99精品国产丝袜在线拍国语| 妺妺窝人体色777777仙人掌| 国产精品一区二区三区色| 精品国产乱码久久久久久108| 在线播放亚洲一区| 国产AV无码一区二区三区蜜臀| 日韩性猛××| 少妇天堂久久精品成人毛片| 无码少妇一级AV在公交车不卡| 国产成本人片无码免费 | 亚洲无码37P视频| 青青视频精品观看视频| 婷婷五月天激情网| 人妻av乱码成人小说在线|