這是一期真格基金管理合伙人戴雨森的訪(fǎng)談實(shí)錄,也是2025年中,對(duì)于整個(gè) AI 行業(yè)的一次半年度復(fù)盤(pán)。
戴雨森從投資人的視角出發(fā),圍繞近期的AI 熱點(diǎn)分享了很多有價(jià)值的看法,包括:OpenAI 的通用大語(yǔ)言模型首次達(dá)到了 IMO 國(guó)際數(shù)學(xué)奧林匹克金牌水準(zhǔn)意味著什么、ChatGPT Agent 的發(fā)布、RL研究的進(jìn)展、AI 應(yīng)用和「套殼」的價(jià)值都被低估了、基礎(chǔ)模型未來(lái)演進(jìn)的方向等等。
戴雨森認(rèn)為,2025 年,屬于各行各業(yè)的「李世石時(shí)刻」,可能才剛剛開(kāi)始。
超 10000 人的「AI 產(chǎn)品市集」社群!每天推薦一款 AI 應(yīng)用。
邀請(qǐng)從業(yè)者、開(kāi)發(fā)人員和創(chuàng)業(yè)者,飛書(shū)掃碼加群:
進(jìn)群后,你有機(jī)會(huì)得到:
最新、最值得關(guān)注的 AI 新品資訊;
不定期贈(zèng)送熱門(mén)新品的邀請(qǐng)碼、會(huì)員碼;
最精準(zhǔn)的AI產(chǎn)品曝光渠道
01OpenAI 拿下 IMO 金牌,又一個(gè)李世石時(shí)刻
Q:最近有哪幾件重要的事值得展開(kāi)聊聊?
戴雨森:確實(shí)過(guò)去這個(gè)周末發(fā)生了很多事情。我覺(jué)得最重要的一件是 OpenAI 的一個(gè)新模型,在 IMO(國(guó)際數(shù)學(xué)奧林匹克)2025 年的題目上獲得了金牌級(jí)別的成績(jī)。具體來(lái)說(shuō)是六道題做對(duì)了五道。
這個(gè)為什么重要呢?因?yàn)榘凑?OpenAI 的描述,這是一個(gè)沒(méi)有聯(lián)網(wǎng)的通用大語(yǔ)言模型,并且沒(méi)有針對(duì)數(shù)學(xué)做特別優(yōu)化,也沒(méi)有用任何 Code Interpreter 一類(lèi)的工具。它完成的是 IMO 的證明題,而且 OpenAI 找了三位 IMO 的金牌得主來(lái)交叉驗(yàn)證,確認(rèn)這些解答是對(duì)的。
當(dāng)然,這個(gè)結(jié)果也引發(fā)了一些爭(zhēng)議。比如有些人指出它還沒(méi)有經(jīng)過(guò)官方認(rèn)證,因此不一定有效。陶哲軒也說(shuō),IMO 題目的解法路徑會(huì)有很多不同,最終得分也會(huì)不一樣。
注:7 月 22 日當(dāng)晚,Google DeepMind CEO Demis Hassabis 在 X 上發(fā)帖強(qiáng)調(diào),這一結(jié)果已經(jīng)獲得了奧賽組委會(huì)官方認(rèn)定。
但不管怎樣,這個(gè)結(jié)果是一個(gè)劃時(shí)代的進(jìn)展。語(yǔ)言模型沒(méi)有經(jīng)過(guò)特別的數(shù)學(xué)優(yōu)化,只在離線(xiàn)環(huán)境中就能解出 IMO 級(jí)別的證明題。像之前 Google 用 AlphaGeometry 是為數(shù)學(xué)專(zhuān)門(mén)設(shè)計(jì)的模型,還借助了形式化驗(yàn)證方法,并不具備泛化能力。
Q:這剛好是一年前的事,2024 年 7 月 Google 的 AlphaGeometry 達(dá)到了 IMO 銀牌的水準(zhǔn),當(dāng)時(shí)差一點(diǎn)到金牌。但那不是通用大語(yǔ)言模型,而這次OpenAI說(shuō)是通用大模型。
戴雨森:對(duì),而且今年這個(gè)時(shí)間點(diǎn)正好是 IMO 出題的時(shí)間,OpenAI 是題目一出就做了,所以也不存在模型訓(xùn)練時(shí)提前見(jiàn)過(guò)這些題的情況。
雖然過(guò)去一年語(yǔ)言模型已經(jīng)有很多進(jìn)展,但像數(shù)學(xué)證明這樣的任務(wù),尤其是 IMO 這類(lèi)題,屬于 hard to verify 的問(wèn)題類(lèi)型。驗(yàn)證一個(gè)答案是否正確本身就非常難。
這類(lèi)問(wèn)題一直以來(lái)都被認(rèn)為是當(dāng)前語(yǔ)言模型難以勝任的任務(wù)。并且現(xiàn)實(shí)中世界上大部分真正的問(wèn)題,事先都是沒(méi)有標(biāo)準(zhǔn)答案和解法的。所以當(dāng)一個(gè)語(yǔ)言模型可以在沒(méi)有任何特別調(diào)教的前提下,解出這類(lèi)高難度的題,達(dá)到人類(lèi)頂尖水平時(shí),這意味著它的思考能力確實(shí)上了一個(gè)臺(tái)階。
OpenAI 也提到,這種能力可以通過(guò)延長(zhǎng)思考時(shí)間進(jìn)一步提升,這也驗(yàn)證了 inference scaling law(推理擴(kuò)展定律)。
我們以前聊過(guò),除了 pre-training,還有 post-training 和 inference scaling law。這次的結(jié)果說(shuō)明:
1.LLM 的泛化能力很強(qiáng),能解決我們?cè)瓉?lái)認(rèn)為解決不了的問(wèn)題;
2.模型能力越強(qiáng),可應(yīng)用的場(chǎng)景越多,所創(chuàng)造的價(jià)值也越大;
3.IMO 的證明題和現(xiàn)實(shí)中的某些理科的問(wèn)題在形式邏輯上很相似,都是證明題。LLM 既然能做前者,也許說(shuō)明它離發(fā)現(xiàn)新知識(shí)的能力也不遠(yuǎn)了。
目前它肯定還不能解決像哥德?tīng)柌孪脒@種超難問(wèn)題,但發(fā)現(xiàn)理科新知識(shí)這件事,可能已經(jīng)是一步之遙了。
還有一個(gè)八卦:據(jù)說(shuō)這次 OpenAI 使用的模型和 GPT-4o 是同一個(gè)底層模型。也就是說(shuō),取得這個(gè)成績(jī)并不是因?yàn)榈讓幽P陀泻艽筇嵘窃?post-training 和 inference 階段做出了優(yōu)化。后續(xù)的優(yōu)化空間給整個(gè) AI 發(fā)展帶來(lái)了很多想象。
Q:你是從一些技術(shù)人員那聽(tīng)來(lái)的描述是嗎?
戴雨森:對(duì),簡(jiǎn)單打聽(tīng)了一下。這事情也就 24 小時(shí)之內(nèi)發(fā)生的,但我感受非常強(qiáng)烈。
這讓我想到 2023 年 3 月微軟那篇論文《Sparks of AGI》,當(dāng)時(shí)他們測(cè)試 GPT-4 的預(yù)發(fā)布版本,感嘆從中看到了 AGI 的火花。那篇文章也就兩年半前,而現(xiàn)在我們已經(jīng)走到了能解 IMO 的地步。兩年半在科技進(jìn)步史中是很短的時(shí)間,甚至比很多創(chuàng)業(yè)公司從種子輪到產(chǎn)品發(fā)布還短。
那篇文章的作者后來(lái)加入了 OpenAI,他在看到這次OpenAI 模型獲得 IMO 金牌成績(jī)后說(shuō):這是「AI 的登月時(shí)刻」。
一個(gè)「只是預(yù)測(cè)下一個(gè)詞」的語(yǔ)言模型,在沒(méi)有任何工具輔助的情況下,能夠完成一個(gè)只有極少數(shù)天才人類(lèi)才能做出的有創(chuàng)造性的數(shù)學(xué)證明。這確實(shí)說(shuō)明 AI 的能力已經(jīng)到了一個(gè)新的高度。
我們年初錄節(jié)目《》時(shí)也說(shuō)過(guò):2024 年會(huì)是很多行業(yè)迎來(lái)「李世石時(shí)刻」的一年。所謂「李世石時(shí)刻」,就是 AI 在某個(gè)領(lǐng)域超越了人類(lèi)最強(qiáng)水平。
我們已經(jīng)在圍棋、編程、數(shù)學(xué)推理等領(lǐng)域看到這種情況不斷出現(xiàn)。接下來(lái)還會(huì)有更多這樣的時(shí)刻等待著我們,解決我們?cè)疽詾檫€很難、很遠(yuǎn)的問(wèn)題。
Q:而且我還看到一個(gè)信息:似乎不止 OpenAI 做到了。因?yàn)?OpenAI 發(fā)這個(gè)消息之后,一個(gè) Google 的研究員也在 X(原 Twitter)上發(fā)帖,說(shuō) OpenAI 搶先發(fā)布了。
戴雨森:我們也在拭目以待。好像 Google DeepMind 也做到了金牌,但我們不知道是不是用通用模型實(shí)現(xiàn)的。如果真是通用模型,那就說(shuō)明這個(gè)能力已經(jīng)不只是一家掌握的。這種技術(shù)一旦擴(kuò)散開(kāi)來(lái),會(huì)帶來(lái)推理能力的大幅提升,不管是哪個(gè)模型廠商都會(huì)從中受益。
注:7 月 22 日,Google DeepMind 宣布,Gemini Deep Think 模型獲得官方認(rèn)證的 IMO 金牌,并公開(kāi)了具體解題過(guò)程。這一通用模型僅用純自然語(yǔ)言(英語(yǔ))完成了解題。
Q:你和國(guó)內(nèi)一些從業(yè)者交流過(guò),他們對(duì)這個(gè)成果是感到吃驚,還是覺(jué)得其實(shí)也在預(yù)期之中?
戴雨森:我覺(jué)得方向大家早就知道,是朝著更強(qiáng) reasoning 能力去的。誰(shuí)都知道 reasoning 能力提升了,模型就能解更難的題。但現(xiàn)在就能做到確實(shí)還是讓人很震驚。我聊到一些中國(guó)最頂尖的研究者,他們也表示非常驚訝。但就像原子彈一樣:爆炸那一刻起,大家知道這件事情可以做到,就已經(jīng)離做出來(lái)不遠(yuǎn)了。
Q:從技術(shù)進(jìn)展的角度看,圍棋、編程、數(shù)學(xué)是三個(gè)典型的「李世石時(shí)刻」。你怎么看這三個(gè)的不同影響?
戴雨森:數(shù)學(xué)推理其實(shí)比編程更難。
編程屬于好驗(yàn)證的問(wèn)題。強(qiáng)化學(xué)習(xí)在編程上容易成功,一大原因是因?yàn)樗?reward 清晰。代碼能運(yùn)行、能通過(guò) test case 就說(shuō)明結(jié)果是對(duì)的。
但數(shù)學(xué)證明題的判卷是非常復(fù)雜的。IMO 就是典型的「hard to produce, hard to verify」的問(wèn)題。
圍棋是一個(gè)雙方信息公開(kāi)且完備、勝負(fù)明確的任務(wù),非常適合強(qiáng)化學(xué)習(xí);編程也是結(jié)構(gòu)化任務(wù),而且很多代碼是已有人寫(xiě)過(guò)的,拼裝比全新創(chuàng)造多。
但數(shù)學(xué)是理工科的基礎(chǔ),它的推理是很多學(xué)科的根基。而且不依賴(lài)自然世界實(shí)驗(yàn),只靠邏輯思維。所以 AI 能解 IMO 級(jí)別的證明題,意味著理工科很多知識(shí)生成方式可能都要改變,帶來(lái)的科學(xué)進(jìn)步可能比編程還大。
Q:你覺(jué)得這個(gè)應(yīng)用影響會(huì)更大?
戴雨森:有可能更大。因?yàn)榫幊态F(xiàn)在替代的是一些重復(fù)性較高的初級(jí)工作,比如 Vibe Coding 大部分還是復(fù)制粘貼一些前端代碼。但數(shù)學(xué)推理帶來(lái)的是非常強(qiáng)的思考和潛在的新知識(shí)發(fā)現(xiàn)能力。顯然,這是更值錢(qián)的部分。
AI 會(huì)不斷替代簡(jiǎn)單任務(wù),而人類(lèi)往更有價(jià)值、更難的方向走。但現(xiàn)在 AI 正在追著人類(lèi)解決那些最有價(jià)值的難題。
這就是為什么我說(shuō)這次 IMO 金牌事件讓我更清晰地看到了 AGI 即將到來(lái)的信號(hào)。如果以前是遠(yuǎn)處看到一輛冒煙的火車(chē),現(xiàn)在已經(jīng)能聽(tīng)到它的轟鳴聲了。
Q:有人在 X(原 Twitter)上說(shuō)強(qiáng)化學(xué)習(xí)現(xiàn)在也能處理那些獎(jiǎng)勵(lì)反饋不是很直接的領(lǐng)域。這可能是這次進(jìn)展背后更大的突破之一。還有人提到「驗(yàn)證的非對(duì)稱(chēng)性」,說(shuō)有些任務(wù)你做出來(lái)的時(shí)間可能比驗(yàn)證時(shí)間還短。IMO 數(shù)學(xué)題就屬于這種類(lèi)型。
戴雨森:對(duì),以前很多任務(wù)是「hard to produce, easy to verify」,比如寫(xiě)代碼。但現(xiàn)在變成了「hard to produce, hard to verify」。
Q:不過(guò)有人認(rèn)為,在這些驗(yàn)證成本高的任務(wù)上,AI還很難完全替代人,因?yàn)樽罱K還得靠人來(lái)判斷。
戴雨森:有可能。但光是給出證明這一點(diǎn),其實(shí)就已經(jīng)是質(zhì)的飛躍?,F(xiàn)在我們還不知道所有細(xì)節(jié),但我們期待更多公開(kāi)信息,或其他模型公司復(fù)刻類(lèi)似成果。按照目前 AI 的發(fā)展速度,只要一件事被做到,那它就已經(jīng)不是遙不可及的難題了。
02ChatGPT Agent 發(fā)布,「殼」的價(jià)值在于 context
Q:7 月 18 日凌晨,OpenAI 發(fā)布了 ChatGPT Agent。不過(guò)和 Manus 不同,這個(gè) Agent 讓很多人其實(shí)覺(jué)得有點(diǎn)失望,沒(méi)有那么驚艷。
戴雨森:我覺(jué)得這反映了 OpenAI 作為 AI 的領(lǐng)頭羊、最大的 AI 應(yīng)用公司,他們也把 Agent 作為重要的方向。就像我們年初就開(kāi)始討論的:理解目標(biāo)、拆解規(guī)劃、編程使用工具、對(duì)結(jié)果進(jìn)行復(fù)盤(pán)和反思。從一開(kāi)始的構(gòu)想,到 Devin、Manus 等第一波產(chǎn)品的出現(xiàn),再到 ChatGPT Agent 的發(fā)布,Agent 確實(shí)逐漸成為了AI 應(yīng)用的共識(shí),變成了大家聚焦的方向。
Q:有人說(shuō)「OpenAI 發(fā)了一個(gè) Manus」,你怎么看?
戴雨森:我們不會(huì)這么想。我覺(jué)得不能低估 OpenAI。他們有最多的人、最多的卡、最多的用戶(hù),在安全性上也做了很多考量,加了很多額外約束。其實(shí) ChatGPT Agent 的能力是被限制得很死的,這是負(fù)責(zé)任的表現(xiàn)。
這個(gè)產(chǎn)品也是他們第一個(gè)在 AI 安全性評(píng)估中被列為「高危險(xiǎn)級(jí)別」的,說(shuō)明他們確實(shí)擔(dān)心這類(lèi) Agent 會(huì)遇到比如釣魚(yú)網(wǎng)站、或者生物武器信息等風(fēng)險(xiǎn)(詳見(jiàn) OpenAI 發(fā)布的 ChatGPT agent System Card)。當(dāng)公司變大,就會(huì)變得更謹(jǐn)慎;這也反過(guò)來(lái)說(shuō)明了創(chuàng)業(yè)公司的行動(dòng)力快、敢于突破的機(jī)會(huì)所在。
Q:我覺(jué)得「發(fā)了個(gè) Manus」的說(shuō)法也不一定是說(shuō)效果不好,更多是說(shuō)產(chǎn)品形態(tài)。它其實(shí)把 Operator 和 Deep Research 結(jié)合起來(lái)了,形態(tài)上有點(diǎn)像 Manus 或 Genspark。
戴雨森:是的,Manus 確實(shí)探索出了一個(gè)方向:讓 AI 在做什么可以被直觀看到,讓人理解背景,否則如果只看到最后的結(jié)果,會(huì)很困擾。所以我們看到 Manus、Genspark、Kimi,還有 MiniMax 等中國(guó)團(tuán)隊(duì)也在針對(duì) OpenAI 的 Task,用自己已經(jīng)發(fā)布的線(xiàn)上 Agent 做對(duì)比。不得不說(shuō),這些公司的產(chǎn)品在很多維度上的表現(xiàn),比如做 PPT 的任務(wù),確實(shí)比 ChatGPT Agent 要好。
Q:ChatGPT Agent 做出來(lái)的 PPT 真的有點(diǎn)丑。
戴雨森:但這讓我有幾個(gè)啟發(fā):
第一,中國(guó)團(tuán)隊(duì)在產(chǎn)品力上確實(shí)不錯(cuò)。移動(dòng)互聯(lián)網(wǎng)時(shí)代就有很多例子,比如 TikTok、Shein、剪映,中國(guó)團(tuán)隊(duì)確實(shí)做出了很多好產(chǎn)品。
第二,所謂的「套殼」產(chǎn)品,也就是調(diào)用 API 的應(yīng)用,并不會(huì)就一定被 model native 產(chǎn)品吊打。之前大家以為 OpenAI 下場(chǎng),訓(xùn)練的模型能端到端處理,就能完全替代第三方。但其實(shí)不然,尤其 Agent 需要更多 context 和工具,很多都依賴(lài)殼和應(yīng)用本身提供的環(huán)境。
Manus 分享的那篇關(guān)于 Context Engineering 的文章《》就收到很多好評(píng)。因?yàn)檫@就是一個(gè)大家現(xiàn)在都在解決的問(wèn)題,里面有很多實(shí)踐是需要時(shí)間和經(jīng)驗(yàn)的。
我理解,Context Engineering 最早是來(lái)自于 Prompt Engineering。Prompt Engineering 就是給 AI 一個(gè)命令、一個(gè)任務(wù),然后 AI 自己去做事。這很像傳統(tǒng)管理方式:老板布置任務(wù),員工去執(zhí)行。而像 Netflix、字節(jié)等先進(jìn)公司強(qiáng)調(diào)的「Context, not control」,意味著要給員工更多上下文和授權(quán),才能更好完成任務(wù)。Context Engineering 也是類(lèi)似的道理:我們要給模型提供的是能夠幫助它更好完成任務(wù)的上下文。
第一個(gè)層面,就是單個(gè) session,看我們?cè)趺刺峁└玫纳舷挛?、更好的?shù)據(jù)、以更適合模型操作的格式去處理它。
第二個(gè)層面,是多 session 或跨 session 的個(gè)性化記憶:比如說(shuō)今天做了什么,明天再做對(duì)應(yīng)的事,用戶(hù)的偏好、習(xí)慣、工作經(jīng)驗(yàn),能不能累積?這個(gè)長(zhǎng)期可能成為護(hù)城河。因?yàn)橥瑯拥哪P?,誰(shuí)有更好的上下文,它就更懂我。
第三個(gè)層面,是產(chǎn)品設(shè)計(jì)本身可以提供模型原本獲取不到的上下文。比如大家設(shè)想的一個(gè)還沒(méi)做出來(lái)的產(chǎn)品:戴個(gè)眼鏡可以實(shí)時(shí)看到周?chē)澜纭_@樣的 context 是模型自己無(wú)法產(chǎn)生的,必須通過(guò)好的硬件與軟件設(shè)計(jì)來(lái)實(shí)現(xiàn),也說(shuō)明了產(chǎn)品層的價(jià)值。
Q:你說(shuō)的眼鏡能看到的數(shù)據(jù),是現(xiàn)在所有互聯(lián)網(wǎng)巨頭都沒(méi)有的。
戴雨森:對(duì)。所以從 ChatGPT Agent 的發(fā)布,我覺(jué)得可以看到三點(diǎn):
第一,Agent 方向逐漸達(dá)成共識(shí);
第二,創(chuàng)業(yè)公司在模型核心巨頭面前,依然有靈活性、先發(fā)優(yōu)勢(shì)和競(jìng)爭(zhēng)力;
第三,進(jìn)一步印證了我們之前說(shuō)的兩個(gè)被低估:模型進(jìn)步速度被低估了,產(chǎn)品「殼」的價(jià)值也被低估了。
模型這條線(xiàn),OpenAI 這周剛拿下了 IMO 金牌,說(shuō)明它的進(jìn)步速度還是很快。而 OpenAI 自己做的 ChatGPT Agent 還有很大提升空間,說(shuō)明「殼」的價(jià)值也非常重要。所以我覺(jué)得模型和應(yīng)用都被低估了。
Q:你剛說(shuō)的 context 的價(jià)值特別好。它其實(shí)和管理學(xué)也打通了,比如 Netflix 的那本書(shū)《No Rules Rules》最開(kāi)始就講了這個(gè)邏輯。AI確實(shí)很像一個(gè)人,你要教它、要給上下文,比起給它具體指令,這可能是更好的方式。
戴雨森:第一階段大家都在寫(xiě)更好的 prompt,就像老板寫(xiě) brief。后來(lái)發(fā)現(xiàn)要加更多示例、更好的上下文、更適合模型工作的環(huán)境。這其中有很多具體技巧。Manus 的文章就分享了很多。我想說(shuō)的是,更多的 context 帶來(lái)模型能力的提升,也反映出我們對(duì) AI 的使用越來(lái)越深入,產(chǎn)品本身也越來(lái)越完善。以前一句 prompt 就能跑,現(xiàn)在產(chǎn)品本身要承擔(dān)更多事情,產(chǎn)品公司的價(jià)值也在這里體現(xiàn)。
Q:你覺(jué)得這一層的應(yīng)用價(jià)值,什么時(shí)候會(huì)被模型本身做掉?是不是等到模型具備在線(xiàn)學(xué)習(xí)能力、能不斷吸收新的上下文的時(shí)候?
戴雨森:也得看你的產(chǎn)品有沒(méi)有用戶(hù) input。如果沒(méi)有用戶(hù)輸入,那模型再怎么學(xué)習(xí)也沒(méi)法學(xué)到用戶(hù)自己獨(dú)特的東西。
Q:所以是不是又回到一個(gè)曾經(jīng)被否認(rèn)的邏輯?以前移動(dòng)互聯(lián)網(wǎng)時(shí)代,用戶(hù)越多,數(shù)據(jù)反饋越多,推薦越準(zhǔn),有一個(gè)數(shù)據(jù)飛輪。但后來(lái)大家覺(jué)得大模型里用戶(hù)輸入對(duì)模型智能提升沒(méi)啥幫助。但你剛剛的意思是:用戶(hù)輸入對(duì)上下文是有幫助的。
戴雨森:這是兩個(gè)不同的問(wèn)題。大家說(shuō)的數(shù)據(jù)飛輪失效,指的是用戶(hù)的聊天記錄不能提升模型智能。這我同意。因?yàn)楝F(xiàn)在模型的智能已經(jīng)超過(guò)普通人。你跟它聊些日常話(huà)題,沒(méi)法提升它的能力。
最開(kāi)始模型通過(guò) RLHF(人類(lèi)反饋強(qiáng)化學(xué)習(xí)) 來(lái)學(xué)習(xí)人類(lèi)偏好,現(xiàn)在來(lái)看普通人反饋意義不大。比如 AI 都能解 IMO 的題了,為什么還要在意普通人覺(jué)得哪個(gè)答案更好?所以對(duì)于有標(biāo)準(zhǔn)答案的任務(wù),用戶(hù)輸入越來(lái)越?jīng)]什么價(jià)值。
但如果是完成一個(gè)具體工作,比如 Agent 在完成人類(lèi)工作時(shí)怎么更好達(dá)成目標(biāo),這時(shí)用戶(hù)的輸入和喜好當(dāng)然有用。
Q:所以用戶(hù)數(shù)據(jù)其實(shí)對(duì)產(chǎn)品體驗(yàn)是有幫助的,但不一定能直接提升模型能力?
戴雨森:是的,尤其是在智能能力或者那種有標(biāo)準(zhǔn)答案的任務(wù)上。最開(kāi)始大模型可以看作是對(duì)大量人類(lèi)平均智能的一種壓縮。當(dāng)時(shí)特德·姜(Ted Chiang)不是就說(shuō)過(guò),語(yǔ)言模型本質(zhì)上是對(duì)互聯(lián)網(wǎng)的模糊壓縮嗎?但現(xiàn)在,它顯然已經(jīng)超越了普通人的水平,達(dá)到了某種超人水平。在這個(gè)階段,簡(jiǎn)單的數(shù)據(jù)可能就沒(méi)那么有用了。
Q:現(xiàn)在這個(gè)時(shí)間點(diǎn),是越早做 Agent 越好嗎?因?yàn)槟惴e累的用戶(hù)上下文越多,價(jià)值也越大。之前大家可能擔(dān)心新的強(qiáng)模型會(huì)把已有產(chǎn)品淹沒(méi)掉。
戴雨森:如果你沒(méi)有上下文、沒(méi)有環(huán)境,最后只是調(diào)模型,那確實(shí)可能被新模型取代。
03AI 應(yīng)用普及:最重要的、被高估的、被低估的
Q:上次我們聊是二月份,轉(zhuǎn)眼到現(xiàn)在差不多五個(gè)月了。今年已經(jīng)過(guò)去一半,回頭看,你覺(jué)得 2025 年上半年AI領(lǐng)域發(fā)生的幾件最重要的事是什么?
戴雨森:整體來(lái)說(shuō),AI 已經(jīng)從一個(gè)偏研究性質(zhì)、看起來(lái)很新穎但實(shí)用性有限的技術(shù),進(jìn)入到了主流市場(chǎng)。上半年我認(rèn)為有幾個(gè)重大進(jìn)展。
第一,是AI在編程領(lǐng)域的突破。Coding 已經(jīng)成為 AI 應(yīng)用的重中之重。我今天還聽(tīng)說(shuō) OpenAI 現(xiàn)在已經(jīng)有三個(gè)業(yè)務(wù)線(xiàn):GPT、API 和 Coding。用戶(hù)也發(fā)現(xiàn) AI coding 產(chǎn)品非常有用,也愿意為此付費(fèi)。Cursor 等 AI 編程工具的成長(zhǎng)速度就是一個(gè)代表。Claude Code 也有人稱(chēng)是 L3 或 Agent 級(jí)別的產(chǎn)品,能比人類(lèi)寫(xiě)得更快更好,代碼更優(yōu)雅,還能處理更大的代碼庫(kù)。所以 AI 在編程領(lǐng)域已經(jīng)正式跨越鴻溝,進(jìn)入了主流市場(chǎng)。
第二,是 o3 在四月的正式發(fā)布,伴隨著ChatGPT用戶(hù)的高速增長(zhǎng),這是推理模型的持續(xù)演進(jìn)。從去年下半年開(kāi)始我們就看到 OpenAI 推出 o1、R1,到今年的 o3,它標(biāo)志著推理問(wèn)答、題解這些能力從科研層面進(jìn)入到了普通用戶(hù)可以使用的產(chǎn)品,是真正的落地了。
ChatGPT 的用戶(hù)增長(zhǎng)還在持續(xù),這一波也受益于 o3 推理能力的提升。我們也看到年初中國(guó)這邊的突破,比如 R1 是國(guó)內(nèi)在 reasoning 上邁出的重要一步,Kimi Researcher 也是第一個(gè)廣泛可用的 deep research 類(lèi)產(chǎn)品,用戶(hù)反饋很好。AI 在這個(gè)領(lǐng)域已經(jīng)比絕大多數(shù)人做得更好了,也是跨越鴻溝。
第三,是 Agent 應(yīng)用開(kāi)始普及。比如 Devin 是第一個(gè)讓人看到 L3 Agent prototype 的產(chǎn)品。Manus 和 Genspark 都是在三月發(fā)布,Claude Code 也在不斷完善。我們看到隨著模型在推理、編程、工具使用這三大能力的增強(qiáng),出現(xiàn)了第一批具備完整 Agent 形態(tài)的產(chǎn)品:它們能接收模糊目標(biāo),自主調(diào)用工具,尋找解決方案,評(píng)估任務(wù)進(jìn)度,并最終完成任務(wù)。雖然它們還不算主流,但已經(jīng)進(jìn)入 Early Adopter 階段,部分場(chǎng)景下用戶(hù)非常愿意用。盡管還有不少問(wèn)題,但 Agent 已經(jīng)變得有用了,這是上半年 AI 應(yīng)用領(lǐng)域最重要的進(jìn)展之一。
第四,是多模態(tài)能力的快速進(jìn)步,尤其是圖像生成。從早期像玩具一樣的工具,變成了實(shí)實(shí)在在的生產(chǎn)力工具。比如 ChatGPT 的圖像生成對(duì)語(yǔ)義的跟隨非常好,能準(zhǔn)確理解用戶(hù)意圖。現(xiàn)在很多人用 AI 來(lái)畫(huà)漫畫(huà)、畫(huà)流程圖、做視覺(jué)內(nèi)容。這種生成能力的提升已經(jīng)變得非常實(shí)用。
Q:它也能支持 Agent 做出更豐富的輸出,對(duì)吧?
戴雨森:對(duì),因?yàn)樗闹噶罡S能力越來(lái)越強(qiáng),能更好滿(mǎn)足用戶(hù)需求。原來(lái)是像抽卡那樣的不確定性,現(xiàn)在已經(jīng)越來(lái)越好了。直播頭像好多都變成了 AI 生成的。
Veo3 也是一個(gè)很厲害的模型。它加入語(yǔ)音配音后,我發(fā)了個(gè)朋友圈感嘆,它生成的世界已經(jīng)接近真相難辨的虛擬世界了。Veo3 第一次讓我有一種跨越恐怖谷的感覺(jué),真假難辨。
第五,是搶人大戰(zhàn)。無(wú)論是 Meta 的大規(guī)模挖人,還是創(chuàng)業(yè)公司瘋狂融資,再到 Windsurf 最近收購(gòu)的 drama,都說(shuō)明硅谷對(duì)人才的爭(zhēng)奪和資本競(jìng)爭(zhēng)進(jìn)入了一個(gè)新的階段。我們?cè)趪?guó)內(nèi)也感受到類(lèi)似熱度:融資額上升、項(xiàng)目搶手、一個(gè)月融資幾輪的情況又出現(xiàn)了。這背后是因?yàn)榇蠹艺娴目吹搅?/strong>AI正在落地,不再只是概念,很多已經(jīng)實(shí)實(shí)在在地產(chǎn)生收入了。
Q:你關(guān)注的主線(xiàn)還是圍繞AI的應(yīng)用普及,技術(shù)的變化是原動(dòng)力,對(duì)嗎?
戴雨森:我們認(rèn)為模型基礎(chǔ)能力的提升是解鎖應(yīng)用場(chǎng)景的關(guān)鍵。模型能力配合好的產(chǎn)品設(shè)計(jì),才能真正釋放價(jià)值。一個(gè)真正有價(jià)值的 AI 應(yīng)用,一定能通過(guò)某種方式讓用戶(hù)付費(fèi),比如訂閱或按工作交付。所以我們特別關(guān)注 AI 在提升生產(chǎn)力方面的價(jià)值,尤其是在數(shù)字世界里的應(yīng)用??梢钥吹轿覀兺兜暮芏嗍?AI Agent 或者 AI 生產(chǎn)力方向的項(xiàng)目,因?yàn)檫@是當(dāng)下最能真正幫用戶(hù)解決問(wèn)題的場(chǎng)景。
Q:除了你說(shuō)的應(yīng)用這條主線(xiàn),其實(shí)AI硬件也很熱,比如機(jī)器人,具身智能其實(shí)也在 AI 產(chǎn)業(yè)鏈上。
戴雨森:是的,但我認(rèn)為上半年有一個(gè)被高估的方向,就是人形機(jī)器人。特斯拉最近下調(diào)了對(duì) Optimus 的生產(chǎn)預(yù)期,我覺(jué)得很有代表性。
去年我就說(shuō)過(guò),大家對(duì) Optimus 進(jìn)工廠打螺絲的期待值太高了。當(dāng)時(shí)有人說(shuō) 2025 年特斯拉就能有一萬(wàn)個(gè)機(jī)器人進(jìn)廠干活,這完全低估了 manipulation(操作控制)的難度?,F(xiàn)在我們看到的一些 demo 確實(shí)越來(lái)越好,比如疊衣服,但真的要機(jī)器人做出一杯咖啡,還是非常難的。
當(dāng)然,我認(rèn)為這個(gè)領(lǐng)域還在快速發(fā)展,在未來(lái)幾年可能會(huì)看到 manipulation 的「ChatGPT 時(shí)刻」突破,但如果期待 2025 年就能大規(guī)模落地,我覺(jué)得是大大高估了。
技術(shù)的發(fā)展不能拔苗助長(zhǎng),必須經(jīng)歷:方向確定、逐漸放大、形成產(chǎn)品、再到大規(guī)模落地,這幾個(gè)階段,沒(méi)法跳過(guò)。機(jī)器人目前顯然還處在早期探索階段。
Q:另一方面,你覺(jué)得這半年有沒(méi)有一些被低估的事情、公司或者現(xiàn)象?
戴雨森:我覺(jué)得首先,應(yīng)用的價(jià)值還是在被低估的。一年前,大家還在講模型公司會(huì)顛覆應(yīng)用公司,說(shuō)「應(yīng)用只是套殼」,這個(gè)業(yè)務(wù)模式不成立。當(dāng)時(shí)不管是 Manus、Genspark,還是很多其他公司,都經(jīng)歷了不少質(zhì)疑,說(shuō):「你是一個(gè)殼公司,有沒(méi)有長(zhǎng)期價(jià)值?是不是模型一升級(jí)你就完了?」
現(xiàn)在這個(gè)爭(zhēng)論雖然還在繼續(xù),但顯然不是模型升級(jí)了應(yīng)用公司就會(huì)完蛋。相反,好的應(yīng)用公司是期待模型升級(jí)的,這樣可以讓用戶(hù)享受更強(qiáng)大的體驗(yàn)。「殼」的價(jià)值仍被低估了。
第二,優(yōu)秀團(tuán)隊(duì)的價(jià)值也在被低估。不管是 Kimi、Manus,還是 Genspark,我們歸根結(jié)底是投人。
大家之前可能不會(huì)料到,肖弘能做出一個(gè)世界級(jí)的 AI 應(yīng)用。而幾天前發(fā)布的 Kimi K2,在 7 月 15 日這個(gè)時(shí)間點(diǎn),可以說(shuō)是全球最強(qiáng)的開(kāi)源大模型,沒(méi)有之一。它在 coding、Agent 工作流和中文寫(xiě)作等方面的表現(xiàn),確實(shí)優(yōu)于 Claude。當(dāng)然,Claude 是在年初發(fā)布的,但在 AI 這個(gè)領(lǐng)域,六個(gè)月就相當(dāng)于很久了。
OpenRouter 上的調(diào)用數(shù)據(jù)顯示,K2 剛上線(xiàn)沒(méi)幾天,昨天還在編程類(lèi)目里排第 13,今天就升到了第 10,前面是 Claude、Gemini、GPT。這種上升速度是非??斓?,說(shuō)明用戶(hù)反饋非常好,但現(xiàn)在大家其實(shí)已經(jīng)對(duì) benchmark 麻木了。我們更看重實(shí)際用戶(hù)的使用反饋。
比如 Perplexity 的創(chuàng)始人就在推特上說(shuō),他們團(tuán)隊(duì)已經(jīng)開(kāi)始調(diào)研在 Perplexity 上引入 K2,也明確表示:Kimi 做得非常好。
Kimi 是最典型的例子,但不是唯一的。我們也討論過(guò) DeepSeek 后他們團(tuán)隊(duì)的轉(zhuǎn)型問(wèn)題,Kimi 背后的 Moonshot 也經(jīng)歷了很多復(fù)盤(pán),并集中精力攻堅(jiān)下一代模型。我覺(jué)得外界太容易在很早期就下結(jié)論,比如說(shuō) DeepSeek 出來(lái)的六小龍公司是不是都不行了。但實(shí)際上,如果一個(gè)團(tuán)隊(duì)足夠穩(wěn)定,有優(yōu)秀人才、有資源、有意志,那他們的主觀能動(dòng)性和突破空間遠(yuǎn)遠(yuǎn)被低估了。
第三,我覺(jué)得模型能力進(jìn)化的速度也被低估了。比如現(xiàn)在已經(jīng)有傳言說(shuō) GPT-5 很快就要發(fā),它可能是一個(gè)原生多模態(tài)、推理能力非常強(qiáng)、具備高級(jí) Agent 能力的模型。
現(xiàn)在新產(chǎn)品發(fā)布的時(shí)候往往會(huì)被噴,說(shuō)畫(huà)了大餅但實(shí)際上產(chǎn)品體驗(yàn)沒(méi)有那么好。但好的應(yīng)用公司需要為 6 到 12 個(gè)月后的模型設(shè)計(jì)。比如 Cursor 一開(kāi)始發(fā)布的時(shí)候,當(dāng)時(shí)的模型還無(wú)法實(shí)現(xiàn)它的完整愿景,直到 Claude 3.5 Sonnet 出來(lái),Cursor 才真正成為一個(gè)好用的產(chǎn)品。
Manus 在設(shè)計(jì)時(shí)能用的最好模型是 Sonnet 3.5,發(fā)布時(shí) Sonnet 3.7 剛上線(xiàn),Manus 因此能夠完成一些更復(fù)雜的任務(wù),之后Claude 4,Gemini 2.5 Pro 等新模型的發(fā)布也進(jìn)一步提升了 Manus 的表現(xiàn)。也許再需要 1-2 個(gè)模型的大版本迭代,才能夠充分讓主流用戶(hù)感受到 Agent 帶來(lái)的生產(chǎn)力提升。
所以我們認(rèn)為,未來(lái)模型的能力提升仍然非???,也許很快就會(huì)有讓大家震驚的發(fā)布出現(xiàn)。那時(shí),模型增長(zhǎng)和應(yīng)用價(jià)值可能都將超出市場(chǎng)預(yù)期,整個(gè) AI 發(fā)展節(jié)奏也會(huì)再度加快。
Q:這半年還有一個(gè)我之前沒(méi)有想到的新變化,就是最近非常激烈的外賣(mài)大戰(zhàn)。因?yàn)橥赓u(mài)大戰(zhàn)這件事情牽扯了好幾個(gè)巨頭的精力和資源,包括阿里、美團(tuán)和京東。你覺(jué)得這個(gè)會(huì)怎么影響中國(guó)的AI的格局,或者說(shuō)對(duì)創(chuàng)業(yè)公司來(lái)說(shuō),它可能會(huì)有什么影響?
戴雨森:現(xiàn)在看其實(shí)還是兩個(gè)戰(zhàn)場(chǎng)。從長(zhǎng)期看,可能會(huì)對(duì)資源投入產(chǎn)生一些影響。
但我看阿里云的增速預(yù)期還是挺高的。今天 Jensen 還宣布可以重新向中國(guó)銷(xiāo)售 H100。我們看到,今年美國(guó)的 IDC 和云服務(wù)增長(zhǎng)得非常快,因?yàn)閼?yīng)用落地之后推理的用量會(huì)大幅增長(zhǎng)。
我認(rèn)為中國(guó)市場(chǎng)的發(fā)展路徑也會(huì)是類(lèi)似的。當(dāng) Kimi、字節(jié)、DeepSeek 等公司推出更好的模型后,更多場(chǎng)景被解鎖,推理的算力需求也會(huì)很快爆發(fā)。知識(shí)工作者在中美其實(shí)都很像,大家都用 Office、都要搜索、都用 deep research 工具,在美國(guó)市場(chǎng)已經(jīng)驗(yàn)證的這些需求場(chǎng)景在中國(guó)遲早也會(huì)爆發(fā)。
當(dāng)然這跟外賣(mài)大戰(zhàn)沒(méi)什么直接關(guān)系。但比如說(shuō)阿里云、火山云這些中國(guó)云服務(wù)商,可能也會(huì)經(jīng)歷一次美國(guó)那樣的增長(zhǎng)過(guò)程。
04從 DeepSeek 出發(fā),不同公司各有演進(jìn)之路
Q:我們接下來(lái)圍繞一些具體的方向聊聊,你覺(jué)得為什么 DeepSeek 還沒(méi)發(fā)布 R2?
戴雨森:這個(gè)現(xiàn)在還是挺神秘的,我們也只能通過(guò)一些外圍信息去了解。我聽(tīng)說(shuō)現(xiàn)在 V4 還在訓(xùn)練階段。因?yàn)樗麄儺?dāng)時(shí)是先發(fā)了一個(gè) V3,然后再發(fā) R1,那現(xiàn)在 V4 都還沒(méi)補(bǔ)發(fā),聽(tīng)說(shuō)還在訓(xùn)練中,那 R2 的發(fā)布時(shí)間可能就要等到 V4 之后了。但我相信 DeepSeek 肯定在做很多有意思的創(chuàng)新。我們也和里面的一些同學(xué)聊過(guò),知道他們的創(chuàng)新能力是非常強(qiáng)的。不過(guò)我覺(jué)得他們也確實(shí)會(huì)受到算力資源的限制。畢竟卡的總量是有限的,而且他們發(fā)布模型之后,還有大量的算力要用來(lái)做推理(inference)。
Q:對(duì),我覺(jué)得他們現(xiàn)在可能也在思考模型或者智能未來(lái)的演進(jìn)方向,基本上還是不做多模態(tài)。
戴雨森:對(duì),這其實(shí)反映了一個(gè)很現(xiàn)實(shí)的情況:DeepSeek 的資源沒(méi)有多到可以在所有領(lǐng)域?qū)?biāo) SOTA。所以就像 Claude 背后的 Anthropic 一樣,他們要做一些判斷:哪些方向在當(dāng)前階段最重要、最能出結(jié)果,然后集中資源突破;而對(duì)于一些尚不明朗的方向,他們可以等等,等到思路更清晰之后,再利用自己的工程能力和團(tuán)隊(duì)的努力趕上。
而字節(jié) Seed 現(xiàn)在可能是在試圖做到全面領(lǐng)先:他們有 Edge 組去做最前沿的研究,有 Focus 組去沖擊 SOTA,還有 Base 組去做服務(wù)產(chǎn)品應(yīng)用。這種是全棧型的布局。
相比之下,DeepSeek 更有選擇性,比如重點(diǎn)突破模型智能。當(dāng)資源不那么充足時(shí),確實(shí)需要做一些取舍。像 Seed 這樣的組織結(jié)構(gòu),把 Edge、Focus、Base 三個(gè)方向明確分開(kāi),我覺(jué)得是更明確的。
Q:對(duì),他們現(xiàn)在就是這種比較明確的分工結(jié)構(gòu)。Edge 一開(kāi)始列了五個(gè)方向,現(xiàn)在可能已經(jīng)擴(kuò)展到了十幾個(gè)項(xiàng)目,確實(shí)挺厲害的。
戴雨森:我覺(jué)得把應(yīng)用和研究分開(kāi),再把研究中的 SOTA 和 Frontier 部分繼續(xù)細(xì)分,是比較對(duì)的做法。之前大家可能就是分成 Frontier 和 Applied Research,但那時(shí)候資源不夠,組織的職責(zé)也不夠明確。普遍的問(wèn)題是:如果你讓一個(gè)模型團(tuán)隊(duì)既要做前沿研究追趕 SOTA,甚至超越 SOTA,同時(shí)又要滿(mǎn)足 App 的落地需求,這兩個(gè)目標(biāo)是很容易沖突的。
Kimi 在過(guò)去半年其實(shí)也總結(jié)了很多這方面的經(jīng)驗(yàn)。如果有個(gè)大用戶(hù)量的應(yīng)用在線(xiàn)上,需要花大量精力去維護(hù),處理各種 corner case,修 bug。但這些工作其實(shí)對(duì)推動(dòng)下一代模型、挑戰(zhàn) SOTA 的幫助是有限的。今年就沒(méi)有投入太多精力在 K1 的迭代和應(yīng)用功能上,而是專(zhuān)注于做下一代模型,來(lái)拓展模型智能的邊界。
Q:這也是我們以前反復(fù)會(huì)問(wèn)大模型創(chuàng)業(yè)公司創(chuàng)始人的一個(gè)問(wèn)題:你一邊做模型,一邊做產(chǎn)品,中間的精力怎么分配?
戴雨森:目前來(lái)看,我覺(jué)得還是要先把一個(gè)方向做到極致。比如你如果是做應(yīng)用的,那就假設(shè)自己能用上最好的模型,誰(shuí)最強(qiáng)、最合適就用誰(shuí)。但如果你是做模型的,那目標(biāo)就是讓自己的模型保持在 SOTA 水準(zhǔn),在某個(gè)具體領(lǐng)域做到最強(qiáng)。
05投人的價(jià)值,K2 如何逆風(fēng)翻盤(pán)
Q:我想聊一下 Kimi K2。今年年初 DeepSeek 引發(fā)熱潮后,Kimi 內(nèi)部也有了一個(gè)比較明確的目標(biāo),就是要追求 SOTA。在這個(gè)目標(biāo)下,K2 應(yīng)該是他們做出方向調(diào)整后第一個(gè)比較重磅的成果。你對(duì)這個(gè)過(guò)程是怎么理解的?
戴雨森:我想先講個(gè)小故事。前幾天,暗涌在良渚組織了一個(gè)圓桌,把投資了 Kimi 和 MiniMax 的投資人都請(qǐng)到一塊。我還開(kāi)玩笑說(shuō),這像是一個(gè)「同情局」,仿佛我們投了大模型公司,很慘該被同情。但我覺(jué)得,其實(shí)真正體現(xiàn)一個(gè)團(tuán)隊(duì)能力的,是他們面對(duì)挑戰(zhàn)時(shí)的應(yīng)對(duì)方式,以及是否堅(jiān)持自己的路線(xiàn)去做有價(jià)值的創(chuàng)新。
順風(fēng)的時(shí)候有順風(fēng)的打法,逆風(fēng)的時(shí)候也有逆風(fēng)的打法。像 MiniMax,他們專(zhuān)注自己的方向,現(xiàn)在也在推進(jìn)上市流程。這就是他們面對(duì)挑戰(zhàn)的方式。當(dāng)然,也有一些公司在逆風(fēng)中內(nèi)部團(tuán)隊(duì)發(fā)生較大變化,甚至業(yè)務(wù)方向都有調(diào)整。但我覺(jué)得 Kimi 特別的一點(diǎn),是他們的團(tuán)隊(duì)非常穩(wěn)定。如果你看他們的創(chuàng)始團(tuán)隊(duì)或核心成員,幾乎沒(méi)有大的變動(dòng)。
Q:這其實(shí)就是我第一個(gè)好奇的點(diǎn)?,F(xiàn)在很多公司到了聯(lián)合創(chuàng)始人或核心業(yè)務(wù)負(fù)責(zé)人層面,都會(huì)有一些變化,但 Kimi 基本沒(méi)怎么變。
戴雨森:這可能跟他們的團(tuán)隊(duì)組成有關(guān)。Kimi 的創(chuàng)始團(tuán)隊(duì)一直是以植麟為核心,而且成員是清華的老同學(xué),之間合作很多,甚至是室友還一起玩過(guò)樂(lè)隊(duì)。并不是因?yàn)橐龃竽P凸静排R時(shí)組起來(lái)的。
Q:我查閱資料時(shí)發(fā)現(xiàn),當(dāng)年楊植麟去評(píng)特獎(jiǎng)的時(shí)候,有一張照片是他們系的一些同學(xué)舉著橫幅去支持他。幾位他們系的師弟師妹都會(huì)說(shuō),楊植麟在當(dāng)時(shí)就是一個(gè)讓大家覺(jué)得非常有號(hào)召力的人。
戴雨森:沒(méi)錯(cuò),這也是我們從一開(kāi)始就決定投資他們的重要原因之一。這個(gè)團(tuán)隊(duì)不僅有技術(shù),而是有很長(zhǎng)的共同信任。創(chuàng)業(yè)會(huì)經(jīng)歷很多挑戰(zhàn),如同壓力測(cè)試,在面對(duì)挑戰(zhàn)的時(shí)候,團(tuán)隊(duì)穩(wěn)定和方向聚焦會(huì)很重要。
Kimi 這個(gè)團(tuán)隊(duì)從一開(kāi)始就是以技術(shù)基因和技術(shù)視野作為核心能力的。很多人可能已經(jīng)忘了,在 2023 年的時(shí)候,AI 的變化太快,幾乎每個(gè)月都有新風(fēng)向。當(dāng)時(shí),Kimi 就對(duì)長(zhǎng)文本這個(gè)方向做出了很重要的判斷,選擇做了一個(gè)具備長(zhǎng)文本能力的模型,并基于這個(gè)推出了帶搜索能力的 Kimi 第一個(gè)版本。
那時(shí)大量的 AI chatbot 其實(shí)是沒(méi)有搜索功能的。沒(méi)有搜索,模型的用途就會(huì)受到很大限制,比如你隨便問(wèn)一個(gè)「現(xiàn)在的美國(guó)總統(tǒng)是誰(shuí)」,它都可能答不上來(lái)。
Kimi 團(tuán)隊(duì)當(dāng)時(shí)對(duì)長(zhǎng)文本技術(shù)方向的判斷就展現(xiàn)了他們非常強(qiáng)的技術(shù) vision。到了 2025 年,AI 更強(qiáng)調(diào) Agent 能力、復(fù)雜任務(wù)執(zhí)行、以及處理更大的代碼庫(kù),大家才真正意識(shí)到長(zhǎng)文本的重要性。如果你真的要讓 AI 做一個(gè) Agent,完成一個(gè)復(fù)雜任務(wù),它不能只是執(zhí)行 100 步就歇了?;仡^看,其實(shí)這也驗(yàn)證了植麟判斷上的準(zhǔn)確。
所以我覺(jué)得他們團(tuán)隊(duì)身上,有三個(gè)特別重要的品質(zhì):
第一是團(tuán)隊(duì)的穩(wěn)定性。這來(lái)自于成員之間長(zhǎng)期的淵源和信任。
第二是對(duì)技術(shù)方向的堅(jiān)持。他們不是看到哪個(gè)火就往哪兒跟風(fēng),比如陪伴火了去做陪伴,多模態(tài)火了又去做多模態(tài)。很多方向都可以做,但真正有積累的是那些持續(xù)做一件事的團(tuán)隊(duì)。
第三是他們一直保持的技術(shù)敏感度和洞察力。這個(gè)在技術(shù)變化的關(guān)鍵節(jié)點(diǎn)上尤其重要。
當(dāng)然 R1 的成功也確實(shí)給了行業(yè)很多啟發(fā),這一點(diǎn)毫無(wú)疑問(wèn)。當(dāng)時(shí)很多人看到 R1,有個(gè)流行說(shuō)法是:「pre-training 不重要,post-training 才重要?!沟艺J(rèn)為 R1 的基礎(chǔ)是 V3,這恰好說(shuō)明好的基礎(chǔ)模型很重要,pre-training 和整體架構(gòu)優(yōu)化可以帶來(lái)模型能力的提升。K2 現(xiàn)在還是個(gè) non-reasoning 的模型,已經(jīng)呈現(xiàn)出很好的能力,這也說(shuō)明 pre-training 依然很重要。
開(kāi)源也很重要?,F(xiàn)在全球 AI 社區(qū)正處于 Early Adopter(早期采用者)階段,通過(guò)開(kāi)源優(yōu)秀的模型和產(chǎn)品給社區(qū)提供價(jià)值的團(tuán)隊(duì),很容易得到熱心的回應(yīng)。我們?cè)?DeepSeek、K2,以及我們 sponsor 的 vLLM、ControlNET 等開(kāi)源項(xiàng)目中看到,只要不斷拿出好的產(chǎn)品,保持對(duì)用戶(hù)開(kāi)放交流的態(tài)度,世界各地的用戶(hù)都會(huì)欣賞、支持你,甚至主動(dòng)幫你改進(jìn)問(wèn)題。但只開(kāi)源不是本質(zhì),本質(zhì)是開(kāi)源好的東西,不是開(kāi)源就一定好,社區(qū)覺(jué)得好才是核心。
Q:說(shuō)到開(kāi)源,因?yàn)?K2 是 1 萬(wàn)億參數(shù),開(kāi)源社區(qū)里能真正部署的人很少。
戴雨森:K2 主要的場(chǎng)景不是在本地機(jī)器部署,事實(shí)上要在本地滿(mǎn)血跑 Deepseek R1 也不簡(jiǎn)單。開(kāi)源的核心不在于本地部署,而是讓大家對(duì)模型有更多自主把控。
Q:你能總結(jié)下他們?yōu)槭裁茨茏龀?K2 這種級(jí)別模型?現(xiàn)實(shí)過(guò)程中遇到了哪些挑戰(zhàn)?外部輿論把他們放在低谷,是否帶來(lái)很大壓力,比如人才流失?我指的不光是核心層,還有一線(xiàn)工程師。
戴雨森:這里肯定有人流失,但 Kimi 有兩點(diǎn)優(yōu)勢(shì):第一,核心層很穩(wěn)定;第二,很多年輕同事愿意留在 Kimi。
我覺(jué)得大家留下不只是因?yàn)殄X(qián),更因?yàn)槟軐W(xué)到東西,能干成自己覺(jué)得厲害的事。這符合 Kimi 核心團(tuán)隊(duì)的基因。
之前做投放時(shí)討論過(guò),他們做投放不是強(qiáng)項(xiàng),要做團(tuán)隊(duì)能力最強(qiáng)的方向。我覺(jué)得這很重要。面對(duì)外部市場(chǎng)壓力,首先不要亂,要聚焦自己最擅長(zhǎng)、最能做好、最有意義的事情。知乎上也有好幾位 Kimi 的研究員寫(xiě)了參與 K2 的很多感想。
06技術(shù)變化:推理、編程、工具使用
Q:在技術(shù)領(lǐng)域,你會(huì)比較關(guān)注哪些變化?
戴雨森:我們之前聊到過(guò),我認(rèn)為解鎖AI生產(chǎn)力的三大主線(xiàn)是 reasoning、coding 和 tool use。
在 reasoning 方面,我們看到了 o3、o4 mini 的發(fā)布,還有后來(lái)的 o3 pro。雖然這些模型在一些榜單上表現(xiàn)進(jìn)展不大,但我們自己的使用體驗(yàn)是,o3 相比 o1 是一個(gè)明顯的大臺(tái)階,o3 pro 在推理長(zhǎng)度和邏輯連貫性上也越來(lái)越好?,F(xiàn)在很多模型在 reasoning 的細(xì)節(jié)上都有進(jìn)步,比如細(xì)節(jié)的幻覺(jué)減少,推理結(jié)果更嚴(yán)謹(jǐn)。
同時(shí)我們還看到,一些小一點(diǎn)的模型也開(kāi)始具備很強(qiáng)的 reasoning 能力。像 GPQA 或 AIME 這些反應(yīng)模型 reasoning 能力的指標(biāo)都非常高。K2 在這方面也表現(xiàn)不錯(cuò)。
Q:我們之前和一些人交流,比如阿里云CTO周靖人,他并不覺(jué)得像 o 系列的更新是特別大的范式變化。他認(rèn)為這還是在大模型原有方法框架內(nèi)的自然延展。
戴雨森:這個(gè)我同意。如果這些模型還是 Transformer 架構(gòu),那它們就還是在現(xiàn)有范式內(nèi)演進(jìn)。大家現(xiàn)在都在期待下一個(gè) Transformer 是什么。
不過(guò)有時(shí)候,一個(gè)技術(shù)范式就可以走得很遠(yuǎn)。就像高速公路可以用幾十年,不一定非要每年都有顛覆式的架構(gòu)變化才叫創(chuàng)新,實(shí)際上,如果每年都有顛覆式的技術(shù)發(fā)生,那說(shuō)明這個(gè)行業(yè)還很不穩(wěn)定,反而不一定適合產(chǎn)業(yè)落地。今年我們?cè)诋a(chǎn)業(yè)上真正能用到的技術(shù),并不是從 0 到 1 的變化,更像是從 1 到 10,甚至從 5 到 8 的進(jìn)化。像 reasoning 的進(jìn)步,就是從很好變成非常好。
在 coding 上,Sonnet 3.5 已經(jīng)很不錯(cuò)了,但 context 長(zhǎng)度還不夠,自我糾錯(cuò)能力也一般。Sonnet 3.7 和 4 跑在 Claude Code 上效果非常好。對(duì)復(fù)雜代碼、長(zhǎng)代碼段,它們常常一步就能做對(duì)。這不是從 0 到 1,而是從 7 到 10 的質(zhì)量提升。
Q:在基礎(chǔ)模型的競(jìng)爭(zhēng)上,Google 最近的勢(shì)頭也很強(qiáng)。過(guò)去兩年OpenAI橫空出世時(shí),Google 給人感覺(jué)有點(diǎn)被打懵。但現(xiàn)在 Gemini 2.5 的口碑和實(shí)際使用反饋都很好。
戴雨森:確實(shí),Google 技術(shù)積累深厚,人才密度高,又非常有錢(qián),算力也很充沛。所以我們今年明顯感覺(jué)到 Google 的邊際變化是很大的。
模型層面,Google 的 Gemini 2.5 表現(xiàn)非常好。云服務(wù)層面,提供同樣的 Claude API 推理服務(wù)上,GCP 的表現(xiàn)其實(shí)更好,這背后也離不開(kāi) TPU 的支持。Google 的實(shí)力很強(qiáng),是現(xiàn)在模型領(lǐng)域前三名中非常有競(jìng)爭(zhēng)力的一家。
但他們現(xiàn)在也有一個(gè)現(xiàn)實(shí)問(wèn)題,就是 Google 的搜索主業(yè)正在承壓。因?yàn)閾?dān)心 AI 對(duì)搜索廣告帶來(lái)沖擊,所以它的股價(jià)一直在震蕩。我覺(jué)得這就是一個(gè)典型例子:老業(yè)務(wù)在受損,而新業(yè)務(wù)增長(zhǎng)又很快。這最終會(huì)怎么演化,我覺(jué)得可能還需要一兩年才能看清。
07應(yīng)用的生長(zhǎng),讓 AI 不止于問(wèn)答
Q:這也回到了你之前提到的一個(gè)主題:模型和上層應(yīng)用之間的關(guān)系,現(xiàn)在這個(gè)關(guān)系還在演變。
戴雨森:應(yīng)用的價(jià)值首先取決于模型本身,也就是模型廠商固化在權(quán)重里的那些基礎(chǔ)能力。模型的推理能力、編程能力越強(qiáng),應(yīng)用所能釋放的價(jià)值就越大。但權(quán)重一旦固定,內(nèi)容就是死的,而問(wèn)題是動(dòng)態(tài)的,所以需要引入 context,現(xiàn)在流行的 Context Engineering vs Prompt Engineering 也說(shuō)明了 prompt 模型并不夠,還需要更多更好的 context。
我認(rèn)為 context 可以分為三層:
第一層是通用信息,比如「今天的天氣怎么樣?」這類(lèi)模型本身是沒(méi)有的,需要通過(guò)搜索等方式動(dòng)態(tài)獲取。雖然現(xiàn)在也有模型能做簡(jiǎn)單的搜索工作,但這需要給模型配備合適的工具。
第二層是組織層面,比如公司內(nèi)部有哪些流程、文檔、已有的知識(shí)積累。這些信息模型本身也不知道,需要通過(guò)應(yīng)用層與模型協(xié)作,讓模型指導(dǎo)人去調(diào)用這些信息。比如一個(gè)人和 AI 的對(duì)話(huà)歷史、個(gè)人偏好、背景信息等,這些模型也不具備,必須由應(yīng)用層來(lái)提供。
所以 context 這一層是由應(yīng)用來(lái)提供的,它的質(zhì)量會(huì)對(duì) AI 應(yīng)用的表現(xiàn)帶來(lái)巨大差別。
AI 的目標(biāo)不只是成為一個(gè)問(wèn)答機(jī)器,最終它是要真正幫用戶(hù)完成事情。那在做事情的時(shí)候,它能調(diào)用哪些工具、影響什么結(jié)果,這些也是由應(yīng)用層公司提供的。比如產(chǎn)品提供了哪些公有或私有的 MCP 工具,或者最終 AI 能把它的輸出結(jié)果部署在什么環(huán)境上。
模型其實(shí)只是最底層的那一塊。但因?yàn)?ChatGPT 剛出來(lái)的時(shí)候,我們的大多數(shù)使用場(chǎng)景都是在「問(wèn)」模型,所以只能提取它通過(guò)壓縮已有知識(shí)所獲得的回答。比如問(wèn)一個(gè)事實(shí)類(lèi)的問(wèn)題,這種情況下確實(shí)主要靠模型本身。但當(dāng)任務(wù)更復(fù)雜、模型的智力需要與 context、甚至 environment 配合才能發(fā)揮作用時(shí),那就是「殼」的價(jià)值了。
Q:所以你覺(jué)得這是一個(gè)很自然的演化路徑?也沒(méi)必要非得強(qiáng)化「我們就是做模型」這件事?
戴雨森:對(duì),模型肯定很重要,但只靠模型本身可能不足以真正釋放出全部的價(jià)值。
Q:一年前大家怎么看 Google?一個(gè)失意者?
戴雨森:大家那時(shí)候肯定覺(jué)得 Google 有點(diǎn)落后,被 OpenAI 搶了風(fēng)頭,很多人才也選擇出走。但后來(lái) Google 的聯(lián)合創(chuàng)始人 Sergey Brin 回歸公司之后,很多事情發(fā)生了變化。比如有傳聞?wù)f Google 收購(gòu)的 Character.ai 創(chuàng)始人 Noam Shazeer 回去后親自改了一個(gè) bug,直接讓模型性能大幅提升。真假不確定,但關(guān)鍵人才確實(shí)能解決問(wèn)題。
Q:所以 Google 能快速追趕,可能不僅是技術(shù),也有組織方式、投入強(qiáng)度的變化?
戴雨森:對(duì),他們對(duì)這件事是非常重視。我聽(tīng)說(shuō) Gemini 團(tuán)隊(duì)加班也很厲害,原本大家覺(jué)得 Google 是養(yǎng)老公司,但現(xiàn)在他們也很拼。
Q:模型競(jìng)爭(zhēng)其實(shí)激活了很多聰明人,追求的成就感也回來(lái)了。
戴雨森:我覺(jué)得是的。這幾家公司的創(chuàng)始人都非常重視 AI,現(xiàn)在已經(jīng)不是「AI 會(huì)不會(huì)落地」的問(wèn)題了,而是必須贏。
不管是 Zuckerberg、Sergey Brin,還是 OpenAI 和 Anthropic 的團(tuán)隊(duì),他們都看到 AGI 已經(jīng)迫在眉睫,意識(shí)到這件事的重要性,愿意花錢(qián)、愿意投入資源。
最近 Y Combinator 的創(chuàng)業(yè)營(yíng)也提到,現(xiàn)在做任何公司,都應(yīng)該以「AGI 兩年內(nèi)實(shí)現(xiàn)」為前提假設(shè)。你要思考:假設(shè) AGI 兩年內(nèi)實(shí)現(xiàn),那你的公司該怎么做?
當(dāng)然 AGI 到底是什么還有很多爭(zhēng)議,但毫無(wú)疑問(wèn)巨大的變化正在發(fā)生,而且是快速發(fā)生?,F(xiàn)在硅谷學(xué)計(jì)算機(jī)的學(xué)生找工作都變難了,因?yàn)槌跫?jí)程序員的工作已經(jīng)被 AI 替代了很多,很多變化是實(shí)實(shí)在在發(fā)生的。
Q:我們回到你說(shuō)的三條主線(xiàn)。我們講了推理和編程,現(xiàn)在講工具使用。最近像 Kimi K2 和 Grok 都在訓(xùn)練階段就加入了使用工具的能力。這是新趨勢(shì)嗎?
戴雨森:現(xiàn)在 AI 使用工具主要有兩條路線(xiàn):
1. 像 MCP 這樣,走 API 接口方式;
2.通過(guò)視覺(jué)模擬 AI 操作已有軟件。
這兩種方式都有人在做,現(xiàn)在像 MCP 這樣的生態(tài)已經(jīng)建立起來(lái)了,越來(lái)越多為 AI 搭建的工具變得可用。又比如 Manus 和 OpenAI 的 Operator 用的是沙盒虛擬機(jī)里面的瀏覽器、通過(guò)視覺(jué)操作瀏覽器等已有的軟件,模擬人類(lèi)的使用過(guò)程,目的是讓 AI 更好地調(diào)用已有軟件的功能。
能夠使用人類(lèi)的工具完成任務(wù),我覺(jué)得這是讓AI真正變有用非常重要的一件事。
08Agent 讓每個(gè)人學(xué)會(huì)當(dāng)好老板
Q:其實(shí)在 OpenAI 最開(kāi)始規(guī)劃的五個(gè)階段里面,第三個(gè)階段就是推理之后的 Agent。
戴雨森:對(duì),之前張祥雨有個(gè)播客講得特別好,我很認(rèn)同他的分析。第一個(gè)階段是 chatbot,對(duì)應(yīng) ChatGPT;第二個(gè)階段是 reasoning,對(duì)應(yīng) o 系列模型;第三階段的 Agent 對(duì)應(yīng)的是 Agent-native 模型,但目前好像還沒(méi)有真正出現(xiàn)。
在 Agent 的定義中,目標(biāo)是AI自己去尋找的,但目前目標(biāo)仍由人給定。Agent 是說(shuō),我給你一個(gè)目標(biāo)后,它去預(yù)測(cè)使用工具的序列,選擇什么工具完成任務(wù)。它可能還沒(méi)做到像給員工完成任務(wù)那樣,自己拆分任務(wù)和定義目標(biāo)。
現(xiàn)在 AI Agent 這一類(lèi)產(chǎn)品還處于非常早期階段。比如 Manus 才剛推出幾個(gè)月,但我覺(jué)得一年甚至半年后,隨著模型能力提升,這類(lèi)產(chǎn)品的能力會(huì)大幅增強(qiáng)。
我想說(shuō)的是,不同公司因?yàn)橘Y源稟賦不同,解決 Agent 這個(gè)問(wèn)題的方式也會(huì)有差異。我們盡量不做預(yù)判,不認(rèn)為我們能夠預(yù)先知曉未來(lái)。比如 Kimi 的看法是 Model as Agent,通過(guò)模型訓(xùn)練中加入大量端到端的工具使用數(shù)據(jù),讓模型本身具備強(qiáng)大的工具調(diào)用能力。而同樣是調(diào)用閉源模型 API 的產(chǎn)品。Manus 提出了「less structure, more intelligence」,但有時(shí)結(jié)構(gòu)化也能提升工作效率。Genspark 就專(zhuān)門(mén)做了針對(duì) PPT 場(chǎng)景的 slide 生成功能,引入了一系列優(yōu)化工作效果的方法。
Q:這兩種角度都對(duì)。對(duì)用戶(hù)來(lái)說(shuō),有些場(chǎng)景有大致流程,結(jié)果更可控,成本也會(huì)更低。
戴雨森:因?yàn)橛脩?hù)要的是最后的結(jié)果,而不同的公司想實(shí)現(xiàn)這個(gè)結(jié)果,可能有各種不同的路徑。有的靈活但成本高,有的固定但成本低。所以大家解同一道題,用不同方法都合理。
Q:你說(shuō)的最大趨勢(shì)無(wú)疑還是 Agent?
戴雨森:是 AI 對(duì)生產(chǎn)力的提升,想讓 AI 把生產(chǎn)力真的提高,就得讓 AI 承擔(dān)更多工作。像 Claude Code、Manus 等 Agent 產(chǎn)品,核心理念是人不做事,AI 做事。
有人說(shuō)這是類(lèi)似自動(dòng)駕駛 L3級(jí)別的產(chǎn)品,人不動(dòng)方向盤(pán),車(chē)自動(dòng)駕駛。我們發(fā)現(xiàn)寫(xiě)代碼的工程師一開(kāi)始喜歡 Cursor,因?yàn)樗€是讓你在熟悉的 IDE 里面寫(xiě)代碼,但Manus 發(fā)現(xiàn)產(chǎn)品經(jīng)理用 Cursor 去完成任務(wù)不怎么看代碼,只是看右邊的對(duì)話(huà)框,所以他們把對(duì)話(huà)框放到主要的位置,做出了一個(gè)更加適合非程序員人群使用的 Agent。
隨著模型能力的進(jìn)步,Claude Code 更極致,用戶(hù)不能寫(xiě)代碼,只能告訴 AI 你要做什么,其他的 AI 去完成。所以 L3 或 Agent 意味著 AI 去作為執(zhí)行主角,而用戶(hù)要學(xué)會(huì)當(dāng) AI 的好老板。
Q:這對(duì)很多人來(lái)說(shuō)挺難,是門(mén)檻。AI做事不滿(mǎn)意,你讓它做幾次都不行。
戴雨森:以前我創(chuàng)業(yè)時(shí)也這么想,所有事我都親自做。后來(lái)發(fā)現(xiàn)這不是好管理方式,我應(yīng)該賦能下屬,讓他們知道我要什么,讓他們有主觀能動(dòng)性。
以后人類(lèi)指揮 AI 可能也是這樣,這可能是人類(lèi)歷史上第一次要培養(yǎng)一個(gè)工具。以前培養(yǎng)人很難,大部分人是被培養(yǎng)的,很少有人有能力或機(jī)會(huì)去培養(yǎng)一個(gè)下屬。但現(xiàn)在每個(gè)人可能都要學(xué)會(huì)如何給 AI 下命令,如何培養(yǎng) AI 去更好完成工作。
Q:你提到 Manus、Genspark 這類(lèi)通用 Agent 的用戶(hù)群都比較廣泛。你們?cè)趺从^察垂直場(chǎng)景里的 Agent?
戴雨森:通用是因?yàn)楫?dāng)前模型能力偏通用,但肯定會(huì)逐漸涌現(xiàn)某些垂直場(chǎng)景。
我覺(jué)得一個(gè)好的產(chǎn)品,最后肯定還是要有清晰的定位,要在某些領(lǐng)域做到絕對(duì)的第一名,才能擁有長(zhǎng)期價(jià)值。或者說(shuō)我們目標(biāo)不是追求通用,而是從通用開(kāi)始,逐漸發(fā)展收斂到一些核心場(chǎng)景。
技術(shù)革命的早期發(fā)展階段,往往大家都在嘗試,也不知道新技術(shù)適合做什么,最后看什么效果最好。例如蒸汽機(jī)剛被發(fā)明時(shí),最開(kāi)始是用于抽煤礦的水,后來(lái)發(fā)現(xiàn)用來(lái)驅(qū)動(dòng)火車(chē)和紡織機(jī)更好。蒸汽機(jī)也是一個(gè)「通用技術(shù)」,但最后最大的價(jià)值可能來(lái)自幾個(gè)具體場(chǎng)景。
我覺(jué)得現(xiàn)在 coding、做 PPT 這類(lèi)的 office work、deep research 三者毋庸置疑是已經(jīng)涌現(xiàn)出來(lái)的重要方向。
Q:有個(gè)話(huà)題挺有意思。國(guó)內(nèi)大家討論通用產(chǎn)品,覺(jué)得這是大公司的必爭(zhēng)之地。但跟國(guó)外投資人聊,他們反而對(duì) Super App 的可能性更感興趣,關(guān)心怎么打敗OpenAI和 Google。
戴雨森:如果你有機(jī)會(huì)挑戰(zhàn)大公司,那是好事,至少有資格參與奧運(yùn)會(huì),比不參與強(qiáng)。
很有意思的一件事是,Manus 出現(xiàn)后,有很多人說(shuō)它沒(méi)壁壘,用開(kāi)源框架一個(gè)周末就能搞出來(lái)。但現(xiàn)在過(guò)了這么多個(gè)周末,還沒(méi)看到任何一個(gè)類(lèi)似的應(yīng)用能真正做好的。
我覺(jué)得在全球市場(chǎng),大家對(duì)真正的創(chuàng)新還是尊重的,不會(huì)直接復(fù)制完全一模一樣的產(chǎn)品??赡軙?huì)借鑒交互或呈現(xiàn)思路,比如 AI 在干活的表現(xiàn)形式,但不會(huì)直接像素級(jí)復(fù)制。在全球化競(jìng)爭(zhēng)里,先發(fā)優(yōu)勢(shì)會(huì)帶來(lái)很多口碑和傳播優(yōu)勢(shì),這也是對(duì)創(chuàng)新者的獎(jiǎng)勵(lì)。
09每月 1000 美金的 AI 產(chǎn)品訂閱
Q:你算過(guò)現(xiàn)在一個(gè)月在AI產(chǎn)品訂閱上花多少錢(qián)嗎?
戴雨森:大概接近 1000 美金。Manus 是 200 美金,Genspark 是 200 美金,ChatGPT、Gemini、Grok 這些也都差不多各 200 美金。我買(mǎi)的基本上都是高級(jí)方案。
我一直有個(gè)理念,新產(chǎn)品就要多試試,很多時(shí)候花點(diǎn)錢(qián)試一試并不過(guò)分。很多AI產(chǎn)品的革命之處不能只看報(bào)道,得親身去用。當(dāng)你能看到一個(gè)未來(lái)的時(shí)候,你會(huì)產(chǎn)生很多的靈感。
我們?nèi)路菥陀^察到,Manus 上線(xiàn)后推理用量暴漲,Agent 產(chǎn)品的 token 用量相比 Chatbot 是顯著增長(zhǎng)。當(dāng)時(shí)二級(jí)市場(chǎng)很多人還在質(zhì)疑英偉達(dá),覺(jué)得哪怕全世界所有人都用 chatbot,推理需求也根本沒(méi)那么大,用不了那么多算力。
但其實(shí)這就像撥號(hào)上網(wǎng)時(shí)代,一開(kāi)始所有人都在聊 QQ,不需要那么多帶寬。但有了寬帶網(wǎng)之后,大家就要在線(xiàn)上看 4K 視頻了。模型能力越強(qiáng),可以解鎖的場(chǎng)景越多,token 使用就越多。
Q:2023 年,黃仁勛在英偉達(dá)內(nèi)部講話(huà)中說(shuō),他們的市值目標(biāo)是 2 萬(wàn)億美元。當(dāng)時(shí)英偉達(dá)剛剛突破 1 萬(wàn)億。我們還在討論他這口氣是不是太大。結(jié)果今年已經(jīng)突破 4 萬(wàn)億了。
戴雨森:他很快可能會(huì)到 5 萬(wàn)億。因?yàn)?token 向生產(chǎn)力的轉(zhuǎn)化趨勢(shì)才剛剛開(kāi)始。
這就像火車(chē)開(kāi)動(dòng)了,就不會(huì)突然又停下來(lái)了。我們現(xiàn)在還在不斷發(fā)現(xiàn) AI 新的使用場(chǎng)景。比如說(shuō)一個(gè)工程師原來(lái)一天可以寫(xiě) 100 行代碼,現(xiàn)在有了 Cursor、Claude Code,可能寫(xiě)的代碼是原來(lái)的 10x,能解決更多以前沒(méi)想過(guò)要解決的問(wèn)題。又比如有了 ChatGPT 和 Manus,你會(huì)問(wèn)的問(wèn)題也會(huì)變多。
很多以前不知道該問(wèn)誰(shuí)的問(wèn)題,現(xiàn)在可以用AI來(lái)解決。給用戶(hù)帶來(lái)的生產(chǎn)力提升,導(dǎo)致用戶(hù)更愿意付費(fèi)。
Q:目前生產(chǎn)力場(chǎng)景的 token 消耗是非常高的?
戴雨森:生產(chǎn)力可以以 10 倍,100 倍的速度增長(zhǎng)。和 AI 閑聊再怎么聊,一天就那么多時(shí)間,這是我們以前講的 attention is all you need。如果你要的是用戶(hù)注意力,它是有限的,并且是和抖音,Tiktok、小紅書(shū)一起去爭(zhēng)奪的注意力。
但在生產(chǎn)力場(chǎng)景,用戶(hù)需求的上限很高,可以從問(wèn)一個(gè)問(wèn)題變成問(wèn) 100 個(gè)問(wèn)題,需要的算力可以漲 100 倍。
Q:而且單位時(shí)間內(nèi) token 消耗的復(fù)雜度也在迅速提升,比如我要消費(fèi)的內(nèi)容、視覺(jué)信息可能也變得更復(fù)雜。
戴雨森:在未來(lái)你可以問(wèn) AI 之前沒(méi)想到的非常復(fù)雜的問(wèn)題,我給你舉個(gè)很簡(jiǎn)單的例子。比如美股二級(jí)市場(chǎng)的朋友,在財(cái)報(bào)季時(shí)一天可能要關(guān)注五六家公司發(fā)業(yè)績(jī)。凌晨四點(diǎn)起床看財(cái)報(bào)數(shù)據(jù)、代入模型做對(duì)比、聽(tīng)電話(huà)會(huì)議、分析 CEO 的展望,都是他們的日常。
原來(lái)他們不可能同時(shí)聽(tīng)多個(gè)財(cái)報(bào)會(huì),只能靠招更多人或挑重點(diǎn)去選擇。但現(xiàn)在有了 AI,雖然目前還不能完全跑通全流程,但 6-12 個(gè)月內(nèi)就有可能讓一個(gè)分析師同時(shí)覆蓋 50 家股票的財(cái)報(bào)。
AI 可以幫他們看財(cái)報(bào)、聽(tīng)電話(huà)會(huì)議記筆記、回答事前準(zhǔn)備好的問(wèn)題、總結(jié) CEO 回答、寫(xiě)報(bào)告。這些原來(lái)因?yàn)椤缸霾坏健共艣](méi)放到你的工作時(shí)間表里的事情現(xiàn)在 AI 能完成了,需求就自然增長(zhǎng)了。
就像飛機(jī)出現(xiàn)之前,沒(méi)有人會(huì)說(shuō)「我今天要飛美國(guó)出差」。但飛機(jī)一旦存在,新的需求就出現(xiàn)了。AI 也一樣,它讓你開(kāi)始做那些你原本不會(huì)想做的事。
Q:時(shí)間是有限的。但單位時(shí)間內(nèi)娛樂(lè)內(nèi)容的復(fù)雜度、感官刺激可能會(huì)大幅提升,這也是以前難以想象的。
戴雨森:對(duì),確實(shí)難以想象。但我想說(shuō)的是,生產(chǎn)力的價(jià)值是直接可衡量的。比如 AI 幫我賺 100 塊錢(qián),我為它付 1 塊或者10 塊。
而且我們觀察到一個(gè)很有意思的現(xiàn)象:當(dāng)AI按 token 用量計(jì)費(fèi)后,很多人是希望用得更多的。因?yàn)樗_實(shí)在幫你完成工作,比如幫你寫(xiě)了更多代碼。
這本來(lái)就是你自己要做、要花時(shí)間花錢(qián)雇人做的事,現(xiàn)在 AI 幫你完成了,它就有價(jià)值。
10硅谷 Acqui-hire 搶人大戰(zhàn)
Q:關(guān)于最近這場(chǎng)「搶人大戰(zhàn)」你有沒(méi)有什么看法?
戴雨森:確實(shí)最近有很多人被挖走,也有人接到電話(huà)但沒(méi)去。大量?jī)?yōu)秀人才被 disruptive(顛覆性)級(jí)別的薪資挖走。
這種挖角不管是對(duì)被挖團(tuán)隊(duì),還是 Meta 自己原有的團(tuán)隊(duì),都是非常大的沖擊。在硅谷幾乎所有頂尖公司都在發(fā)生類(lèi)似動(dòng)蕩。被挖的人所在團(tuán)隊(duì)軍心難免動(dòng)搖,留下的人也開(kāi)始質(zhì)疑:是不是自己也該漲薪?
這種高薪挖人當(dāng)然是人才價(jià)值的體現(xiàn),但越是頂級(jí)人才,也越需要時(shí)間和環(huán)境來(lái)磨合,才能真正形成合力。歷史上失敗的例子也很多,所以對(duì)于這些組織來(lái)說(shuō),這既是機(jī)會(huì),也是一場(chǎng)挑戰(zhàn)。
Q:你覺(jué)得搶人競(jìng)爭(zhēng)算良心嗎?
戴雨森:我覺(jué)得這也是體現(xiàn)了創(chuàng)始人的精神,就是他愿意不惜代價(jià)去爭(zhēng)取人才。如果花錢(qián)能解決的事,我就花錢(qián)辦。這反映了人才確實(shí)很重要。
Q:壓力主要是在硅谷嗎?不過(guò)從另一面看,這也給創(chuàng)業(yè)公司提供了不錯(cuò)的退出機(jī)會(huì)。
戴雨森:但是這種退出可能不夠大。有的人覺(jué)得公司賣(mài)個(gè)幾億美元就挺好,有人則想做千億美元公司。創(chuàng)業(yè)公司也需要更多彈藥去和 Meta 這樣的大廠競(jìng)爭(zhēng)。比如說(shuō) Cursor 之前融了很多錢(qián),我們一度還覺(jué)得融這么多錢(qián)做什么,現(xiàn)在看到他們要面對(duì)的是更多錢(qián)補(bǔ)貼用戶(hù)用 token,招人也要更高成本,所以融資更多很合理?,F(xiàn)在競(jìng)爭(zhēng)無(wú)論是補(bǔ)貼還是人才都升級(jí)了。頂級(jí)人才也有很多選擇,對(duì)很多創(chuàng)業(yè)公司來(lái)說(shuō),加入戰(zhàn)局的門(mén)檻和水位都在提升。
Q:硅谷這種人才收購(gòu)(Acqui-hire)很流行,主要是為了繞過(guò)反壟斷限制,也反映了競(jìng)爭(zhēng)多激烈。
戴雨森:大家都想加快節(jié)奏,因?yàn)殄X(qián)太多了。幾家巨頭賬上都有大量現(xiàn)金,這些錢(qián)投下去,如果能用錢(qián)換時(shí)間和競(jìng)爭(zhēng)優(yōu)勢(shì),對(duì)他們來(lái)說(shuō)就是簡(jiǎn)單的事情。
11Benchmark 鈍化,突破智能的邊界
Q:最后這一部分,我想問(wèn)一些你的感受。從 GPT-3 到現(xiàn)在,已經(jīng)有兩年半時(shí)間了。你目前對(duì)什么事情還是特別好奇?
戴雨森:我好奇始終還有很多。首先是如何衡量智能的邊界。
你想,ChatGPT 剛出來(lái)的時(shí)候,人類(lèi)還能指出它的回答問(wèn)題所在。但現(xiàn)在無(wú)論是它研究的內(nèi)容還是文筆本身,普通人類(lèi)越來(lái)越難發(fā)現(xiàn)它的缺陷了。當(dāng)人類(lèi)智能被逐漸接近的時(shí)候,你怎么衡量一個(gè)或許比你更聰明、更深度思考、記憶力更強(qiáng)的存在?
關(guān)于如何衡量智能,我的好朋友姚順雨在他寫(xiě)的文章《下半場(chǎng)》中提到,未來(lái) AI 的 benchmark 會(huì)越來(lái)越重要。現(xiàn)在的 benchmark 已經(jīng)鈍化,不能準(zhǔn)確區(qū)分模型差異。比如說(shuō)一個(gè) benchmark 得 85 分或 90 分真的能反映模型的區(qū)別嗎?Kimi 的經(jīng)驗(yàn)也說(shuō)明,內(nèi)部制定好的 benchmark 很重要。模型訓(xùn)練關(guān)鍵是如何衡量結(jié)果,而內(nèi)部 benchmark 的水平質(zhì)量往往決定了模型的質(zhì)量。
所以我覺(jué)得如何衡量智能、如何探索智能邊界依然非常重要?,F(xiàn)在我們還能勉強(qiáng)說(shuō)用一用模型,能「Vibe Testing」感受到模型的能力好壞,但再過(guò)幾年,前五名的模型可能都比你聰明的時(shí)候,你怎么去評(píng)估誰(shuí)更好?
Q:所以怎么去衡量智能的邊界?
戴雨森:第二個(gè)我想說(shuō)的是,我一直反復(fù)思考生產(chǎn)力這個(gè)邏輯。每個(gè)人擁有大量生產(chǎn)力之后,對(duì)于個(gè)人、組織、乃至世界的影響是什么?
對(duì)個(gè)人來(lái)說(shuō),超級(jí)個(gè)體一個(gè)人能做的事情越來(lái)越多:從做小貓補(bǔ)光燈這樣的小 app,到開(kāi)發(fā)游戲,甚至到實(shí)現(xiàn) Sam Altman 預(yù)言的「一人獨(dú)角獸公司」。當(dāng)年 Instagram 被收購(gòu)時(shí)只有 13 個(gè)人,在 AI 時(shí)代,13 個(gè)人到 3 個(gè)人是完全有可能的。
這意味著人和人之間差距會(huì)變得很大。當(dāng)每個(gè)人都擁有無(wú)限聰明的助手,以及像 Manus 這種可以日夜無(wú)休幫你打工的「賽博牛馬」時(shí),有人能很好地利用它創(chuàng)造巨大價(jià)值,有人可能沒(méi)有產(chǎn)生那么大價(jià)值,所以成長(zhǎng)速度差異會(huì)進(jìn)一步拉大。
對(duì)組織來(lái)說(shuō),小組織可以變得很強(qiáng)大,而大組織則能通過(guò)先進(jìn)技術(shù)管理更大、更復(fù)雜的業(yè)務(wù)。比如美團(tuán)管理幾百萬(wàn)騎手,業(yè)務(wù)非常復(fù)雜,如果沒(méi)有先進(jìn)互聯(lián)網(wǎng)通信和管理技術(shù),根本無(wú)法實(shí)現(xiàn)。加入 AI 后,大公司的管理人數(shù)、業(yè)務(wù)復(fù)雜度和深度都會(huì)再升一個(gè)臺(tái)階。
世界是由各種組織驅(qū)動(dòng)的,組織能力邊界的提升對(duì)世界影響巨大。進(jìn)一步來(lái)說(shuō),當(dāng)整體生產(chǎn)力大幅提升,而人與人、組織與組織之間差距變大時(shí),如何在效率和公平間尋求平衡?AI 最初是最聰明的人制作工具給頭部用戶(hù)用,但這些精英產(chǎn)生的價(jià)值如何反哺普通大眾?即便一個(gè)普通人不是特別努力學(xué) AI,我們?nèi)绾巫?AI 產(chǎn)品越來(lái)越易用,讓普通人也能從中獲益?
Q:AI還會(huì)帶來(lái)隱私暴露和虛假信息泛濫,讓真實(shí)界限變得模糊。
戴雨森:對(duì),你很難區(qū)分什么是真實(shí)的文章。我現(xiàn)在還能讀出 DeepSeek 的味道,但一年后可能分辨不出,或者說(shuō),可能有很多 AI 寫(xiě)的文章我已經(jīng)分辨不出來(lái)了,我能分辨出來(lái)的只是那些還偽裝得不夠好的。大家都知道 AI 會(huì)引用虛假內(nèi)容,但關(guān)鍵什么是虛假呢?真假的界限也越來(lái)越模糊了。
我一直在想,人類(lèi)最大的限制是什么?我這邊覺(jué)得是大腦的功率,大腦功率大約 20 瓦,人類(lèi)智能的上限就是這么多。而 AI 可以很快接近甚至突破這個(gè)上限。智能越多,我們用它做什么,人與 AI 的角色分工如何,這些都是我們很快要面對(duì)和調(diào)整的問(wèn)題。
有時(shí)候我覺(jué)得有點(diǎn)可怕,因?yàn)榇蟮淖兓呀?jīng)到來(lái),只是大家還在逐漸感受到它。比如對(duì)程序員影響特別直接,普通初級(jí)程序員如果不用 AI,未來(lái)兩年后找到工作會(huì)非常困難。但一年的時(shí)間人是很難做出改變的。而更多的職業(yè)可能也會(huì)在很短的時(shí)間內(nèi)受到極大的沖擊。
12Talk is cheap,Show me the product
Q:你會(huì)對(duì)什么事感到疲倦?
戴雨森:我覺(jué)得第一個(gè)疲倦的是過(guò)度營(yíng)銷(xiāo)。過(guò)去幾年有一個(gè)趨勢(shì),就是很多產(chǎn)品在過(guò)度營(yíng)銷(xiāo),各種「震驚體」,但好的產(chǎn)品比如說(shuō) Manus,幾乎沒(méi)花錢(qián)營(yíng)銷(xiāo),但大家誤以為它花了很多錢(qián)。
之前 AI 的進(jìn)步主要是模型的進(jìn)步,普通用戶(hù)還無(wú)法在產(chǎn)品中體驗(yàn),因此研究員和媒體擁有很大的解釋權(quán)。但現(xiàn)在模型已經(jīng)開(kāi)始轉(zhuǎn)化成應(yīng)用了。那時(shí)候我在即刻發(fā)了一條說(shuō):「Talk is cheap, show me your product.」
現(xiàn)在很多 AI 模型的核心能力最終都要轉(zhuǎn)化成產(chǎn)品,用戶(hù)能真正用得起來(lái),AI 才有生命力。很多講故事、炒作的公司,不如專(zhuān)注做好產(chǎn)品。我們看到現(xiàn)在發(fā)展好的 AI 公司大多做到了這一點(diǎn),拿出真正對(duì)客戶(hù)有價(jià)值的產(chǎn)品。
Q:你今年內(nèi)想驗(yàn)證的是什么問(wèn)題?
戴雨森:一個(gè)是AIL3 級(jí)別的 Agent 應(yīng)用能不能快速達(dá)到完成實(shí)際工作的程度。比如 Manus 我們都在用,用戶(hù)也在付費(fèi),但有時(shí)一個(gè)任務(wù)只能完成七八十分,還需人補(bǔ)充到 100 分。Claude Code 相比之前的 coding agent,逐漸能做到一次完成,不用修改就能上線(xiàn)。
未來(lái)幾個(gè)月到年底,我相信 Agent 的能力還會(huì)有很大提升。到那時(shí),可能你給 AI 一條指令,它就能埋頭干完,甚至一次就干好了。
Q:我現(xiàn)在用AI感覺(jué)是得刻意多用它。因?yàn)榻o它比較復(fù)雜的任務(wù)時(shí),它完成得不完美。
戴雨森:這是普遍現(xiàn)象。好的 AI 產(chǎn)品一定是為未來(lái)的模型設(shè)計(jì)的。Cursor 上線(xiàn)兩三年了,但直到 Sonnet 3.5 出來(lái)的時(shí)候才開(kāi)始火,等 3.7 出來(lái)后才爆發(fā)增長(zhǎng)。
Manus 也是一樣,剛上線(xiàn)時(shí)很多任務(wù)其實(shí)也做得不好,但 6 個(gè)月、12 個(gè)月后,新一代模型會(huì)讓它表現(xiàn)更好。所以你要為未來(lái)設(shè)計(jì),而不是為當(dāng)下就能獲得的模型設(shè)計(jì)。
Q:這對(duì)普通用戶(hù)可能反直覺(jué),但我理解,這是快速發(fā)展階段。普及到主流用戶(hù)時(shí),大家仍追求開(kāi)箱即用。
戴雨森:其實(shí)也不一定,比如我們之前發(fā)的《》,Youtube 的聯(lián)合創(chuàng)始人 Steve 說(shuō),YouTube 出來(lái)時(shí)是為未來(lái)寬帶設(shè)計(jì)的。2005 年,那時(shí)候美國(guó)剛開(kāi)始普及寬帶,因此一開(kāi)始的體驗(yàn)并不是那么好。同樣短視頻平臺(tái)如抖音快手上線(xiàn)時(shí),也是為一兩年后的智能手機(jī)和 4G 普及設(shè)計(jì)的。AI也是這樣,你要永遠(yuǎn)提前走一步,喬布斯曾經(jīng)說(shuō)過(guò)「要去冰球?qū)?huì)前往的地方」。
Q:所以你想驗(yàn)證的是,到年底看產(chǎn)品能否高度自動(dòng)化完成任務(wù),不再需要人參與?
戴雨森:比如現(xiàn)在 Agent 完成任務(wù)的成功率可能是 20%,能不能到 70-80%?這會(huì)讓前沿用戶(hù)對(duì)工作的定義和 AI 使用方式發(fā)生巨大變化。
另外我好奇的是,隨著用戶(hù)使用 AI 產(chǎn)品的變多,記憶會(huì)帶來(lái)多大變化。AI 應(yīng)用長(zhǎng)期壁壘是什么?我覺(jué)得很重要的是記憶和個(gè)性化?,F(xiàn)在記憶個(gè)性化對(duì)結(jié)果影響有限,但長(zhǎng)期來(lái)看,我們希望它像員工或助手,隨著使用時(shí)長(zhǎng)增加,越來(lái)越了解你,變得不可替代。這是我們想看到的進(jìn)步。
Q:這個(gè)進(jìn)步不能光靠模型是嗎?記憶需要不斷互動(dòng),給AI個(gè)人層面上下文。
戴雨森:一方面是在線(xiàn)學(xué)習(xí)(online learning),模型在使用中學(xué)習(xí)。另一方面需要你給它更多數(shù)據(jù)、文件、上下文,應(yīng)用設(shè)計(jì)非常重要。模型和應(yīng)用要協(xié)同合作。
我覺(jué)得我們對(duì)未來(lái)創(chuàng)新要有更多期待和包容,對(duì)中國(guó)團(tuán)隊(duì)的創(chuàng)新和發(fā)展能力要更有信心和支持。
13創(chuàng)業(yè)新浪潮的新觀察
Q:你們現(xiàn)在特別關(guān)注的團(tuán)隊(duì)是什么類(lèi)型的人?還有哪些地方有新創(chuàng)始人在出現(xiàn)?
戴雨森:今年我們看到,想出來(lái)創(chuàng)業(yè)的人多了很多。一兩年前大家還在相信未來(lái)應(yīng)用會(huì)落地,而現(xiàn)在已經(jīng)看到有 Manus 這個(gè)例子。金玉在前,所以大家肯定會(huì)想,「那我也許也可以」,這一定是一個(gè)更多的過(guò)程。我們看到很多不管是研究員,還是大廠里的年輕人,都蠢蠢欲動(dòng)。
Q:你最近在看什么比較好玩的書(shū),或者有沒(méi)有作品想分享?
戴雨森:我想推薦《33 號(hào)遠(yuǎn)征隊(duì)》,一家法國(guó)創(chuàng)業(yè)公司開(kāi)發(fā)的游戲。故事設(shè)定在一個(gè)虛擬世界,有一個(gè)神「繪母」,每年在天邊的一個(gè)石頭上寫(xiě)下一個(gè)數(shù)字。這塊石頭叫 Monolith。
她從一百開(kāi)始倒計(jì)時(shí),每寫(xiě)一個(gè)數(shù)字,對(duì)應(yīng)年齡達(dá)到那個(gè)數(shù)字的人就會(huì)死去,全部消失。第一年是 100,第二年是 99,如此類(lèi)推,一波一波的人死去。于是人類(lèi)開(kāi)始反抗,每年組織剩余年齡差一歲的人組成遠(yuǎn)征隊(duì),想挑戰(zhàn)并打破這個(gè)魔咒,但一直沒(méi)有成功。今年繪母寫(xiě)下了 33,33 歲的人將在明年此刻死去,于是第 33 號(hào)遠(yuǎn)征隊(duì)出發(fā)了。
前幾天是 Manus 創(chuàng)始人肖弘的 33 歲生日,我就推薦他玩這個(gè)游戲。這個(gè)游戲講述了一個(gè)滿(mǎn) 33 歲的人如何出海挑戰(zhàn)天命的故事。游戲團(tuán)隊(duì)也是 33 個(gè)人,是一個(gè)創(chuàng)業(yè)公司開(kāi)發(fā)的。創(chuàng)始人曾在育碧(Ubisoft)工作,他在那里覺(jué)得無(wú)聊,于是出來(lái)做了這款游戲。
《黑神話(huà)·悟空》是中國(guó)的大 IP,結(jié)合中國(guó)的文化積淀和先進(jìn)技術(shù)制作的精品之作?!?3 號(hào)遠(yuǎn)征隊(duì)》也是一個(gè)法國(guó)浪漫主義設(shè)定,藝術(shù)與先進(jìn)技術(shù)結(jié)合帶來(lái)的優(yōu)秀作品。它的情節(jié)、畫(huà)面、音樂(lè)等都非常非常出色,是我今年非常喜歡玩的游戲之一,有望沖擊年度游戲。
轉(zhuǎn)載原創(chuàng)文章請(qǐng)?zhí)砑游⑿牛篺ounderparker
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.