夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

基模下半場(chǎng):開源、人才、模型評(píng)估,今天的關(guān)鍵問題到底是什么?

0
分享至

關(guān)于基模的討論又重新熱鬧起來了。

Kimi、Qwen、智譜的開源模型接力發(fā)布,Hugging Face 上中國模型基本壟斷了熱門榜。就在今天,階躍星辰的 Step-3 也開源了。

另外一方面,小扎瘋狂挖人重新做 Llama,最近的公開信又暗示說 Llama 5 可能不會(huì)開源。

開源模型的標(biāo)準(zhǔn)眼瞅著要變成中國模型,大模型的競(jìng)爭(zhēng)實(shí)質(zhì)上已經(jīng)變成了中美 AI 的比拼。

RL、CoT、Agentic、Coding……相比較這些技術(shù)或能力的討論,今天的大模型,可能更需要一個(gè)能夠更好評(píng)測(cè)它們能力的好的基準(zhǔn)測(cè)試。是的,

Interconnects 作者,Ai2 研究科學(xué)家 Nathan Lambert 最近采訪了 Meta AI 的前推理團(tuán)隊(duì)負(fù)責(zé)人 Ross Taylor ,他曾主導(dǎo) Llama 2 和 Llama 3 等模型的研發(fā)工作,就今天開源模型的現(xiàn)狀、模型訓(xùn)練團(tuán)隊(duì)的優(yōu)劣,以及模型評(píng)測(cè)的問題等,兩人進(jìn)行了一場(chǎng)深聊?;趯?duì)談,F(xiàn)ounder Park 進(jìn)行了編譯,整理了對(duì)談的精華內(nèi)容。

TLDR:

  • 一旦某種模式被驗(yàn)證可行,它的實(shí)現(xiàn)本質(zhì)上就成了一個(gè)工程問題,而中國最擅長處理工程問題。

  • 如果把模型視為基礎(chǔ)設(shè)施,中國的開源模型未來會(huì)成為發(fā)展中國家的模型標(biāo)準(zhǔn)。

  • 不同機(jī)構(gòu)間的人才差異并沒有那么大,聰明人最終總能想出辦法。好模型和壞模型的差異,往往反映的是資源和人才利用效率的問題。

  • 找到模型的正確方向,歸根結(jié)底是實(shí)驗(yàn)速度,以及擁有合適的基礎(chǔ)設(shè)施和足夠好的基礎(chǔ)模型,不僅僅只是人才。

  • 現(xiàn)在能做出好的評(píng)測(cè),可能比以往任何時(shí)候都有更大的影響力。好的評(píng)測(cè)可以帶來新的話語權(quán)。

  • 在「機(jī)器學(xué)習(xí)的下一個(gè)任務(wù)是什么」這個(gè)問題上,還有巨大的藍(lán)海,有人可以去定義它,而且定義這個(gè)并不需要龐大的算力集群。

  • RL 無法泛化到數(shù)學(xué)和代碼之外的說法被嚴(yán)重夸大了,從數(shù)學(xué)和代碼開始的原因是,因?yàn)樗鼈兒苋菀妆或?yàn)證。


超 10000 人的「AI 產(chǎn)品市集」社群!不錯(cuò)過每一款有價(jià)值的 AI 應(yīng)用。

邀請(qǐng)從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:

進(jìn)群后,你有機(jī)會(huì)得到:

  • 最新、最值得關(guān)注的 AI 新品資訊;

  • 不定期贈(zèng)送熱門新品的邀請(qǐng)碼、會(huì)員碼;

  • 最精準(zhǔn)的AI產(chǎn)品曝光渠道

01中國模型成為開源標(biāo)準(zhǔn),意味著什么?

Nathan Lambert兩周,中國的達(dá)模型動(dòng)作很頻繁,智譜的 GLM-4.5 到月之暗面的 Kimi 2,再到阿里的Qwen3,勢(shì)頭很猛,發(fā)展速度驚人。你認(rèn)為,對(duì)美國市場(chǎng)產(chǎn)生什么影響?未來半年,行業(yè)格局會(huì)怎么變?

Ross Taylor:難得一天沒刷 Twitter,早上你跟我說這些新模型 GLM-4.5 時(shí),我趕緊補(bǔ)了課。這大概能說明,在開源領(lǐng)域,哪怕一天不關(guān)注,都可能感覺像落后了兩個(gè)月——當(dāng)然這有點(diǎn)夸張。我覺得大趨勢(shì)就是快速變化的。

回顧一年前,Llama 2 模型還是相當(dāng)穩(wěn)固的行業(yè)「標(biāo)桿」。雖然之前中國的大模型有動(dòng)作,但遠(yuǎn)不如現(xiàn)在的鋪天蓋地。尤其中國的商業(yè)文化,一旦發(fā)現(xiàn)某個(gè)方向可行,就特別擅長集中資源追趕,所以我們才看到這個(gè)領(lǐng)域競(jìng)爭(zhēng)異常激烈。

從不同維度看,這個(gè)背景都很有意思。比如地緣政治維度,就像你之前提到的:如果開源標(biāo)準(zhǔn)變成了中國模型,會(huì)意味著什么?如果把這些模型視作基礎(chǔ)設(shè)施,而不只是驅(qū)動(dòng)產(chǎn)品的工具,那么中國若想成為整個(gè)「全球南方」*的標(biāo)準(zhǔn),似乎就占據(jù)了巨大優(yōu)勢(shì)。

注:全球南方,發(fā)展中國家和新興市場(chǎng)國家的集合體,通常包括非洲、拉丁美洲、亞洲和太平洋島嶼等地區(qū)的發(fā)展中國家。

Nathan Lambert為什么中國在訓(xùn)練語言模型上看起來這么順利?

Ross Taylor:我不想泛泛而談,畢竟很多中國新機(jī)構(gòu)在創(chuàng)新上做得不錯(cuò),比如這周的 GSPO (Qwen 3 的 RL 算法)就是個(gè)好例子。但總體感覺是,一旦某種模式被驗(yàn)證可行,它的實(shí)現(xiàn)本質(zhì)上就成了一個(gè)工程問題,而傳統(tǒng)上,中國的工程文化很適合在這種情況下取得成功。

另一個(gè)角度是,尤其在 DeepSeek 之后,政府很擅長識(shí)別成功方向并允許資源投入,特別是在公私合作方面。我今天早上就在 Twitter 看到一個(gè)討論:清華大學(xué)有了自己最先進(jìn)的語言模型,為什么麻省理工學(xué)院(MIT)沒有?

Nathan Lambert他們好像資源不足。

Ross Taylor:是啊。我覺得美國會(huì)意識(shí)到這一點(diǎn)。不過,智譜是從清華大學(xué)孵化的創(chuàng)業(yè)公司,所以這個(gè)類比可能不太恰當(dāng)。而且阿里巴巴顯然是大贏家,既有通義千問(Qwen),又投資了月之暗面,好像也投了智譜。

我更感興趣的是,他們?yōu)槭裁炊歼x擇開源?這比人才問題重要得多。美國當(dāng)然也有大學(xué)孵化的模型機(jī)構(gòu),但并非所有大學(xué)都這樣做,MIT 也許會(huì)做,但例子還是少數(shù)。不過我也同意,美國應(yīng)該為學(xué)術(shù)界部署更多算力,很多大學(xué)正在建設(shè)中,只是需要時(shí)間。這里面因素很復(fù)雜。

我覺得人們對(duì)事情的實(shí)際運(yùn)作方式有點(diǎn)信息不對(duì)稱,誰也不知道內(nèi)部到底發(fā)生了什么。另外,人們總把開源模型看作一個(gè)同質(zhì)化的類別,但其實(shí)它們的用例大不相同。比如我想發(fā)一篇關(guān)于推理的新論文,可能會(huì)用 Qwen 模型;但如果要做模型蒸餾,我就會(huì)用 DeepSeek 或者 Kimi。

這又回到了 OpenAI 的問題上。我確信他們會(huì)發(fā)布很棒的模型,但不太清楚它會(huì)如何融入現(xiàn)有的生態(tài)系統(tǒng)。它會(huì)成為人們做研究的基礎(chǔ)嗎?如果它是一個(gè)經(jīng)過后訓(xùn)練(post-trained)的模型,那大概率不會(huì)。

Nathan LambertOpenAI 最近的宣傳重點(diǎn)是安全,我懷疑新模型推遲發(fā)布與此有關(guān),這很符合他們的文化。如果真是因?yàn)榘踩珕栴},他們大概率不會(huì)發(fā)布基礎(chǔ)模型。所以我認(rèn)為,這次發(fā)布不會(huì)改變整個(gè)生態(tài)系統(tǒng),頂多算一個(gè)有趣的獨(dú)立發(fā)布。

Ross Taylor:是的??梢岳斫鉃椋麄冎皇窍胩釤挰F(xiàn)有基礎(chǔ)設(shè)施的精華,填補(bǔ)市場(chǎng)空白,而非公開自己的架構(gòu)選擇?;氐街暗膯栴},Nathan,你覺得 OpenAI 的開源模型在用例上更像 Kimi、DeepSeek,還是和 Qwen 一個(gè)級(jí)別?或者會(huì)是完全不同的東西,比如更小的端側(cè)模型?

Nathan Lambert:我預(yù)計(jì)它會(huì)更小。如果強(qiáng)化學(xué)習(xí)(RL)是 OpenAI 的強(qiáng)項(xiàng),那在開源社區(qū)發(fā)布 RL 模型的一大挑戰(zhàn)是,訓(xùn)練基礎(chǔ)設(shè)施必須和推理基礎(chǔ)設(shè)施相匹配。所以,除非他們?cè)谝粋€(gè)大家普遍能用的開源環(huán)境(比如 vLLM)里訓(xùn)練,否則不可能直接發(fā)布模型說「你們可以在自己的開源棧里做搜索和代碼執(zhí)行了」。我覺得工具使用天生會(huì)鞏固閉源模型的地位,因?yàn)樽尮ぞ吲c模型完美匹配能帶來巨大優(yōu)勢(shì)。

Ross Taylor:是的。我看到 Qwen 在函數(shù)調(diào)用等方面做得不錯(cuò);Kimi 的基準(zhǔn)測(cè)試中,在智能體(agentic)工具使用上表現(xiàn)還可以。另外,他們有個(gè)不錯(cuò)的訓(xùn)練創(chuàng)新,就是調(diào)用 MCP 服務(wù)器,這是一種很好的合成數(shù)據(jù)策略。但這也得看情況,畢竟我們看到的主要是頭條新聞里的評(píng)測(cè)數(shù)據(jù),這些不能全信。

Nathan Lambert我認(rèn)為 Claude 3 Opus 的發(fā)布,在某種程度上終結(jié)了追逐評(píng)測(cè)分?jǐn)?shù)的風(fēng)氣。單看紙面數(shù)據(jù),它的發(fā)布平平無奇,但給所有人的實(shí)際體驗(yàn)都非常扎實(shí)。

Ross Taylor:我?guī)讉€(gè)月前就在思考一個(gè)問題:一個(gè)模型發(fā)布后的影響力時(shí)間線是怎樣的?第一天,說實(shí)話,都是些基準(zhǔn)測(cè)試分?jǐn)?shù),比如「我在 MMLU Pro 上拿了多少分」。第二天,人們開始在 Twitter 上做各種奇怪的定制化評(píng)測(cè)。

Nathan Lambert比如關(guān)于鵜鶘、旋轉(zhuǎn)六邊形和球之類的測(cè)試。

Ross Taylor:到這個(gè)時(shí)候,你的信心會(huì)更足一些。因?yàn)槟銜?huì)想,除非模型公司特別聰明——我相信有些人確實(shí)聰明——否則不太可能針對(duì)第二天的這些基準(zhǔn)測(cè)試做優(yōu)化。這時(shí)你才會(huì)開始相信,這個(gè)模型可能真的具備泛化能力。然后要再過一到兩周,才能得出真正的結(jié)論:「我在多個(gè)實(shí)際場(chǎng)景中都用過了,它確實(shí)很棒?!?/p>

Nathan Lambert我有一個(gè)觀點(diǎn),你來反駁看看:相比 OpenAI、Google 和 Anthropic,中國的模型供應(yīng)商是否更側(cè)重于針對(duì)基準(zhǔn)測(cè)試進(jìn)行優(yōu)化?在我看來,這一點(diǎn)顯而易見。

Ross Taylor:是的,而且因?yàn)橐恍┯欣蛩?,這個(gè)問題還沒有完全暴露出來。試想,你是一位研究推理論文的學(xué)者,你自然會(huì)在數(shù)據(jù)可得的領(lǐng)域做研究,比如數(shù)學(xué)和代碼——而這些恰好是他們優(yōu)化過的領(lǐng)域。所以,即便有些研究反過來強(qiáng)化了 Qwen 的使用場(chǎng)景,也未必能測(cè)試出模型泛化能力的邊界。畢竟我們知道 Qwen 在數(shù)學(xué)和代碼上經(jīng)過了大量中間步驟的訓(xùn)練,可能并沒有在更有趣的邊緣場(chǎng)景中去測(cè)試它。

02頂尖人才很重要,但不是決定性因素

Nathan Lambert如何為訓(xùn)練語言模型設(shè)計(jì)高效的組織架構(gòu)和文化?之前聊過這個(gè),展開談?wù)?/strong>

Ross Taylor:在社交媒體上,你會(huì)看到一個(gè)普遍趨勢(shì),就是像 NFL 選秀一樣官宣某人被某機(jī)構(gòu)招募。其實(shí)研究人員在不同機(jī)構(gòu)間流動(dòng)很正常,不算新鮮事,很多被大肆宣傳的跳槽就是常規(guī)的人員流動(dòng)。

但我覺得,至少在 Twitter 上,大家普遍認(rèn)為許多語言模型項(xiàng)目的瓶頸是「技術(shù)問題」??筛鶕?jù)我的個(gè)人經(jīng)驗(yàn),并非如此。有很多方式可以論證這一點(diǎn),我想從一個(gè)基本點(diǎn)說起:機(jī)器學(xué)習(xí)是一門高度依賴經(jīng)驗(yàn)的科學(xué)。在這種背景下,「天才」或「天賦」到底意味著什么?

當(dāng)然,有些技能很有用,比如設(shè)計(jì)最小可行性實(shí)驗(yàn)、快速迭代以避免研究方向走入死胡同。但很多時(shí)候,這歸結(jié)于努力工作、良好的基礎(chǔ)設(shè)施和充足的資源。在這種情況下,大多數(shù)機(jī)構(gòu)即便在某些公開的失敗之前,也都擁有非常優(yōu)秀的人才。老實(shí)說,不同機(jī)構(gòu)間的人才差異并沒有那么大,聰明人最終總能想出辦法。

所以,好模型和壞模型的差異,往往反映的是將資源輸送給人才的效率問題。我認(rèn)為這是根本。你可能會(huì)反駁:「Ross,如果真是這樣,扎克伯格為什么要花那么多錢招人?」 我覺得這是另一個(gè)問題。

Nathan Lambert不,這正是問題的核心。你怎么看 Meta 大手筆招人的舉動(dòng)?

Ross Taylor:我對(duì)此有些矛盾。一方面,我覺得新團(tuán)隊(duì)很可能做出非常好的模型,他們都是聰明人。而且成立新機(jī)構(gòu)也是正確的做法,在領(lǐng)導(dǎo)層看來,可能就是:「我們已經(jīng)嘗試過很多次,態(tài)度非常認(rèn)真,也有資源,所以要下最大的賭注。」 我覺得這大體上是正確的,雖然開銷大,但還不算天文數(shù)字。

但另一方面,我確實(shí)為一些人感到惋惜。這并非特指 Meta,而是一種普遍現(xiàn)象。很多機(jī)構(gòu)沒有好的機(jī)制來識(shí)別內(nèi)部那些努力工作的優(yōu)秀現(xiàn)有人才,反而傾向于另起爐灶。我覺得這才是悲劇所在。所以我的想法很矛盾:既認(rèn)為他們會(huì)做出很棒的模型,從頭開始是正確的策略;又覺得那些為前幾代模型成長做出貢獻(xiàn)的人,有時(shí)在貢獻(xiàn)價(jià)值后,就被當(dāng)作消耗品,然后公司再轉(zhuǎn)向新的一批人才。這不止是 Meta 的問題,非常普遍。

Nathan Lambert你曾把模型實(shí)驗(yàn)室比作「絞肉機(jī)」,消耗人才。具體來說,研究員是被動(dòng)地分配任務(wù),還是有很大自由度在一線自主探索?

Ross Taylor:我覺得是這樣。不幸的是,很多成功科技公司的模式就是招募非常年輕、積極、聰明的員工,他們?cè)敢鉃楹甏蟮氖姑度氪罅繒r(shí)間——就像馬斯克最初經(jīng)營公司的方式。很多前沿實(shí)驗(yàn)室也是這種模式:有一群「士兵」,表面上像十年前對(duì)沖基金里的量化分析師,愿意為自認(rèn)為有影響力的事業(yè)投入難以置信的長時(shí)間工作;同時(shí)還有一種友好的競(jìng)爭(zhēng)文化,每個(gè)人都想成為最優(yōu)秀的那個(gè)。

Nathan Lambert我認(rèn)識(shí)不少OpenAI的人,他們的工作時(shí)間確實(shí)很長。

Ross Taylor:是的。而且決策通常由經(jīng)驗(yàn)更豐富,或者至少有過成功經(jīng)驗(yàn)的人來做。但在這種環(huán)境下,你需要「士兵」,因?yàn)楦?jìng)爭(zhēng)太激烈了。我覺得這很可惜。至少我現(xiàn)在創(chuàng)業(yè),就在思考:我們當(dāng)然需要努力工作,但有沒有替代方案?能不能投資于員工,而不是把他們當(dāng)成消耗品,用完就換一批?這正是我在摸索的答案。

Nathan Lambert:如今科技界很多人都變得有些憤世嫉俗,包括我自己。比如,我收到一個(gè)剛畢業(yè)本科生的求職郵件,寫得非常好,我覺得兩三年后這人肯定很厲害。我跟同事聊「該怎么留住這樣的人才」,他們卻說:「反正留不住,兩年后他就會(huì)去 OpenAI,我們什么好處也得不到?!?/p>

所以,在 Llama 4 的傳聞里,有人說他們?cè)谶M(jìn)行史上最「牛仔式」的瘋狂模型訓(xùn)練,比如中途修改預(yù)訓(xùn)練數(shù)據(jù)配比。這是否說明,高壓環(huán)境和晉升壓力導(dǎo)致了這些混亂?

Ross Taylor:有意思的是,從我聽到的情況來看,所有這些實(shí)驗(yàn)室內(nèi)部其實(shí)都很混亂,可能每周都在改變方向。這就是我們所處領(lǐng)域的本質(zhì)。但有些實(shí)驗(yàn)室確實(shí)很擅長在外部營造「一切盡在掌握」的形象,甚至宣稱內(nèi)部已經(jīng)有了 AGI 之類的。

事實(shí)是,到處都是一團(tuán)糟。關(guān)鍵在于,既然注定要亂,至少要做一個(gè)能正常運(yùn)轉(zhuǎn)、能產(chǎn)出好模型的「亂攤子」。在我看來,實(shí)驗(yàn)室文化傾向于過分看重原始天賦,尤其是在這門經(jīng)驗(yàn)科學(xué)里。如果你認(rèn)為經(jīng)驗(yàn)科學(xué)主要關(guān)乎「實(shí)驗(yàn)速度」,那你不僅會(huì)重視基礎(chǔ)設(shè)施,還會(huì)重視那些樂于協(xié)作、愿意幫助別人的人。在一個(gè)推崇個(gè)人能力的領(lǐng)域,這聽起來可能有點(diǎn)虛,但我真的覺得,在做邊際招聘決策時(shí),應(yīng)該考慮這個(gè)人能為現(xiàn)有團(tuán)隊(duì)帶來多少增值。這些因素其實(shí)被低估了,因?yàn)楝F(xiàn)在大家想的都是:找到最聰明的人,讓他們?nèi)ネ瓿赡切┛此聘呱畹娜蝿?wù)。所以我覺得在人才方面有新的玩法可以探索,但這很難。

Nathan Lambert這么說,如今的差異化,其實(shí)在于那些愿意投入更多高度專注的時(shí)間去「擰螺絲」的人。

Ross Taylor:這或許能引出另一個(gè)可能更具爭(zhēng)議的觀點(diǎn):即使是機(jī)器學(xué)習(xí)中那些看似更像新穎研究的領(lǐng)域,也可以看作是一種堅(jiān)持,而非靈感的迸發(fā)。比如去年這個(gè)時(shí)候,我們都在猜測(cè) o1 和 Strawberry 是什么,總讓人覺得是了不起的新東西。但實(shí)際上揭曉時(shí),它們基本就是我們兩年前就在做的事:強(qiáng)化學(xué)習(xí)和可驗(yàn)證的獎(jiǎng)勵(lì)機(jī)制。只不過他們可能用了很好的基礎(chǔ)模型,還做了足夠的消融實(shí)驗(yàn)來找到有效的組合。

我知道這是事后諸葛亮式的過度簡化,但關(guān)鍵是,他們必須通過大量工作才能找到那個(gè)「好食譜」。這歸根結(jié)底是實(shí)驗(yàn)速度,以及擁有合適的基礎(chǔ)設(shè)施和足夠好的基礎(chǔ)模型。在這樣的世界里,「天賦」是什么?是那個(gè)說「我們應(yīng)該讓模型思考得更多」的人,還是在一線做消融實(shí)驗(yàn)、找出哪個(gè)「食譜」有效的人?

Nathan Lambert既然這些機(jī)構(gòu)內(nèi)部如此混亂,這對(duì)技術(shù)進(jìn)步的上限意味著什么?如果內(nèi)部這么亂,我傾向于認(rèn)為上限還遠(yuǎn)未達(dá)到。

Ross Taylor:我覺得這很有趣。因?yàn)榧幢阍诮M織混亂的環(huán)境中,仍然會(huì)有一些東西「水漲船高」。近期的好例子就是像國際數(shù)學(xué)奧林匹克(IMO)那樣的金牌級(jí)成果。我記得好像是三個(gè)不同的實(shí)驗(yàn)室,用不同的方法,都跨過了那個(gè)門檻。如果把時(shí)間拉長,比如 20 年后回望現(xiàn)在,你會(huì)關(guān)注這些研究者用的具體方法嗎?還是只會(huì)說:「哦,他們只是達(dá)到了某個(gè)計(jì)算的臨界閾值,然后事情就開始起作用了?!?/p>

不幸的是,計(jì)算能力是驅(qū)動(dòng)這一切的巨大指數(shù)級(jí)因素。如果縮短時(shí)間的尺度,就會(huì)看到更多具體問題,比如當(dāng)前瓶頸在哪里。也許智能體模型的瓶頸在環(huán)境,也許推理能力提升的瓶頸在更長的上下文窗口。這些都是短期問題。但從根本上說,只要計(jì)算能力持續(xù)增長,我覺得趨勢(shì)就向好。所有這些組織上的混亂都只是短期噪音,會(huì)稍微拖慢進(jìn)程,但長遠(yuǎn)來看意義不大。


03更難的不是 RL,而是好的模型能力評(píng)測(cè)

Ross Taylor你認(rèn)為一年后,大家所關(guān)注的大語言模型關(guān)鍵基準(zhǔn)會(huì)是什么樣的?

Nathan Lambert:肯定會(huì)是和某種智能體(agentic)相關(guān)的。我認(rèn)為,單純靠擴(kuò)大模型規(guī)模已經(jīng)不是主要的發(fā)展路徑了,所有市場(chǎng)宣傳都在轉(zhuǎn)向「智能體」。部分原因是擴(kuò)大參數(shù)規(guī)模已經(jīng)不容易了。強(qiáng)化學(xué)習(xí)的規(guī)?;诎l(fā)生,但不會(huì)帶來巨大飛躍,因?yàn)槊織l強(qiáng)化學(xué)習(xí)的曲線都是對(duì)數(shù)圖,我們已經(jīng)實(shí)現(xiàn)了性能的第一個(gè)對(duì)數(shù)級(jí)增長。但智能體相關(guān)的應(yīng)用效果也很好。

我覺得這是個(gè)有趣的市場(chǎng)營銷問題,所有實(shí)驗(yàn)室都需要重新思考如何傳達(dá)模型的優(yōu)勢(shì)。Claude 3 Opus 發(fā)布時(shí)沒能成功傳達(dá)其優(yōu)勢(shì),但因?yàn)樗旧碜銐蚝?,所以沒關(guān)系。但現(xiàn)在所有人都需要改變這種敘事方式。

Ross Taylor:我同意你的看法。過去幾年我做 Papers with Code 平臺(tái)時(shí),非常注重評(píng)測(cè)(evals)。我覺得,現(xiàn)在能做出好的評(píng)測(cè),可能比以往任何時(shí)候都有更大的影響力。但在機(jī)器學(xué)習(xí)領(lǐng)域,這很奇怪,因?yàn)閭鹘y(tǒng)上做評(píng)測(cè)不是那么重要,研究人員寧愿去訓(xùn)練模型。但現(xiàn)在,定義指標(biāo)的能力,比如定義一種你希望看到的能力,像模型擅長交易股票或做科學(xué)研究等等,都會(huì)帶來巨大的杠桿效應(yīng)。哪怕僅僅是在在大學(xué)的研究中。他們可以說:「這就是我們智能體應(yīng)該努力實(shí)現(xiàn)的新北極星指標(biāo)」,并通過這種方式來掌控話語權(quán)。

Nathan Lambert:是的,我們發(fā)布了一個(gè)替代 IFEval 的評(píng)測(cè),叫 IFBench,目標(biāo)就是讓前沿實(shí)驗(yàn)室使用它。我給OpenAI的人發(fā)了消息,他們說:「哦,我們上周已經(jīng)用上了?!?/strong>

Ross Taylor是的,這影響力太大了。另一個(gè)有趣的點(diǎn)是,制作和使用好的評(píng)測(cè)的門檻會(huì)越來越高了。比如 OpenAI 的一些評(píng)測(cè),在某些基準(zhǔn)測(cè)試中,強(qiáng)化學(xué)習(xí)智能體需要有 GPU 才能做機(jī)器學(xué)習(xí)研究,還得啟動(dòng)大量服務(wù)器。那種只有兩個(gè) CSV 文件(一個(gè)訓(xùn)練集一個(gè)測(cè)試集)的舊時(shí)代已經(jīng)一去不復(fù)返了。

這還只是用戶端。在評(píng)測(cè)創(chuàng)建者那邊,隨著模型能力越來越強(qiáng),一個(gè)糟糕的評(píng)測(cè)只會(huì)導(dǎo)致模型出現(xiàn)極其嚴(yán)重的 「獎(jiǎng)勵(lì)投機(jī)」(reward hacking),什么也學(xué)不到。

Nathan Lambert你認(rèn)為后訓(xùn)練(post-training)階段的評(píng)測(cè),是不是最難做好的?

Ross Taylor:是的,而且你會(huì)看到越來越多聲稱效果不錯(cuò)的案例,但細(xì)看會(huì)發(fā)現(xiàn)是極其瘋狂的「獎(jiǎng)勵(lì)投機(jī)」(reward hacking)。最近有個(gè)梗是 KernelBench 評(píng)測(cè),數(shù)據(jù)中驚人的加速比,卻連硬件配置的基本信息都沒提供。這說明,即便對(duì)于這類任務(wù),做出好的評(píng)測(cè)也需要大量工作。問題不在于 KernelBench 本身,而在于發(fā)表論文卻不仔細(xì)看結(jié)果的人。所以我認(rèn)為,在「機(jī)器學(xué)習(xí)的下一個(gè)任務(wù)是什么」這個(gè)問題上,還有巨大的藍(lán)海,有人可以去定義它,而且定義這個(gè)并不需要龐大的算力集群。

Nathan Lambert關(guān)于模型推理方面,你對(duì)過去六個(gè)月里相關(guān)的學(xué)術(shù)研究有什么看法?有進(jìn)展嗎?

Ross Taylor我認(rèn)為模型推理的研究進(jìn)展甚微。字面意義上的「甚微」,但確實(shí)有一些。這個(gè)問題可以從不同方面展開。DeepSeek 出現(xiàn)后,開源領(lǐng)域至少有兩種主流技術(shù)方向:要么走蒸餾路線,做小模型;要么走強(qiáng)化學(xué)習(xí)(RL)的訓(xùn)練路線。從實(shí)踐工程角度來看,蒸餾相對(duì)小參數(shù)的模型遠(yuǎn)比做 RL 高效。但顯然,從學(xué)術(shù)角度看,大家更想做 RL。

這里的困難是個(gè)經(jīng)典問題:算力不夠時(shí),你不知道強(qiáng)加的結(jié)構(gòu)能否泛化。我擔(dān)心很多研究成果是在相對(duì)較低的算力預(yù)算下得出來的,這既包括決定RL方法學(xué)習(xí)效果的基礎(chǔ)模型,也包括訓(xùn)練步數(shù)。所以除非有巨大的性能提升,否則很難看出什么技術(shù)是真正重要的。

在我看來,最有用的東西反而相當(dāng)無聊。比如 DAPO 論文里說的,不應(yīng)該過濾過長的序列,不應(yīng)該有偏見。還有一些有趣的工作表明,即便在 GRPO 中一些簡單方法(比如裁剪)也可能有效。但即便如此,我們還是沒法確定哪種算法能泛化到智能體上。

Nathan Lambert最近新出來的 GSPO 算法,也就是「分組序列策略優(yōu)化」,你為什么更看好這個(gè)算法?

Ross Taylor:本質(zhì)上,在 GRPO 中,你為整個(gè)序列分配一個(gè)獎(jiǎng)勵(lì),也就是優(yōu)勢(shì)函數(shù)。但你有一個(gè)重要性權(quán)重,即新策略與舊策略的可能性比率。問題是,雖然獎(jiǎng)勵(lì)是統(tǒng)一應(yīng)用于序列中的每個(gè) token,但重要性權(quán)重是針對(duì)序列中每個(gè)單獨(dú)的 token 計(jì)算的。如果你只基于單個(gè)序列來計(jì)算,實(shí)際上會(huì)引入大量的方差。

GSPO 的做法是,不再看單個(gè) token 的可能性,而是看整個(gè)序列的可能性。所以現(xiàn)在,裁剪不再是基于單個(gè) token,而是看你組里的一個(gè)序列,然后說:「哦,這個(gè)序列的可能性較低,我們就忽略它?!箯乃麄冋故镜慕Y(jié)果來看,這似乎大大提高了樣本效率,提升不是幾個(gè)百分點(diǎn)那么簡單。我之所以更相信這個(gè)算法,是因?yàn)樗浅:唵?,而且從重要性采樣的基本原理來看,它的方向似乎是正確的。

Nathan Lambert我還是持懷疑態(tài)度。我覺得 GSPO 的序列概念挺有意思,但它真能算重大進(jìn)步嗎?不過,對(duì)初級(jí)研究者來說,這個(gè)時(shí)代的好處之一是,通過研究這些算法、思考實(shí)現(xiàn)方式,能真正學(xué)到數(shù)學(xué)知識(shí)。

Ross Taylor:是的,很有趣。在 ChatGPT 火起來之后,我看到越來越多人讀論文,總體是好事,但很多人讀論文的方式不對(duì)。對(duì)我來說,基本邏輯是:論文報(bào)告的增益有多大?引入了多少復(fù)雜性?如果增益不大但復(fù)雜性高,很可能經(jīng)不起時(shí)間考驗(yàn);如果相對(duì)簡單卻有不錯(cuò)的增益,才可能流傳下來。

Nathan Lambert這就是 o1 帶來的教訓(xùn):簡單的東西勝出。RL研究里有種說法:如果某個(gè)東西只比基線好幾個(gè)百分點(diǎn),很可能沒用;但如果是兩倍的提升,那才是真正的創(chuàng)新。

Ross Taylor:完全正確。推理領(lǐng)域還有一點(diǎn),我理解人們專注于數(shù)學(xué)和代碼,因?yàn)槟抢镉袛?shù)據(jù)。但我真的覺得,基于 AIME 和 GPQA 基準(zhǔn)的論文,遠(yuǎn)沒有之前那么有趣了。

Nathan Lambert代碼可以做得更好,但很難衡量。目前在學(xué)術(shù)論文中,沒有在做相關(guān)研究的。

Ross Taylor:是的,即使是成熟的基準(zhǔn)測(cè)試也是一樣。比如 SWE-bench,雖然是好的測(cè)試基準(zhǔn),但絕大多數(shù)問題都來自 Django。我不是貶低它,它確實(shí)很棒。但做出好的編碼基準(zhǔn)或其他類型的基準(zhǔn),還有很多細(xì)節(jié)工作要做。

我現(xiàn)在的處境挺矛盾的:一方面,看著那些只在數(shù)學(xué)和代碼上「爬山」的論文,覺得根本上很無趣;另一方面,也同情他們,除了這個(gè)還能做什么呢?開源社區(qū)里目前沒有多少好的開源推理數(shù)據(jù)集,而那些開源的,我認(rèn)為基本上不能用。

Nathan Lambert這倒是個(gè)很好的轉(zhuǎn)折點(diǎn)。除了數(shù)學(xué)和代碼,強(qiáng)化學(xué)習(xí)RL)的規(guī)?;头夯F(xiàn)狀如何?

Ross Taylor:首先,我認(rèn)為「RL無法泛化到數(shù)學(xué)和代碼之外」的說法被嚴(yán)重夸大了。實(shí)際情況是:OpenAI 最初非常專注于數(shù)學(xué)、邏輯和謎題,后來不得不拓寬范圍,因?yàn)槟P妥兊眠^于理性,只關(guān)注那些基準(zhǔn)。但 RL 能否泛化到其他基準(zhǔn),從來都不是問題。

我們從數(shù)學(xué)和代碼開始的原因是,因?yàn)樗鼈兒苋菀妆或?yàn)證。通過應(yīng)用 RL,模型學(xué)到了一些策略,比如「不應(yīng)該過早回答」「應(yīng)該檢查工作」「應(yīng)該考慮其他可能性」。從宏觀來看,如果模型能思考更長時(shí)間、更多地檢查工作、考慮更多事情,那么在數(shù)學(xué)之外的領(lǐng)域也同樣有用。

雖然這樣講,但如果想在數(shù)學(xué)和代碼之外達(dá)到所謂的「超級(jí)智能」,確實(shí)需要針對(duì)性的基準(zhǔn)測(cè)試。問題不在于能否泛化,而是在于實(shí)現(xiàn)的性能要有多好。

04下一步的問題是,驗(yàn)證變得越來越難了

Nathan Lambert「評(píng)估準(zhǔn)則」(Rubric)這個(gè)詞最近很火,但我理解,它不就是一個(gè)人針對(duì)特定問題的、用語言模型作為裁判(LLMas a judge)的評(píng)估單元嗎?

Ross Taylor:是的。它最近很流行是因?yàn)?DeepMind 的一項(xiàng)研究。有傳言說,OpenAI 實(shí)際上不需要太多樣本就能在這些任務(wù)上做得很好,不需要成千上萬的 「評(píng)估準(zhǔn)則」,可能只需要一兩千個(gè)精心設(shè)計(jì)的問題準(zhǔn)則。它在教模型瀏覽互聯(lián)網(wǎng)、綜合知識(shí)方面顯然非常有效。

Nathan Lambert對(duì)于深度研究類任務(wù),「評(píng)估準(zhǔn)則」會(huì)是什么樣的?

Ross Taylor:可以有不同主題。比如,關(guān)于答案的整體風(fēng)格;或者,假設(shè)要一篇關(guān)于最新 RL 推理算法的綜述,可能會(huì)有宏觀標(biāo)準(zhǔn),比如「至少比較幾種方法」「應(yīng)該有表格比較底層算法」;然后可能有更具體的標(biāo)準(zhǔn),比如「現(xiàn)在可能應(yīng)該提到 GSPO」。本質(zhì)上,它就是一個(gè)標(biāo)準(zhǔn)列表。但你真正想要的是平滑、連續(xù)的獎(jiǎng)勵(lì),讓模型能逐漸學(xué)習(xí),而不是尖銳的信號(hào)。

Nathan Lambert你覺得「獎(jiǎng)勵(lì)塑造」(reward shaping)會(huì)一直存在,還是會(huì)被算力增長的浪潮淹沒?

Ross Taylor我認(rèn)為會(huì)被淹沒,但在此期間,手工制作優(yōu)質(zhì)評(píng)測(cè)仍有很大價(jià)值。長遠(yuǎn)來看,它會(huì)被淘汰,因?yàn)闆]有什么是比人類更強(qiáng)的神經(jīng)網(wǎng)絡(luò)做不到的。但短期內(nèi),仍有很多模型搞不定的角落。

Nathan Lambert能通過訓(xùn)練大量基于「評(píng)估準(zhǔn)則」的數(shù)據(jù)來創(chuàng)建一個(gè)生成式獎(jiǎng)勵(lì)模型嗎?

Ross Taylor:可以。我認(rèn)為驗(yàn)證也是能從「思考時(shí)間」中受益的任務(wù)??偟膩碚f,最簡單的思路是:當(dāng)進(jìn)入長智能體軌跡的場(chǎng)景后,「獎(jiǎng)勵(lì)模型」只需回答一個(gè)簡單問題——「智能體在實(shí)現(xiàn)目標(biāo)的過程中是否有進(jìn)展?」但這個(gè)問題其實(shí)很復(fù)雜,比如在《寶可夢(mèng)》評(píng)測(cè)中,需要模型對(duì)游戲有基礎(chǔ)的了解判斷。

Nathan Lambert我確實(shí)覺得我們會(huì)在這方面學(xué)到更多,這很重要。

Ross Taylor:是的,現(xiàn)在正處在「評(píng)估準(zhǔn)則狂熱」時(shí)期。更長期的問題是:當(dāng)驗(yàn)證從根本上變得更困難時(shí)會(huì)怎樣?我對(duì)科學(xué)發(fā)現(xiàn)很感興趣,但像生物學(xué)這類領(lǐng)域,得靠物理實(shí)驗(yàn)來驗(yàn)證,不能簡單地跑程序。其實(shí)在多數(shù)科學(xué)領(lǐng)域,我覺得人們高估了「思考」的力量。他們想到的是愛因斯坦,卻很少想到數(shù)據(jù)生成機(jī)制和實(shí)驗(yàn)儀器。沒有望遠(yuǎn)鏡就沒有開普勒,沒有 X 射線晶體學(xué)就沒有生物學(xué)的進(jìn)步。

在 RL 的語境下說這個(gè)可能有點(diǎn)偏,但想解決現(xiàn)實(shí)中極難的問題,最終會(huì)受限于:「我其實(shí)需要造個(gè)更好的儀器來獲取數(shù)據(jù)。」 聽起來像題外話,但我想說的是,從長遠(yuǎn)看,會(huì)遇到這些驗(yàn)證瓶頸。但短期內(nèi),我們?nèi)阅芙鉀Q像黎曼猜想這類有趣的問題,盡管可能也需要很長時(shí)間。

Nathan Lambert我最近讀了很多關(guān)于模型推理軌跡的研究,Qwen 和 DeepSeek 的思考過程往往是長時(shí)間的混亂,然后突然「噗」的一下得出正確答案。這感覺不像能帶來科學(xué)發(fā)現(xiàn)的機(jī)制。

Ross Taylor:我對(duì)推理模型有個(gè)偏悲觀的觀點(diǎn)。二戰(zhàn)后全球科研人員數(shù)量大增,但能說科學(xué)進(jìn)步也同等加速了嗎?反倒感覺很多領(lǐng)域的進(jìn)展放緩了。這可能是因?yàn)檫@些領(lǐng)域的低垂果實(shí)已經(jīng)被摘完了。這也是我看空 AI 的一個(gè)理由:很多地方的瓶頸不是原始智力,而是「我需要加快物理過程」「需要更好的測(cè)量儀器」。

我只是想打破那種「解決了推理,明年超級(jí)智能就來了」的心態(tài)。

轉(zhuǎn)載原創(chuàng)文章請(qǐng)?zhí)砑游⑿牛篺ounderparker

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“為什么中國人的頭像是這樣的?”外國博主吐槽中國人頭像像騙子

“為什么中國人的頭像是這樣的?”外國博主吐槽中國人頭像像騙子

有趣的火烈鳥
2025-09-08 21:40:05
美論壇:為什么中國明知很容易被摧毀,卻依然要在南海建造基地?

美論壇:為什么中國明知很容易被摧毀,卻依然要在南海建造基地?

伴史緣
2025-09-05 10:52:33
西方制度最大問題,領(lǐng)導(dǎo)胡亂施政,留下爛攤子,辭職走人!

西方制度最大問題,領(lǐng)導(dǎo)胡亂施政,留下爛攤子,辭職走人!

荊楚寰宇文樞
2025-09-07 17:36:44
云南發(fā)生一級(jí)甲等醫(yī)療事故,法院判了!

云南發(fā)生一級(jí)甲等醫(yī)療事故,法院判了!

掌上醫(yī)訊BY
2025-09-08 18:46:53
Claude更新公告全面禁止中國使用,網(wǎng)友:馬上退訂、退費(fèi);威馬汽車已復(fù)產(chǎn),豪言年產(chǎn)百萬輛;原vivo品牌副總裁加盟安克創(chuàng)新

Claude更新公告全面禁止中國使用,網(wǎng)友:馬上退訂、退費(fèi);威馬汽車已復(fù)產(chǎn),豪言年產(chǎn)百萬輛;原vivo品牌副總裁加盟安克創(chuàng)新

雷峰網(wǎng)
2025-09-08 10:32:06
妻子要我在三天之內(nèi)凈身出戶,我果斷同意,婆家住進(jìn)我別墅后傻眼

妻子要我在三天之內(nèi)凈身出戶,我果斷同意,婆家住進(jìn)我別墅后傻眼

濤哥講堂
2025-09-03 14:57:54
江蘇東部幾千平方公里土地,為什么時(shí)而消失時(shí)而出現(xiàn)?

江蘇東部幾千平方公里土地,為什么時(shí)而消失時(shí)而出現(xiàn)?

三農(nóng)老歷
2025-09-08 14:34:29
胡志明“遺囑”:統(tǒng)一柬埔寨老撾重建印支聯(lián)邦,把中國逼到對(duì)立面

胡志明“遺囑”:統(tǒng)一柬埔寨老撾重建印支聯(lián)邦,把中國逼到對(duì)立面

正觀歷史
2025-09-08 14:03:11
4000萬中年失業(yè)大軍,他們將何去何從?

4000萬中年失業(yè)大軍,他們將何去何從?

經(jīng)濟(jì)學(xué)教授V
2025-09-02 18:42:04
22歲普通中國姑娘遠(yuǎn)嫁迪拜,白天享盡榮華富貴,晚上竟然度日如年

22歲普通中國姑娘遠(yuǎn)嫁迪拜,白天享盡榮華富貴,晚上竟然度日如年

法老不說教
2025-09-03 16:20:37
越南新娘嫁到浙江15年,第一次回娘家,丈夫只讓帶回去一臺(tái)舊彩電

越南新娘嫁到浙江15年,第一次回娘家,丈夫只讓帶回去一臺(tái)舊彩電

溫情郵局
2025-09-02 13:20:52
承認(rèn)了,全是演的!連夜成立調(diào)查組

承認(rèn)了,全是演的!連夜成立調(diào)查組

桑葚愛動(dòng)畫
2025-08-23 15:21:37
壓倒性勝利!聯(lián)合國120票通過中國決議,耿爽一句話直戳美國痛點(diǎn)

壓倒性勝利!聯(lián)合國120票通過中國決議,耿爽一句話直戳美國痛點(diǎn)

混沌錄
2025-09-08 23:05:08
繼續(xù)使用Windows 10?免費(fèi)方案來了,但需要在10月14日前完成操作

繼續(xù)使用Windows 10?免費(fèi)方案來了,但需要在10月14日前完成操作

熱點(diǎn)科技
2025-09-08 17:06:42
我國肺癌高發(fā),都是豆制品惹的禍?醫(yī)生提醒:真正致癌的是這3物

我國肺癌高發(fā),都是豆制品惹的禍?醫(yī)生提醒:真正致癌的是這3物

華醫(yī)網(wǎng)
2025-07-22 05:42:54
全進(jìn)華白切雞風(fēng)波后續(xù)!輿論反轉(zhuǎn),本人被罵到刪視頻,全妹受牽連

全進(jìn)華白切雞風(fēng)波后續(xù)!輿論反轉(zhuǎn),本人被罵到刪視頻,全妹受牽連

法老不說教
2025-09-06 16:08:55
上海一老總發(fā)現(xiàn)女員工酷似失蹤母親,見到下屬母親后,老總愣住了

上海一老總發(fā)現(xiàn)女員工酷似失蹤母親,見到下屬母親后,老總愣住了

懸案解密檔案
2025-08-15 13:31:42
天價(jià)學(xué)費(fèi)壓垮家長!大灣區(qū)國際學(xué)校燒錢大戰(zhàn),深圳一年30萬只墊底

天價(jià)學(xué)費(fèi)壓垮家長!大灣區(qū)國際學(xué)校燒錢大戰(zhàn),深圳一年30萬只墊底

多了個(gè)米
2025-09-08 10:42:47
62歲大媽堅(jiān)持吃燕麥片當(dāng)早飯,1年后檢查,被醫(yī)生叫住了

62歲大媽堅(jiān)持吃燕麥片當(dāng)早飯,1年后檢查,被醫(yī)生叫住了

君好伴讀
2025-09-06 23:07:03
細(xì)思極恐!曝金昊什么都招了,瑤瑤身上疑似檢出鎮(zhèn)定劑成分,冷血

細(xì)思極恐!曝金昊什么都招了,瑤瑤身上疑似檢出鎮(zhèn)定劑成分,冷血

吃瓜盟主
2025-09-02 21:19:38
2025-09-09 06:47:00
FounderPark incentive-icons
FounderPark
關(guān)注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問題
956文章數(shù) 140關(guān)注度
往期回顧 全部

科技要聞

王騰承認(rèn)離開小米:犯了錯(cuò),感謝雷總培養(yǎng)

頭條要聞

柯文哲出來第一秒就瞄準(zhǔn)賴清德:把臺(tái)灣搞得四分五裂

頭條要聞

柯文哲出來第一秒就瞄準(zhǔn)賴清德:把臺(tái)灣搞得四分五裂

體育要聞

二十年,屬于詹姆斯和中國球迷的雙向奔赴

娛樂要聞

2天5個(gè)瓜!個(gè)個(gè)離譜

財(cái)經(jīng)要聞

千億均和集團(tuán)暴雷 建行等多家銀行追債

汽車要聞

對(duì)話曹東杰:用智能重構(gòu)越野 猛士M817的爆款邏輯

態(tài)度原創(chuàng)

教育
親子
游戲
健康
手機(jī)

教育要聞

浙大博士求職211被拒,原因是第一學(xué)歷,那么多論文和課題看不見

親子要聞

孩子玩手機(jī)停不下來?大腦這個(gè)功能失效了

TES3-1擊敗NIP晉級(jí)勝者組!doinb發(fā)條效果不佳,小奶油阿卡麗亂殺

內(nèi)分泌科專家破解身高八大謠言

手機(jī)要聞

努比亞Z80 Ultra新機(jī)入網(wǎng),影像能力再次升級(jí)

無障礙瀏覽 進(jìn)入關(guān)懷版 日韩欧美亚洲综合久久| 超级内射视频| 亚洲AV午夜成人片精品一区蜜臀 | 婷婷色综合久久久久久| 羞羞影院成人午夜爽爽在线| 自慰在线观看| 色哟哟国产免费| 国产suv精品一区二区6| 日本亚洲黄色色图视频| 久久久AV动漫| 国产乱码精品1区2区3区| 国产精品理论片在线观看| 久久麻豆精亚洲AV品国产吗合肥| 日韩人伦一区二区| 综合精品久久| 欧美制服丝袜亚洲另类在线| av片在线观看永久免费| 国产精品无码制服丝袜| 四虎永久在线精品免费网站| 欧美做受69| 成人精h无码男男免费| 国产精品无码午夜福利免费看| 国产大乳喷奶| 无码色av一二区在线播放| 天堂网avtt无码专区| 久久久精品无码| 久久久久人妻精品区一| 久久免费看少妇高潮v片特黄| 无码复古毛茸茸经典| 午夜成人欧美一区二区在线观看| 波多野结衣在线播放一区| 男人操女人色色视频免费观看| 国产毛片基地| 蜜桃成人导航| 国产精品国产免费无码专区不卡| JAPANESE70MATURE老妇| 婷婷开心深爱五月天播播| 国产精品高清在线播放| 国产第三区| 波多野结衣红桃视频| 黑森林福利视频导航|