網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

反轉(zhuǎn)！LeCun剛轉(zhuǎn)發(fā)「全球最快開(kāi)源推理模型」，ETH蘇黎世就直接打假

2025-09-15 18:00:35　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：KingHZ

【新智元導(dǎo)讀】上周，福布斯、Wired等爭(zhēng)相報(bào)道「全球最快開(kāi)源推理模型」K2-Think，，甚至圖靈獎(jiǎng)得主Yann LeCun轉(zhuǎn)發(fā)推文。但僅三天后，ETH五位研究員的博客如晴天霹靂：87數(shù)學(xué)評(píng)估題竟藏在訓(xùn)練集中！這不僅僅是技術(shù)突破，更是行業(yè)誠(chéng)信的警鐘。

全球最快開(kāi)源AI推理模型！

這個(gè)標(biāo)簽為K2?Think帶來(lái)轟動(dòng)效果：福布斯、VentureBeat、Wired、CNBC等媒體爭(zhēng)先報(bào)道，甚至圖靈獎(jiǎng)得主轉(zhuǎn)發(fā)相關(guān)推文介紹！

然而，蘇黎世聯(lián)邦理工學(xué)院計(jì)算機(jī)科學(xué)系SRI實(shí)驗(yàn)室的研究者，卻潑了一盆冷水：

雖然K2-Think不錯(cuò)，但報(bào)告的性能被夸大了。

32B參數(shù)比肩o3 high？

上周，MBZUAI與G42等開(kāi)源了一款號(hào)稱是「全球最快的開(kāi)源AI推理模型」——K2-Think。

當(dāng)?shù)孛襟w報(bào)道：K2-Think證明提升效率，不必犧牲模型性能

在數(shù)學(xué)能力上，只有32B參數(shù)的K2-Think，甚至能比肩OpenAI此前的旗艦——o3 high。

堪稱是對(duì)Scaling Law的顛覆。

論文中，作者把六個(gè)沒(méi)人費(fèi)心整合過(guò)的技術(shù)訣竅組合到了一起：

長(zhǎng)思維鏈微調(diào)、具有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）、推理前的Agentic規(guī)劃、測(cè)試時(shí)擴(kuò)展、投機(jī)解碼和優(yōu)化推理的硬件。

其中的「先計(jì)劃再思考」的架構(gòu)不僅讓模型變得更聰明，還實(shí)實(shí)在在地把token消耗降低了12%。

數(shù)據(jù)方面，據(jù)稱僅使用開(kāi)源數(shù)據(jù)集，無(wú)專有訓(xùn)練數(shù)據(jù)、無(wú)封閉API。

速度方面，它能在Cerebras上跑到每秒2000個(gè)token。而大部分推理模型，每秒只有200個(gè)token。復(fù)雜的證明，過(guò)去要等3分鐘，現(xiàn)在只要18秒，這就是差距。

基準(zhǔn)跑分更是逆天。

在AIME 2024測(cè)試中，它得分率高達(dá)90.83%，要知道，大多數(shù)前沿模型連85%的門檻都過(guò)不了。

在復(fù)雜的數(shù)學(xué)競(jìng)賽中，它拿下了了67.99%的分?jǐn)?shù)——一舉擊敗了那些參數(shù)量超過(guò)1000億的模型，如GPT-OSS 120B 和DeepSeek V3.1。

過(guò)去，大家都認(rèn)為「模型越大越好」；這一下就徹底終結(jié)了這種論調(diào)。此前被OpenAI獨(dú)占的推理能力，現(xiàn)在小型實(shí)驗(yàn)室也能部署了。

現(xiàn)在所有人都在驚嘆它的速度記錄。但真正的核心是：在推理層面，他們把參數(shù)效率這個(gè)難題給攻克了。

效果如此出色，不僅在網(wǎng)上引發(fā)了廣泛關(guān)注，還有多家新聞媒體對(duì)此進(jìn)行了報(bào)道，包括福布斯、VentureBeat、Wired、CNBC等。

甚至，連Yann LeCun都親自下場(chǎng)，轉(zhuǎn)發(fā)了一條介紹這篇論文的推文。

然而，3天后，9月12日，故事迎來(lái)了逆轉(zhuǎn)！

逆轉(zhuǎn)：ETH發(fā)文遭「打假」

然而，就在論文發(fā)布后的第3天，5位來(lái)自ETH蘇黎世的研究員就出來(lái)「打假」了。

博客地址：https://www.sri.inf.ethz.ch/blog/k2think

根據(jù)分析，他們列出了4個(gè)關(guān)鍵問(wèn)題：

數(shù)據(jù)污染
以三打一
只比舊模型
平均分替代最高分

具體問(wèn)題，請(qǐng)往下看；ETH的獨(dú)立測(cè)評(píng)和結(jié)論在文末。

數(shù)據(jù)污染，評(píng)估無(wú)效

在數(shù)學(xué)能力評(píng)估方面，K2-Think所使用的監(jiān)督式微調(diào)（SFT）和強(qiáng)化學(xué)習(xí)（RL）數(shù)據(jù)集中，均包含DeepScaleR數(shù)據(jù)集，而后者又包含了Omni-Math的題目。

由于K2-Think又使用Omni-Math來(lái)評(píng)估其性能，評(píng)測(cè)與訓(xùn)練集可能存在重疊——這表明存在數(shù)據(jù)污染。

通過(guò)近似字符串匹配，研究人員確認(rèn)了這一點(diǎn)：

K2-Think用于評(píng)估的173個(gè)Omni-Math題目，至少有87個(gè)也出現(xiàn)在其訓(xùn)練數(shù)據(jù)里。

另?yè)?jù)稱，RL數(shù)據(jù)集Guru的創(chuàng)建者與論文作者重合度高，而K2-Think又使用了Guru進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。

在代碼基準(zhǔn)LiveCodeBench評(píng)估中，也發(fā)現(xiàn)了類似問(wèn)題。

評(píng)估中K2-Think所用樣本的約22%，出現(xiàn)在其SFT數(shù)據(jù)集中。

雖然SFT數(shù)據(jù)集的原作者（AM-Team）執(zhí)行了去污染步驟，移除了2024年10月之后的問(wèn)題。

但K2-Think的LiveCodeBench評(píng)估，卻使用了自2024年7月以來(lái)的所有問(wèn)題，導(dǎo)致其中22%的問(wèn)題是模型在訓(xùn)練階段就已經(jīng)見(jiàn)過(guò)的。

這直接導(dǎo)致其在數(shù)學(xué)和代碼方面的評(píng)估結(jié)果大打折扣。

不公平比較：采用「Best-of-N」和外部模型

該論文的主要結(jié)果表報(bào)告的是，K2-Think在「3選1」(Best-of-3)策略下的性能。這是一種眾所周知的提升模型表現(xiàn)的技巧。

而所有其他模型均采用「單次生成」（best-of-1）進(jìn)行評(píng)估，這讓它們處于極為不利的位置。

更甚的是，「3選1」的判斷是由一個(gè)未指明的「外部模型」完成的，該模型的規(guī)?？赡苁侨我獾摹?/p>

同樣是這個(gè)外部模型，還為K2-Think提供了詳細(xì)的解題計(jì)劃。

作者將這整套流程定義為「K2-Think」，而32B模型本身只是其中一個(gè)組件。但原論文卻聲明「K2-Think僅依賴一個(gè)32B小模型」。

如論文所示，將這套流程與沒(méi)有采用該流程的其他模型進(jìn)行比較，是無(wú)效的。

這套流程本就可以輕松應(yīng)用于其他模型，并同樣能提升其得分。

在沒(méi)有外部輔助的情況下，K2-Think的性能不如Nemotron 32B——

后者是一個(gè)同等規(guī)模的模型，于今年7月發(fā)布，基于Qwen2.5 32B并采用類似方法訓(xùn)練。

表1：K2-Think（無(wú)外部輔助）、Nemotron 32B（兩者均為Qwen2.5 32B的微調(diào)版本）以及Qwen3 30B的性能對(duì)比。Qwen3(*)的結(jié)果取自其模型頁(yè)面。所有其他結(jié)果均取自K2-Think的論文

歪曲其他模型的結(jié)果

該報(bào)告未能公正地評(píng)估其他模型。最明顯的是，它在運(yùn)行GPT-OSS時(shí)僅使用了「中等」推理強(qiáng)度，而非為推理基準(zhǔn)推薦的「高」推理強(qiáng)度設(shè)置。

此外，K2-Think對(duì)許多競(jìng)品模型使用了過(guò)時(shí)的版本。

例如，盡管他們?cè)u(píng)估了8月份發(fā)布的GPT-OSS，但論文中評(píng)估的Qwen3模型似乎并非7月份發(fā)布的最新版本。具體來(lái)說(shuō)，在Qwen3和K2-Think論文都涵蓋的三個(gè)基準(zhǔn)測(cè)試（AIME 2025、HMMT 2025、GPQA-Diamond）上，K2-Think給出的Qwen3分?jǐn)?shù)似乎與舊版本相符，比7月新版本報(bào)告的結(jié)果低了15-20%之多。

下表比較Qwen3官方報(bào)告的分?jǐn)?shù)與K2-Think論文中給出的分?jǐn)?shù)。

可以看到，K2-Think歸于Qwen3-30B的分?jǐn)?shù)遠(yuǎn)低于預(yù)期，即便是對(duì)比7月發(fā)布前的舊版本也同樣如此。

表2：在AIME 2025、HMMT 2025和GPQA-Diamond 3準(zhǔn)上，Qwen3技術(shù)報(bào)告/模型頁(yè)面、MathArena基準(zhǔn)與K2-Think論文報(bào)告的分?jǐn)?shù)對(duì)比

為得分高的數(shù)學(xué)基準(zhǔn)賦予更高權(quán)重

最后，K2-Think使用「微觀平均值」（micro average）來(lái)計(jì)算其總體數(shù)學(xué)評(píng)分。

這意味著它根據(jù)四個(gè)基準(zhǔn)（AIME24、AIME25、HMMT、OmniMath-Hard）各自包含的任務(wù)數(shù)量來(lái)加權(quán)，而非對(duì)各基準(zhǔn)分?jǐn)?shù)進(jìn)行等權(quán)重平均。

總體「微觀平均值」：基本上是將所有測(cè)試集中的正確答案總數(shù)除以問(wèn)題總數(shù)

雖然聲稱此舉是為了量化模型的整體數(shù)學(xué)能力，但這種計(jì)算方式導(dǎo)致最終分?jǐn)?shù)被OmniMath-Hard嚴(yán)重主導(dǎo)（占總分約66%）。

OmniMath-Hard不僅是K2-Think表現(xiàn)最好的基準(zhǔn)，也恰恰是上文討論的、存在數(shù)據(jù)污染問(wèn)題的基準(zhǔn)。

獨(dú)立評(píng)估結(jié)果

為ETH為了驗(yàn)證分析，在自有的MathArena基準(zhǔn)上，對(duì)K2-Think與其他模型進(jìn)行了公平比較。

他們遵循了K2-Think的推薦超參數(shù)（temperature=1, p=0.95，輸出64,000個(gè)token）。

結(jié)果顯示，盡管K2-Think性能不錯(cuò)，但其表現(xiàn)遠(yuǎn)未達(dá)到論文和媒體文章所聲稱的水平。

特別是，它未能與DeepSeek V3.1或GPT-OSS 120B相提并論——盡管其作者聲稱可以。

事實(shí)上，評(píng)估表明K2-Think的數(shù)學(xué)能力甚至不及規(guī)模更小的GPT-OSS 20B模型。

結(jié)論

總而言之，ETH的研究小組發(fā)現(xiàn)K2-Think模型在多個(gè)方面存在夸大陳述：

它在已經(jīng)用于訓(xùn)練的數(shù)據(jù)上進(jìn)行評(píng)估，依賴外部模型和額外采樣來(lái)夸大性能，并人為壓低競(jìng)品模型的分?jǐn)?shù)，同時(shí)又通過(guò)重新加權(quán)來(lái)凸顯自己的分?jǐn)?shù)，以制造性能持平乃至超越的假象。

這也反映了AI圈獨(dú)特的文化：針對(duì)不同的基準(zhǔn)測(cè)試，好像只要能拿到最高分就是好模型。

這催生出一種極端的信念：好模型就是benchmaxer。

甚至為了刷新「SOTA」，出現(xiàn)了類似「田忌賽馬」的測(cè)評(píng)策略。

開(kāi)源模型要拿好成績(jī)，本是好事。然而，存在缺陷的評(píng)估和夸大其詞的宣傳對(duì)行業(yè)毫無(wú)益處。

參考資料：

https://x.com/ihteshamit/status/1966211223030202781

https://www.sri.inf.ethz.ch/blog/k2think

https://arxiv.org/pdf/2509.07604

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.