新智元報(bào)道
編輯:KingHZ
【新智元導(dǎo)讀】上周,福布斯、Wired等爭(zhēng)相報(bào)道「全球最快開(kāi)源推理模型」K2-Think,,甚至圖靈獎(jiǎng)得主Yann LeCun轉(zhuǎn)發(fā)推文。但僅三天后,ETH五位研究員的博客如晴天霹靂:87數(shù)學(xué)評(píng)估題竟藏在訓(xùn)練集中!這不僅僅是技術(shù)突破,更是行業(yè)誠(chéng)信的警鐘。
全球最快開(kāi)源AI推理模型!
這個(gè)標(biāo)簽為K2?Think帶來(lái)轟動(dòng)效果:福布斯、VentureBeat、Wired、CNBC等媒體爭(zhēng)先報(bào)道,甚至圖靈獎(jiǎng)得主轉(zhuǎn)發(fā)相關(guān)推文介紹!
然而,蘇黎世聯(lián)邦理工學(xué)院計(jì)算機(jī)科學(xué)系SRI實(shí)驗(yàn)室的研究者,卻潑了一盆冷水:
雖然K2-Think不錯(cuò),但報(bào)告的性能被夸大了。
32B參數(shù)比肩o3 high?
上周,MBZUAI與G42等開(kāi)源了一款號(hào)稱是「全球最快的開(kāi)源AI推理模型」——K2-Think。
當(dāng)?shù)孛襟w報(bào)道:K2-Think證明提升效率,不必犧牲模型性能
在數(shù)學(xué)能力上,只有32B參數(shù)的K2-Think,甚至能比肩OpenAI此前的旗艦——o3 high。
堪稱是對(duì)Scaling Law的顛覆。
論文中,作者把六個(gè)沒(méi)人費(fèi)心整合過(guò)的技術(shù)訣竅組合到了一起:
長(zhǎng)思維鏈微調(diào)、具有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)、推理前的Agentic規(guī)劃、測(cè)試時(shí)擴(kuò)展、投機(jī)解碼和優(yōu)化推理的硬件。
其中的「先計(jì)劃再思考」的架構(gòu)不僅讓模型變得更聰明,還實(shí)實(shí)在在地把token消耗降低了12%。
數(shù)據(jù)方面,據(jù)稱僅使用開(kāi)源數(shù)據(jù)集,無(wú)專有訓(xùn)練數(shù)據(jù)、無(wú)封閉API。
速度方面,它能在Cerebras上跑到每秒2000個(gè)token。而大部分推理模型,每秒只有200個(gè)token。復(fù)雜的證明,過(guò)去要等3分鐘,現(xiàn)在只要18秒,這就是差距。
基準(zhǔn)跑分更是逆天。
在AIME 2024測(cè)試中,它得分率高達(dá)90.83%,要知道,大多數(shù)前沿模型連85%的門檻都過(guò)不了。
在復(fù)雜的數(shù)學(xué)競(jìng)賽中,它拿下了了67.99%的分?jǐn)?shù)——一舉擊敗了那些參數(shù)量超過(guò)1000億的模型,如GPT-OSS 120B 和DeepSeek V3.1。
過(guò)去,大家都認(rèn)為「模型越大越好」;這一下就徹底終結(jié)了這種論調(diào)。此前被OpenAI獨(dú)占的推理能力,現(xiàn)在小型實(shí)驗(yàn)室也能部署了。
現(xiàn)在所有人都在驚嘆它的速度記錄。但真正的核心是:在推理層面,他們把參數(shù)效率這個(gè)難題給攻克了。
效果如此出色,不僅在網(wǎng)上引發(fā)了廣泛關(guān)注,還有多家新聞媒體對(duì)此進(jìn)行了報(bào)道,包括福布斯、VentureBeat、Wired、CNBC等。
甚至,連Yann LeCun都親自下場(chǎng),轉(zhuǎn)發(fā)了一條介紹這篇論文的推文。
然而,3天后,9月12日,故事迎來(lái)了逆轉(zhuǎn)!
逆轉(zhuǎn):ETH發(fā)文遭「打假」
然而,就在論文發(fā)布后的第3天,5位來(lái)自ETH蘇黎世的研究員就出來(lái)「打假」了。
博客地址:https://www.sri.inf.ethz.ch/blog/k2think
根據(jù)分析,他們列出了4個(gè)關(guān)鍵問(wèn)題:
數(shù)據(jù)污染
以三打一
只比舊模型
平均分替代最高分
具體問(wèn)題,請(qǐng)往下看;ETH的獨(dú)立測(cè)評(píng)和結(jié)論在文末。
數(shù)據(jù)污染,評(píng)估無(wú)效
在數(shù)學(xué)能力評(píng)估方面,K2-Think所使用的監(jiān)督式微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)數(shù)據(jù)集中,均包含DeepScaleR數(shù)據(jù)集,而后者又包含了Omni-Math的題目。
由于K2-Think又使用Omni-Math來(lái)評(píng)估其性能,評(píng)測(cè)與訓(xùn)練集可能存在重疊——這表明存在數(shù)據(jù)污染。
通過(guò)近似字符串匹配,研究人員確認(rèn)了這一點(diǎn):
K2-Think用于評(píng)估的173個(gè)Omni-Math題目,至少有87個(gè)也出現(xiàn)在其訓(xùn)練數(shù)據(jù)里。
另?yè)?jù)稱,RL數(shù)據(jù)集Guru的創(chuàng)建者與論文作者重合度高,而K2-Think又使用了Guru進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。
在代碼基準(zhǔn)LiveCodeBench評(píng)估中,也發(fā)現(xiàn)了類似問(wèn)題。
評(píng)估中K2-Think所用樣本的約22%,出現(xiàn)在其SFT數(shù)據(jù)集中。
雖然SFT數(shù)據(jù)集的原作者(AM-Team)執(zhí)行了去污染步驟,移除了2024年10月之后的問(wèn)題。
但K2-Think的LiveCodeBench評(píng)估,卻使用了自2024年7月以來(lái)的所有問(wèn)題,導(dǎo)致其中22%的問(wèn)題是模型在訓(xùn)練階段就已經(jīng)見(jiàn)過(guò)的。
這直接導(dǎo)致其在數(shù)學(xué)和代碼方面的評(píng)估結(jié)果大打折扣。
不公平比較:采用「Best-of-N」和外部模型
該論文的主要結(jié)果表報(bào)告的是,K2-Think在「3選1」(Best-of-3)策略下的性能。這是一種眾所周知的提升模型表現(xiàn)的技巧。
而所有其他模型均采用「單次生成」(best-of-1)進(jìn)行評(píng)估,這讓它們處于極為不利的位置。
更甚的是,「3選1」的判斷是由一個(gè)未指明的「外部模型」完成的,該模型的規(guī)??赡苁侨我獾摹?/p>
同樣是這個(gè)外部模型,還為K2-Think提供了詳細(xì)的解題計(jì)劃。
作者將這整套流程定義為「K2-Think」,而32B模型本身只是其中一個(gè)組件。但原論文卻聲明「K2-Think僅依賴一個(gè)32B小模型」。
如論文所示,將這套流程與沒(méi)有采用該流程的其他模型進(jìn)行比較,是無(wú)效的。
這套流程本就可以輕松應(yīng)用于其他模型,并同樣能提升其得分。
在沒(méi)有外部輔助的情況下,K2-Think的性能不如Nemotron 32B——
后者是一個(gè)同等規(guī)模的模型,于今年7月發(fā)布,基于Qwen2.5 32B并采用類似方法訓(xùn)練。
表1:K2-Think(無(wú)外部輔助)、Nemotron 32B(兩者均為Qwen2.5 32B的微調(diào)版本)以及Qwen3 30B的性能對(duì)比。Qwen3(*)的結(jié)果取自其模型頁(yè)面。所有其他結(jié)果均取自K2-Think的論文
歪曲其他模型的結(jié)果
該報(bào)告未能公正地評(píng)估其他模型。最明顯的是,它在運(yùn)行GPT-OSS時(shí)僅使用了「中等」推理強(qiáng)度,而非為推理基準(zhǔn)推薦的「高」推理強(qiáng)度設(shè)置。
此外,K2-Think對(duì)許多競(jìng)品模型使用了過(guò)時(shí)的版本。
例如,盡管他們?cè)u(píng)估了8月份發(fā)布的GPT-OSS,但論文中評(píng)估的Qwen3模型似乎并非7月份發(fā)布的最新版本。具體來(lái)說(shuō),在Qwen3和K2-Think論文都涵蓋的三個(gè)基準(zhǔn)測(cè)試(AIME 2025、HMMT 2025、GPQA-Diamond)上,K2-Think給出的Qwen3分?jǐn)?shù)似乎與舊版本相符,比7月新版本報(bào)告的結(jié)果低了15-20%之多。
下表比較Qwen3官方報(bào)告的分?jǐn)?shù)與K2-Think論文中給出的分?jǐn)?shù)。
可以看到,K2-Think歸于Qwen3-30B的分?jǐn)?shù)遠(yuǎn)低于預(yù)期,即便是對(duì)比7月發(fā)布前的舊版本也同樣如此。
表2:在AIME 2025、HMMT 2025和GPQA-Diamond 3準(zhǔn)上,Qwen3技術(shù)報(bào)告/模型頁(yè)面、MathArena基準(zhǔn)與K2-Think論文報(bào)告的分?jǐn)?shù)對(duì)比
為得分高的數(shù)學(xué)基準(zhǔn)賦予更高權(quán)重
最后,K2-Think使用「微觀平均值」(micro average)來(lái)計(jì)算其總體數(shù)學(xué)評(píng)分。
這意味著它根據(jù)四個(gè)基準(zhǔn)(AIME24、AIME25、HMMT、OmniMath-Hard)各自包含的任務(wù)數(shù)量來(lái)加權(quán),而非對(duì)各基準(zhǔn)分?jǐn)?shù)進(jìn)行等權(quán)重平均。
總體「微觀平均值」:基本上是將所有測(cè)試集中的正確答案總數(shù)除以問(wèn)題總數(shù)
雖然聲稱此舉是為了量化模型的整體數(shù)學(xué)能力,但這種計(jì)算方式導(dǎo)致最終分?jǐn)?shù)被OmniMath-Hard嚴(yán)重主導(dǎo)(占總分約66%)。
OmniMath-Hard不僅是K2-Think表現(xiàn)最好的基準(zhǔn),也恰恰是上文討論的、存在數(shù)據(jù)污染問(wèn)題的基準(zhǔn)。
獨(dú)立評(píng)估結(jié)果
為ETH為了驗(yàn)證分析,在自有的MathArena基準(zhǔn)上,對(duì)K2-Think與其他模型進(jìn)行了公平比較。
他們遵循了K2-Think的推薦超參數(shù)(temperature=1, p=0.95,輸出64,000個(gè)token)。
結(jié)果顯示,盡管K2-Think性能不錯(cuò),但其表現(xiàn)遠(yuǎn)未達(dá)到論文和媒體文章所聲稱的水平。
特別是,它未能與DeepSeek V3.1或GPT-OSS 120B相提并論——盡管其作者聲稱可以。
事實(shí)上,評(píng)估表明K2-Think的數(shù)學(xué)能力甚至不及規(guī)模更小的GPT-OSS 20B模型。
結(jié)論
總而言之,ETH的研究小組發(fā)現(xiàn)K2-Think模型在多個(gè)方面存在夸大陳述:
它在已經(jīng)用于訓(xùn)練的數(shù)據(jù)上進(jìn)行評(píng)估,依賴外部模型和額外采樣來(lái)夸大性能,并人為壓低競(jìng)品模型的分?jǐn)?shù),同時(shí)又通過(guò)重新加權(quán)來(lái)凸顯自己的分?jǐn)?shù),以制造性能持平乃至超越的假象。
這也反映了AI圈獨(dú)特的文化:針對(duì)不同的基準(zhǔn)測(cè)試,好像只要能拿到最高分就是好模型。
這催生出一種極端的信念:好模型就是benchmaxer。
甚至為了刷新「SOTA」,出現(xiàn)了類似「田忌賽馬」的測(cè)評(píng)策略。
開(kāi)源模型要拿好成績(jī),本是好事。然而,存在缺陷的評(píng)估和夸大其詞的宣傳對(duì)行業(yè)毫無(wú)益處。
參考資料:
https://x.com/ihteshamit/status/1966211223030202781
https://www.sri.inf.ethz.ch/blog/k2think
https://arxiv.org/pdf/2509.07604
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.