夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

反轉(zhuǎn)!LeCun剛轉(zhuǎn)發(fā)「全球最快開(kāi)源推理模型」,ETH蘇黎世就直接打假

0
分享至


新智元報(bào)道

編輯:KingHZ

【新智元導(dǎo)讀】上周,福布斯、Wired等爭(zhēng)相報(bào)道「全球最快開(kāi)源推理模型」K2-Think,,甚至圖靈獎(jiǎng)得主Yann LeCun轉(zhuǎn)發(fā)推文。但僅三天后,ETH五位研究員的博客如晴天霹靂:87數(shù)學(xué)評(píng)估題竟藏在訓(xùn)練集中!這不僅僅是技術(shù)突破,更是行業(yè)誠(chéng)信的警鐘。

全球最快開(kāi)源AI推理模型!

這個(gè)標(biāo)簽為K2?Think帶來(lái)轟動(dòng)效果:福布斯、VentureBeat、Wired、CNBC等媒體爭(zhēng)先報(bào)道,甚至圖靈獎(jiǎng)得主轉(zhuǎn)發(fā)相關(guān)推文介紹!

然而,蘇黎世聯(lián)邦理工學(xué)院計(jì)算機(jī)科學(xué)系SRI實(shí)驗(yàn)室的研究者,卻潑了一盆冷水:

雖然K2-Think不錯(cuò),但報(bào)告的性能被夸大了。

32B參數(shù)比肩o3 high?

上周,MBZUAI與G42等開(kāi)源了一款號(hào)稱是「全球最快的開(kāi)源AI推理模型」——K2-Think。


當(dāng)?shù)孛襟w報(bào)道:K2-Think證明提升效率,不必犧牲模型性能

在數(shù)學(xué)能力上,只有32B參數(shù)的K2-Think,甚至能比肩OpenAI此前的旗艦——o3 high。

堪稱是對(duì)Scaling Law的顛覆。


論文中,作者把六個(gè)沒(méi)人費(fèi)心整合過(guò)的技術(shù)訣竅組合到了一起:

長(zhǎng)思維鏈微調(diào)、具有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)、推理前的Agentic規(guī)劃、測(cè)試時(shí)擴(kuò)展、投機(jī)解碼和優(yōu)化推理的硬件。

其中的「先計(jì)劃再思考」的架構(gòu)不僅讓模型變得更聰明,還實(shí)實(shí)在在地把token消耗降低了12%。

數(shù)據(jù)方面,據(jù)稱僅使用開(kāi)源數(shù)據(jù)集,無(wú)專有訓(xùn)練數(shù)據(jù)、無(wú)封閉API。

速度方面,它能在Cerebras上跑到每秒2000個(gè)token。而大部分推理模型,每秒只有200個(gè)token。復(fù)雜的證明,過(guò)去要等3分鐘,現(xiàn)在只要18秒,這就是差距。

基準(zhǔn)跑分更是逆天。

在AIME 2024測(cè)試中,它得分率高達(dá)90.83%,要知道,大多數(shù)前沿模型連85%的門檻都過(guò)不了。

在復(fù)雜的數(shù)學(xué)競(jìng)賽中,它拿下了了67.99%的分?jǐn)?shù)——一舉擊敗了那些參數(shù)量超過(guò)1000億的模型,如GPT-OSS 120B 和DeepSeek V3.1。


過(guò)去,大家都認(rèn)為「模型越大越好」;這一下就徹底終結(jié)了這種論調(diào)。此前被OpenAI獨(dú)占的推理能力,現(xiàn)在小型實(shí)驗(yàn)室也能部署了。

現(xiàn)在所有人都在驚嘆它的速度記錄。但真正的核心是:在推理層面,他們把參數(shù)效率這個(gè)難題給攻克了。

效果如此出色,不僅在網(wǎng)上引發(fā)了廣泛關(guān)注,還有多家新聞媒體對(duì)此進(jìn)行了報(bào)道,包括福布斯、VentureBeat、Wired、CNBC等。


甚至,連Yann LeCun都親自下場(chǎng),轉(zhuǎn)發(fā)了一條介紹這篇論文的推文。



然而,3天后,9月12日,故事迎來(lái)了逆轉(zhuǎn)!

逆轉(zhuǎn):ETH發(fā)文遭「打假」

然而,就在論文發(fā)布后的第3天,5位來(lái)自ETH蘇黎世的研究員就出來(lái)「打假」了。


博客地址:https://www.sri.inf.ethz.ch/blog/k2think

根據(jù)分析,他們列出了4個(gè)關(guān)鍵問(wèn)題:

  • 數(shù)據(jù)污染

  • 以三打一

  • 只比舊模型

  • 平均分替代最高分

具體問(wèn)題,請(qǐng)往下看;ETH的獨(dú)立測(cè)評(píng)和結(jié)論在文末。

數(shù)據(jù)污染,評(píng)估無(wú)效

數(shù)學(xué)能力評(píng)估方面,K2-Think所使用的監(jiān)督式微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)數(shù)據(jù)集中,均包含DeepScaleR數(shù)據(jù)集,而后者又包含了Omni-Math的題目。

由于K2-Think又使用Omni-Math來(lái)評(píng)估其性能,評(píng)測(cè)與訓(xùn)練集可能存在重疊——這表明存在數(shù)據(jù)污染。

通過(guò)近似字符串匹配,研究人員確認(rèn)了這一點(diǎn):

K2-Think用于評(píng)估的173個(gè)Omni-Math題目,至少有87個(gè)也出現(xiàn)在其訓(xùn)練數(shù)據(jù)里。

另?yè)?jù)稱,RL數(shù)據(jù)集Guru的創(chuàng)建者與論文作者重合度高,而K2-Think又使用了Guru進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。

代碼基準(zhǔn)LiveCodeBench評(píng)估中,也發(fā)現(xiàn)了類似問(wèn)題。

評(píng)估中K2-Think所用樣本的約22%,出現(xiàn)在其SFT數(shù)據(jù)集中。

雖然SFT數(shù)據(jù)集的原作者(AM-Team)執(zhí)行了去污染步驟,移除了2024年10月之后的問(wèn)題。

但K2-Think的LiveCodeBench評(píng)估,卻使用了自2024年7月以來(lái)的所有問(wèn)題,導(dǎo)致其中22%的問(wèn)題是模型在訓(xùn)練階段就已經(jīng)見(jiàn)過(guò)的。

這直接導(dǎo)致其在數(shù)學(xué)和代碼方面的評(píng)估結(jié)果大打折扣。

不公平比較:采用「Best-of-N」和外部模型

該論文的主要結(jié)果表報(bào)告的是,K2-Think在「3選1」(Best-of-3)策略下的性能。這是一種眾所周知的提升模型表現(xiàn)的技巧。

而所有其他模型均采用「單次生成」(best-of-1)進(jìn)行評(píng)估,這讓它們處于極為不利的位置。

更甚的是,「3選1」的判斷是由一個(gè)未指明的「外部模型」完成的,該模型的規(guī)??赡苁侨我獾摹?/p>

同樣是這個(gè)外部模型,還為K2-Think提供了詳細(xì)的解題計(jì)劃。

作者將這整套流程定義為「K2-Think」,而32B模型本身只是其中一個(gè)組件。但原論文卻聲明「K2-Think僅依賴一個(gè)32B小模型」。


如論文所示,將這套流程與沒(méi)有采用該流程的其他模型進(jìn)行比較,是無(wú)效的。

這套流程本就可以輕松應(yīng)用于其他模型,并同樣能提升其得分。

在沒(méi)有外部輔助的情況下,K2-Think的性能不如Nemotron 32B——

后者是一個(gè)同等規(guī)模的模型,于今年7月發(fā)布,基于Qwen2.5 32B并采用類似方法訓(xùn)練。


表1:K2-Think(無(wú)外部輔助)、Nemotron 32B(兩者均為Qwen2.5 32B的微調(diào)版本)以及Qwen3 30B的性能對(duì)比。Qwen3(*)的結(jié)果取自其模型頁(yè)面。所有其他結(jié)果均取自K2-Think的論文

歪曲其他模型的結(jié)果

該報(bào)告未能公正地評(píng)估其他模型。最明顯的是,它在運(yùn)行GPT-OSS時(shí)僅使用了「中等」推理強(qiáng)度,而非為推理基準(zhǔn)推薦的「高」推理強(qiáng)度設(shè)置。

此外,K2-Think對(duì)許多競(jìng)品模型使用了過(guò)時(shí)的版本。

例如,盡管他們?cè)u(píng)估了8月份發(fā)布的GPT-OSS,但論文中評(píng)估的Qwen3模型似乎并非7月份發(fā)布的最新版本。具體來(lái)說(shuō),在Qwen3和K2-Think論文都涵蓋的三個(gè)基準(zhǔn)測(cè)試(AIME 2025、HMMT 2025、GPQA-Diamond)上,K2-Think給出的Qwen3分?jǐn)?shù)似乎與舊版本相符,比7月新版本報(bào)告的結(jié)果低了15-20%之多。

下表比較Qwen3官方報(bào)告的分?jǐn)?shù)與K2-Think論文中給出的分?jǐn)?shù)。

可以看到,K2-Think歸于Qwen3-30B的分?jǐn)?shù)遠(yuǎn)低于預(yù)期,即便是對(duì)比7月發(fā)布前的舊版本也同樣如此。


表2:在AIME 2025、HMMT 2025和GPQA-Diamond 3準(zhǔn)上,Qwen3技術(shù)報(bào)告/模型頁(yè)面、MathArena基準(zhǔn)與K2-Think論文報(bào)告的分?jǐn)?shù)對(duì)比

為得分高的數(shù)學(xué)基準(zhǔn)賦予更高權(quán)重

最后,K2-Think使用「微觀平均值」(micro average)來(lái)計(jì)算其總體數(shù)學(xué)評(píng)分。

這意味著它根據(jù)四個(gè)基準(zhǔn)(AIME24、AIME25、HMMT、OmniMath-Hard)各自包含的任務(wù)數(shù)量來(lái)加權(quán),而非對(duì)各基準(zhǔn)分?jǐn)?shù)進(jìn)行等權(quán)重平均。


總體「微觀平均值」:基本上是將所有測(cè)試集中的正確答案總數(shù)除以問(wèn)題總數(shù)

雖然聲稱此舉是為了量化模型的整體數(shù)學(xué)能力,但這種計(jì)算方式導(dǎo)致最終分?jǐn)?shù)被OmniMath-Hard嚴(yán)重主導(dǎo)(占總分約66%)。

OmniMath-Hard不僅是K2-Think表現(xiàn)最好的基準(zhǔn),也恰恰是上文討論的、存在數(shù)據(jù)污染問(wèn)題的基準(zhǔn)。

獨(dú)立評(píng)估結(jié)果

為ETH為了驗(yàn)證分析,在自有的MathArena基準(zhǔn)上,對(duì)K2-Think與其他模型進(jìn)行了公平比較。

他們遵循了K2-Think的推薦超參數(shù)(temperature=1, p=0.95,輸出64,000個(gè)token)。

結(jié)果顯示,盡管K2-Think性能不錯(cuò),但其表現(xiàn)遠(yuǎn)未達(dá)到論文和媒體文章所聲稱的水平。

特別是,它未能與DeepSeek V3.1或GPT-OSS 120B相提并論——盡管其作者聲稱可以。

事實(shí)上,評(píng)估表明K2-Think的數(shù)學(xué)能力甚至不及規(guī)模更小的GPT-OSS 20B模型。


結(jié)論

總而言之,ETH的研究小組發(fā)現(xiàn)K2-Think模型在多個(gè)方面存在夸大陳述:

它在已經(jīng)用于訓(xùn)練的數(shù)據(jù)上進(jìn)行評(píng)估,依賴外部模型和額外采樣來(lái)夸大性能,并人為壓低競(jìng)品模型的分?jǐn)?shù),同時(shí)又通過(guò)重新加權(quán)來(lái)凸顯自己的分?jǐn)?shù),以制造性能持平乃至超越的假象。

這也反映了AI圈獨(dú)特的文化:針對(duì)不同的基準(zhǔn)測(cè)試,好像只要能拿到最高分就是好模型。

這催生出一種極端的信念:好模型就是benchmaxer。

甚至為了刷新「SOTA」,出現(xiàn)了類似「田忌賽馬」的測(cè)評(píng)策略。

開(kāi)源模型要拿好成績(jī),本是好事。然而,存在缺陷的評(píng)估和夸大其詞的宣傳對(duì)行業(yè)毫無(wú)益處。

參考資料:

https://x.com/ihteshamit/status/1966211223030202781

https://www.sri.inf.ethz.ch/blog/k2think

https://arxiv.org/pdf/2509.07604

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我勸你別太尊重孩子!把兒子“養(yǎng)廢”后才懂:最愚蠢的教育,就是不敢讓躺平孩子“吃苦”

我勸你別太尊重孩子!把兒子“養(yǎng)廢”后才懂:最愚蠢的教育,就是不敢讓躺平孩子“吃苦”

青春期父母成長(zhǎng)學(xué)堂
2025-09-21 06:08:15
廣東江門市累計(jì)報(bào)告1714例基孔肯雅熱病例

廣東江門市累計(jì)報(bào)告1714例基孔肯雅熱病例

界面新聞
2025-09-20 20:27:08
今日直播中國(guó)羽毛球大師賽:國(guó)羽沖擊三項(xiàng)冠軍,翁泓陽(yáng)PK林俊易

今日直播中國(guó)羽毛球大師賽:國(guó)羽沖擊三項(xiàng)冠軍,翁泓陽(yáng)PK林俊易

薇說(shuō)體育
2025-09-21 10:55:31
臺(tái)島強(qiáng)扣3條大陸漁船,1公噸漁獲全拋,性質(zhì)惡劣,解放軍反制來(lái)了

臺(tái)島強(qiáng)扣3條大陸漁船,1公噸漁獲全拋,性質(zhì)惡劣,解放軍反制來(lái)了

boss外傳
2025-09-20 09:25:04
蘇超倒數(shù)第二輪戰(zhàn)罷,4隊(duì)被淘汰,最后1個(gè)淘汰名額5選1,很燒腦

蘇超倒數(shù)第二輪戰(zhàn)罷,4隊(duì)被淘汰,最后1個(gè)淘汰名額5選1,很燒腦

第一體育
2025-09-20 22:12:26
2025年重慶主城學(xué)位緊張學(xué)校盤點(diǎn)

2025年重慶主城學(xué)位緊張學(xué)校盤點(diǎn)

戶外阿毽
2025-09-20 16:23:50
特朗普扔出H-1B“炸彈”:企業(yè)急攔員工出境,返美機(jī)票價(jià)格大漲

特朗普扔出H-1B“炸彈”:企業(yè)急攔員工出境,返美機(jī)票價(jià)格大漲

第一財(cái)經(jīng)資訊
2025-09-20 14:05:13
【國(guó)之利器巡禮】航空工業(yè)集團(tuán)專家:殲-20能像針一樣穿透防御網(wǎng)

【國(guó)之利器巡禮】航空工業(yè)集團(tuán)專家:殲-20能像針一樣穿透防御網(wǎng)

環(huán)球網(wǎng)資訊
2025-09-20 16:01:17
沈陽(yáng)太二酸菜魚被曝已全部閉店,客服:屬實(shí),最近一家閉店時(shí)間是9月1日

沈陽(yáng)太二酸菜魚被曝已全部閉店,客服:屬實(shí),最近一家閉店時(shí)間是9月1日

極目新聞
2025-09-16 14:37:26
深圳灣1350米全覆蓋式風(fēng)雨連廊亮了,深圳+香港人出行將更“絲滑”!

深圳灣1350米全覆蓋式風(fēng)雨連廊亮了,深圳+香港人出行將更“絲滑”!

深圳夢(mèng)
2025-09-20 23:04:10
預(yù)計(jì)最強(qiáng)可達(dá)17級(jí)!“樺加沙”已加強(qiáng)為超強(qiáng)臺(tái)風(fēng)級(jí)!最新路徑→

預(yù)計(jì)最強(qiáng)可達(dá)17級(jí)!“樺加沙”已加強(qiáng)為超強(qiáng)臺(tái)風(fēng)級(jí)!最新路徑→

東南西北侃
2025-09-21 10:23:33
不是迷信!明日八月初一,記得:1不走、2不喝、3不坐、4不凍!

不是迷信!明日八月初一,記得:1不走、2不喝、3不坐、4不凍!

刺頭體育
2025-09-21 08:52:53
韓國(guó)釜山電影節(jié),梁家輝想牽手韓國(guó)名星韓孝周被拒!場(chǎng)面一度尷尬

韓國(guó)釜山電影節(jié),梁家輝想牽手韓國(guó)名星韓孝周被拒!場(chǎng)面一度尷尬

心靜物娛
2025-09-19 14:52:31
一塌糊涂切爾西4連客:遭蜜蜂絕平,被拜仁壓制,戰(zhàn)曼聯(lián)投降

一塌糊涂切爾西4連客:遭蜜蜂絕平,被拜仁壓制,戰(zhàn)曼聯(lián)投降

直播吧
2025-09-21 10:45:28
弗蘭克:我覺(jué)得在最后階段,場(chǎng)上真正想要打進(jìn)第三球的是我們

弗蘭克:我覺(jué)得在最后階段,場(chǎng)上真正想要打進(jìn)第三球的是我們

雷速體育
2025-09-21 02:41:16
汗從哪出,病就從哪來(lái)!5 個(gè)部位出汗,對(duì)應(yīng)不同臟腑問(wèn)題,調(diào)理方法收好

汗從哪出,病就從哪來(lái)!5 個(gè)部位出汗,對(duì)應(yīng)不同臟腑問(wèn)題,調(diào)理方法收好

神奇故事
2025-09-18 22:59:06
汪小菲深夜抵臺(tái),11歲小玥兒守候至凌晨,現(xiàn)岳母默默帶娃,S家全程沉默!

汪小菲深夜抵臺(tái),11歲小玥兒守候至凌晨,現(xiàn)岳母默默帶娃,S家全程沉默!

科學(xué)發(fā)掘
2025-09-21 03:30:51
德國(guó)創(chuàng)業(yè),被合伙人背叛后,我是如何翻身

德國(guó)創(chuàng)業(yè),被合伙人背叛后,我是如何翻身

真實(shí)人物采訪
2025-09-20 06:10:06
要么交出稀土,要么付出代價(jià),中美剛下談判桌,中方又收到通牒

要么交出稀土,要么付出代價(jià),中美剛下談判桌,中方又收到通牒

吃貨的分享
2025-09-21 10:17:30
山西兩地宣傳部長(zhǎng)調(diào)整

山西兩地宣傳部長(zhǎng)調(diào)整

創(chuàng)作者_(dá)IE2295
2025-09-21 08:55:45
2025-09-21 11:40:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13484文章數(shù) 66163關(guān)注度
往期回顧 全部

科技要聞

蔚來(lái)全新ES8正式上市:售價(jià)40.68萬(wàn)元起

頭條要聞

男子涉刑案被撤銷后申請(qǐng)國(guó)賠 派出所所長(zhǎng)個(gè)人轉(zhuǎn)2.3萬(wàn)

頭條要聞

男子涉刑案被撤銷后申請(qǐng)國(guó)賠 派出所所長(zhǎng)個(gè)人轉(zhuǎn)2.3萬(wàn)

體育要聞

利物浦1.36億新援尷尬?0射1黃+7場(chǎng)仍0球

娛樂(lè)要聞

干啥都拿獎(jiǎng)!85號(hào)賽車手王一博拿下季軍

財(cái)經(jīng)要聞

OpenAI想殺入蘋果“腹地”

汽車要聞

全系華為+寧德時(shí)代 阿維塔07 26款售21.99萬(wàn)元起

態(tài)度原創(chuàng)

親子
本地
時(shí)尚
數(shù)碼
公開(kāi)課

親子要聞

誰(shuí)家的功夫熊貓?浙BA開(kāi)場(chǎng)驚現(xiàn)萌娃武團(tuán)

本地新聞

大學(xué)生軍訓(xùn)哪家強(qiáng),廣西申請(qǐng)“出戰(zhàn)”!

今年秋天最流行的4件衛(wèi)衣,減齡又時(shí)髦!

數(shù)碼要聞

1438元起,華為WATCH GT 6智能手表國(guó)行版預(yù)售

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 亚洲少妇性爱视频| 九九国产精品| 成人免费毛片内射美女app| 性满足bbwbbwbbw| 国产午夜成人无码免费看| 久久人人爽视频| 久久亚洲精品综合国产仙踪林| 午夜视频在线瓜伦| 国产成人综合色就色综合| 午夜无码区在线观看| 麻豆国产va免费精品高清在线| 成人性生交大片免费看r| 中文精品一卡2卡3卡4卡| 老熟女高潮一区二区三区啪啪| 99成人在线视频| 国产亚洲精品电影网站在线观看| 国产精品人成网站| Chinese 老女人视频| 亚洲色偷偷av| 午夜毛片不卡高清免费看| 亚洲日韩va无码中文字幕| 欧美成aⅴ人高清怡红院| 精品国产乱码久久久久久影片| 欧洲国产在线精品三区| 亚欧人成色777777网站 | 在线免费高清一区| 无码精品人妻| 九九热这里有国产| 性人久久久久| 精品国产一卡在线| 制服 丝袜 人妻 专区一本| 无码人妻AⅤ一区二区三区用会员| 亚洲AV色一区二区三区蜜桃| 亚洲AV无码AV在线播放黑人| 中文字幕无码久久精品| 又大又粗弄得我出好多水| 人人操人人操人人爽| 无码免费婬av片在线观看| 18禁无码永久免费无限制网站| 色九月亚洲综合网| 日韩 欧美 日本狠狠干|