夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

K2證明忽視MoonShot將是巨大的錯(cuò)誤

0
分享至

這一輪的AI“六小虎”,仍有四家在場(chǎng)上,都渴望一場(chǎng)DeepSeek式的勝利。最近一家證明自己的是MoonShot(月之暗面),它同樣可以震驚一下硅谷。

周末,硅谷的開源社區(qū)、云廠商與AI開發(fā)者都在討論MoonShot最新開源大模型K2。它的總參數(shù)規(guī)模達(dá)到了萬(wàn)億級(jí)別(1T),是目前開源模型中最大的,激活參數(shù)320億。

盡管理論上Meta的Llama4-Behemoth更大,為2萬(wàn)億,但它是“期貨”,也許不會(huì)再發(fā)布了;而DeepSeek的V3則是6710億參數(shù)。OpenAI原本也有一款開源模型計(jì)劃發(fā)布,但恰好在K2發(fā)布后,奧特曼再次推遲了。也許將兩者聯(lián)系起來(lái)是牽強(qiáng)的。但是,K2再次證明中國(guó)正在成為中主導(dǎo)開放創(chuàng)新的關(guān)鍵力量,卻是不爭(zhēng)的事實(shí)。

K2的表現(xiàn)相當(dāng)出色,尤其是在智能體相關(guān)任務(wù)領(lǐng)域。它在基準(zhǔn)測(cè)試SWE Bench Verified(編程)、Tau2(智能體)中僅次于Claude 4 Opus,在AceBench(工具調(diào)用)中僅次于GPT-4.1。它也相當(dāng)便宜,官方API服務(wù)與DeepSeek的R1相當(dāng),但最大支持上下文長(zhǎng)度(128K)要高于R1(64K)。HuggingFace聯(lián)合創(chuàng)始人Thomas Wolf認(rèn)為,K2足以證明開源模型仍在繼續(xù)挑戰(zhàn)最新的閉源權(quán)重模型。


更直接且更有力的證據(jù)是,硅谷喜歡用它。發(fā)布后,它很快成為了HuggingFace上熱度(trending)第一的開源模型。目前,新興云廠商N(yùn)ovitaAI與Parasail已經(jīng)將其托管上線。Perplexity首席執(zhí)行官Aravind Srinivas在內(nèi)部測(cè)試后,也決定盡快對(duì)其展開后訓(xùn)練;上一款被Perplexity納入AI搜索的中國(guó)模型是DeepSeek的R1。

從V3/R1到M1再到K2,中國(guó)正在主導(dǎo)開源模型的技術(shù)趨勢(shì),而且它面向全球市場(chǎng),包括硅谷的AI開發(fā)者們。Grok4發(fā)布了,但馬斯克承諾的Grok3還未開源;OpenAI再次延期了它的開源模型;Meta的。遠(yuǎn)低于西方同行的低訓(xùn)練成本,讓DeepSeek震驚了整個(gè)硅谷;此后,MiniMax(稀宇科技)M1與MoonShot的K2,再次證明了中國(guó)初創(chuàng)企業(yè)高效的開源創(chuàng)新。

中國(guó)本土AI卷得厲害。MiniMax(稀宇科技)與MoonShot(月之暗面)看上去一直都有點(diǎn)相互“不對(duì)付”。自去年底DeepSeek激活了開源模型的競(jìng)爭(zhēng)后,年初,MiniMax開源了MiniMax-01,MoonShot發(fā)布了K1.5;上個(gè)月,MiniMaxM1與視頻生成模型Hailuo02,MoonShot則先后拿出了編程模型Kimi-Dev-72B、深度研究智能體Kimi-Researcher,以及昨晚的K2。

但它們效率更高。無(wú)論是DeepSeek還是MiniMax或者M(jìn)oonShot,它們的估值都遠(yuǎn)低于硅谷同行。其中,MoonShot已經(jīng)披露的融資總額,約為15億美元,不夠OpenAI燒2個(gè)月,只夠扎克伯格挖10來(lái)個(gè)人;xAI都有點(diǎn)熬不住,馬斯克不得不讓旗下另一家巨頭SpaceX向其注資20億美元。

這一次,K2震驚硅谷的后勁,或許將比R1來(lái)得更為猛烈。MoonShot比DeepSeek更早推動(dòng)“執(zhí)行”以更低的成本落地,沖擊的不僅是AI應(yīng)用的消費(fèi)市場(chǎng),還包括企業(yè)市場(chǎng)。由于兼容OpenAI和Anthropic的API格式,K2或?qū){借其更高性價(jià)比,贏得硅谷AI應(yīng)用開發(fā)者市場(chǎng)。

震驚硅谷的背后,是這一輪大模型浪潮中,中國(guó)AI初創(chuàng)企業(yè)普遍具備了底層創(chuàng)新能力。沒(méi)有這個(gè)能力的團(tuán)隊(duì),已經(jīng)陸續(xù)掉隊(duì)。

硅谷很多人都盼著K2的技術(shù)報(bào)告,看看MoonShot到底施放了什么魔法,讓一切變得如此高效。而且,它的參數(shù)規(guī)模如此龐大,預(yù)訓(xùn)練數(shù)據(jù)也達(dá)到了15.5萬(wàn)億token,理應(yīng)存在不少技術(shù)障礙。Meta就處理不好分塊注意力與專家選擇路由等MOE架構(gòu)的問(wèn)題。

硅谷的AI研究者注意到,相比R1,K2的架構(gòu)采用了更少的注意力頭,更多的專家。前者可以提高長(zhǎng)上下文效率,后者可以提升每個(gè)token的處理效率。這給MoonShot此前自研的MuonClip優(yōu)化器,帶來(lái)一點(diǎn)“擴(kuò)展”上的麻煩。后者是該團(tuán)隊(duì)年初提出的,它在收斂速度和最終效果上都有明顯的優(yōu)勢(shì),計(jì)算效率是當(dāng)前廣泛使用的AdamW優(yōu)化器的2倍。


但是MuonClip優(yōu)化器論文作者之一的蘇劍林,一開始也很清楚如果對(duì)優(yōu)化器“大動(dòng)干戈”并不容易。這次K2團(tuán)隊(duì)就遇到了MaxLogit爆炸問(wèn)題,即注意力得分有時(shí)會(huì)變得非常極端,造成梯度不穩(wěn)定,最終訓(xùn)練崩潰。小模型沒(méi)有這個(gè)問(wèn)題,傳統(tǒng)AdamW優(yōu)化器也沒(méi)有那么明顯。

為了配合改變,MoonShot在MuonClip優(yōu)化器中融入了自研的QK-Clip技術(shù)。蘇劍林將其類比為“抗生素”,也許并不是解決問(wèn)題最精妙的方法,但往往是解決問(wèn)題最直接有效的方法之一。

無(wú)論是MuonClip還是QK-Clip,都是MoonShot重視底層創(chuàng)新的產(chǎn)物之一。年初,當(dāng)DeepSeek用NSA(原生稀疏注意力)架構(gòu)挑戰(zhàn)傳統(tǒng)Transformer時(shí),同一天,MoonShot也提出了MoBA(混合塊注意力)架構(gòu)。此前,英偉達(dá)推出Dynamo,致敬了DeepSeek不少開源技術(shù),惹得Semianalysis感嘆道這本質(zhì)上是DeepSeek技術(shù)創(chuàng)新的民主化。事實(shí)上,當(dāng)時(shí)Dynamo也致敬了MoonShot開源的術(shù)MoonCake。

很長(zhǎng)一段時(shí)間,MoonShot的注意力被DeepSeek奪走了。后者至今似乎無(wú)意做應(yīng)用和產(chǎn)品,更具理想主義也更具話題性。MoonShot目前仍然存在明確的商業(yè)追求。同期的智譜與MiniMax已經(jīng)計(jì)劃上市,MoonShot還會(huì)遠(yuǎn)嗎?

多智能體協(xié)作,或許是它贏得商業(yè)市場(chǎng)的關(guān)鍵??梢员P點(diǎn)一下MoonShot的資產(chǎn):形式推理模式Kimina-Prover-72B(數(shù)理證明),編程模型Kimi-Dev-72B(開發(fā)工具),深度研究智能體Kimi-Researcher,多模態(tài)推理模型K1.5,視覺(jué)語(yǔ)言模型Kimi-VL。它們最終也許都會(huì)融入更擅長(zhǎng)調(diào)度工具的K2中。MoonShot在技術(shù)博客中介紹稱,K2的智能體能力,得益于大量的Agentic合成數(shù)據(jù)和通用的強(qiáng)化學(xué)習(xí)手段。

MoonShot與DeepSeek似乎還存在另一處不那么重要也不那么技術(shù)的相似點(diǎn)。它們的團(tuán)隊(duì)都相當(dāng)文藝。DeepSeek宣布下場(chǎng)追逐AGI時(shí),就引用了新浪潮電影人特呂弗(Truffaut)的話;R1的回答很多時(shí)候也文縐縐的。月之暗面的公司名,就來(lái)源于搖滾歌手平克·弗洛伊德(Pink Floyd)的專輯。這次,MoonShot顯然對(duì)K2相當(dāng)滿意,成員在X上活躍起來(lái),他們自稱團(tuán)隊(duì)是一群熱愛搖滾與電影人塔倫蒂諾(Tarantino)與庫(kù)布里克(Kubrick)的科學(xué)家相互吸引組成的,“它的氣味剛剛好?!?/p>

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女孩接退伍男友被全網(wǎng)勸分,連發(fā)3個(gè)視頻證明感情,誰(shuí)知漏洞更多

女孩接退伍男友被全網(wǎng)勸分,連發(fā)3個(gè)視頻證明感情,誰(shuí)知漏洞更多

小丸子的娛樂(lè)圈
2025-09-02 23:40:08
高調(diào)宣布打死哈馬斯高層 以媒卻曝內(nèi)部報(bào)告:失去全部國(guó)際信譽(yù)

高調(diào)宣布打死哈馬斯高層 以媒卻曝內(nèi)部報(bào)告:失去全部國(guó)際信譽(yù)

財(cái)聯(lián)社
2025-09-01 07:43:50
眼眶泛紅!C羅出席若塔追掉儀式,擁抱若塔父親+展示歐國(guó)聯(lián)獎(jiǎng)杯

眼眶泛紅!C羅出席若塔追掉儀式,擁抱若塔父親+展示歐國(guó)聯(lián)獎(jiǎng)杯

念洲
2025-09-03 06:46:39
“早晚刷牙”是錯(cuò)的?醫(yī)生叮囑:過(guò)了60歲,最好改掉4個(gè)刷牙習(xí)慣

“早晚刷牙”是錯(cuò)的?醫(yī)生叮囑:過(guò)了60歲,最好改掉4個(gè)刷牙習(xí)慣

荷蘭豆愛健康
2025-09-02 12:44:24
9月3日,中國(guó)大閱兵震驚了世界

9月3日,中國(guó)大閱兵震驚了世界

阿芒娛樂(lè)說(shuō)
2025-09-03 14:06:20
京東員工:為了孩子,天津300多萬(wàn)買房落戶。中考失敗,房子腰斬

京東員工:為了孩子,天津300多萬(wàn)買房落戶。中考失敗,房子腰斬

螞蟻大喇叭
2025-09-02 21:06:17
男籃賽事報(bào)道!賽事預(yù)告9月03日晚上19:30!CCTV5、CCTV5+節(jié)目表

男籃賽事報(bào)道!賽事預(yù)告9月03日晚上19:30!CCTV5、CCTV5+節(jié)目表

皮皮觀天下
2025-09-03 12:46:15
臺(tái)媒關(guān)注大陸九三閱兵:各式新型武器亮相

臺(tái)媒關(guān)注大陸九三閱兵:各式新型武器亮相

環(huán)球網(wǎng)資訊
2025-09-03 16:28:07
女性的臀部和胸部,為何會(huì)對(duì)男性產(chǎn)生強(qiáng)烈的“性吸引力”?

女性的臀部和胸部,為何會(huì)對(duì)男性產(chǎn)生強(qiáng)烈的“性吸引力”?

宇宙時(shí)空
2025-09-03 09:53:14
北京閱兵普京坐頭排,第二非常意外,西方多國(guó)缺席,全球格局重構(gòu)

北京閱兵普京坐頭排,第二非常意外,西方多國(guó)缺席,全球格局重構(gòu)

一個(gè)有靈魂的作者
2025-08-29 15:40:58
日本叫囂介入臺(tái)海?王強(qiáng):用東風(fēng)-26威懾就夠了

日本叫囂介入臺(tái)海?王強(qiáng):用東風(fēng)-26威懾就夠了

看看新聞Knews
2025-09-03 14:24:28
意難平,武漢第一餐飲巨頭,退出了歷史舞臺(tái)!

意難平,武漢第一餐飲巨頭,退出了歷史舞臺(tái)!

小蜜情感說(shuō)
2025-09-03 08:45:10
金正恩乘裝甲防彈列車來(lái)華,看似普通綠皮火車,內(nèi)部卻極為奢華

金正恩乘裝甲防彈列車來(lái)華,看似普通綠皮火車,內(nèi)部卻極為奢華

環(huán)球熱點(diǎn)快評(píng)
2025-09-02 14:09:14
開國(guó)五大書記標(biāo)準(zhǔn)照

開國(guó)五大書記標(biāo)準(zhǔn)照

天地
2025-05-02 16:30:11
悲催!網(wǎng)傳河南一建筑公司稱無(wú)事可做,全員放假發(fā)低保,開工無(wú)期

悲催!網(wǎng)傳河南一建筑公司稱無(wú)事可做,全員放假發(fā)低保,開工無(wú)期

火山詩(shī)話
2025-09-02 18:47:02
體壇榮耀:姚明陳夢(mèng)等參加9.3勝利日閱兵,此人入選缺乏說(shuō)服力

體壇榮耀:姚明陳夢(mèng)等參加9.3勝利日閱兵,此人入選缺乏說(shuō)服力

姜大叔侃球
2025-09-03 11:35:28
核戰(zhàn)爭(zhēng)一旦爆發(fā),中國(guó)有6個(gè)地方可以躲?老百姓必須要了解的常識(shí)

核戰(zhàn)爭(zhēng)一旦爆發(fā),中國(guó)有6個(gè)地方可以躲?老百姓必須要了解的常識(shí)

健康快樂(lè)丁
2025-07-07 21:52:51
創(chuàng)業(yè)板指漲幅擴(kuò)大至1.6%

創(chuàng)業(yè)板指漲幅擴(kuò)大至1.6%

證券時(shí)報(bào)
2025-09-03 10:51:36
淚目!劉銘瑤弟弟收到了“姐姐來(lái)自天堂的信....”

淚目!劉銘瑤弟弟收到了“姐姐來(lái)自天堂的信....”

恪守原則和底線
2025-09-03 05:15:03
女星自曝“房中秘事”,個(gè)個(gè)“少兒不宜”!

女星自曝“房中秘事”,個(gè)個(gè)“少兒不宜”!

文刀萬(wàn)
2025-09-03 06:05:03
2025-09-03 17:36:49
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
187文章數(shù) 41關(guān)注度
往期回顧 全部

科技要聞

谷歌搜索反壟斷案宣判:Chrome保住了

頭條要聞

普京:中國(guó)舉行的紀(jì)念活動(dòng)"很精彩、水平很高"

頭條要聞

普京:中國(guó)舉行的紀(jì)念活動(dòng)"很精彩、水平很高"

體育要聞

從山西到達(dá)拉斯,李月汝與她的籃球野心

娛樂(lè)要聞

劉尚嫻 最幸運(yùn)的事 就是嫁給初戀丈夫

財(cái)經(jīng)要聞

黃金新一波漲勢(shì)來(lái)了!這輪能下場(chǎng)嗎?

汽車要聞

一天一個(gè)樣 方程豹鈦3玩轉(zhuǎn)“面部重組”

態(tài)度原創(chuàng)

游戲
藝術(shù)
本地
家居
公開課

《空洞騎士:絲之歌》新截圖 PC版支持21:9超寬屏

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

換個(gè)城市過(guò)夏天 | “中式美學(xué)”打開夏日濰坊

家居要聞

與光同塵 居于自然空間

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 AV天堂资源在线| 亚洲午夜成人一区不卡在线网站| 国产熟女无套白浆中出视频 | 日韩午夜福利视频在线观看| 亚洲国产精品无码久久九老少| 爱爱免费无码视频| 精品人妻伦一二三区久久aaa片| 在线无码va中文字幕无码| 中文字幕无码乱码人妻系水牛| 中文字幕人妻在线中字| 玩成熟老熟女视频| 日韩免费人妻无码一区二区三区免费| 亚洲一区久久蜜臀av| 俺去了www| 国产99久久九九精品无码| 园产伦精一区二区三区| 中国丰满大乳乳液| 91亚洲国产成人aⅴ毛片大全| 久久精品中文字幕一区| 成人久久免费网站| 国产真实夫妇交换视频| 一 级做人爱全视频在线看| 国产黄网站在线观看| 国产97人人超碰caoprom三级| 蜜桃成人导航| 精品人妻无码一二三区| 无遮挡十八禁污污网站免费| av片在线观看永久免费| 亚洲国产av无码精品色午夜| 国产乱人无码伦AV在线A| 国产激情久久久久影院小草| 天堂资源在线| 免费观看美女裸体网站| 中国XXXX性XXXXX高清视频| 国A级无码毛片视频免费| 国产亚洲精品福利在线无卡一| 人人操人人爱人人射| 亚洲国产精品无码久久98 | 午夜成年人在线免费| 国产无套乱子伦精彩是白视频 | 国产96色在线 | 国|