這一輪的AI“六小虎”,仍有四家在場(chǎng)上,都渴望一場(chǎng)DeepSeek式的勝利。最近一家證明自己的是MoonShot(月之暗面),它同樣可以震驚一下硅谷。
周末,硅谷的開源社區(qū)、云廠商與AI開發(fā)者都在討論MoonShot最新開源大模型K2。它的總參數(shù)規(guī)模達(dá)到了萬(wàn)億級(jí)別(1T),是目前開源模型中最大的,激活參數(shù)320億。
盡管理論上Meta的Llama4-Behemoth更大,為2萬(wàn)億,但它是“期貨”,也許不會(huì)再發(fā)布了;而DeepSeek的V3則是6710億參數(shù)。OpenAI原本也有一款開源模型計(jì)劃發(fā)布,但恰好在K2發(fā)布后,奧特曼再次推遲了。也許將兩者聯(lián)系起來(lái)是牽強(qiáng)的。但是,K2再次證明中國(guó)正在成為中主導(dǎo)開放創(chuàng)新的關(guān)鍵力量,卻是不爭(zhēng)的事實(shí)。
K2的表現(xiàn)相當(dāng)出色,尤其是在智能體相關(guān)任務(wù)領(lǐng)域。它在基準(zhǔn)測(cè)試SWE Bench Verified(編程)、Tau2(智能體)中僅次于Claude 4 Opus,在AceBench(工具調(diào)用)中僅次于GPT-4.1。它也相當(dāng)便宜,官方API服務(wù)與DeepSeek的R1相當(dāng),但最大支持上下文長(zhǎng)度(128K)要高于R1(64K)。HuggingFace聯(lián)合創(chuàng)始人Thomas Wolf認(rèn)為,K2足以證明開源模型仍在繼續(xù)挑戰(zhàn)最新的閉源權(quán)重模型。
更直接且更有力的證據(jù)是,硅谷喜歡用它。發(fā)布后,它很快成為了HuggingFace上熱度(trending)第一的開源模型。目前,新興云廠商N(yùn)ovitaAI與Parasail已經(jīng)將其托管上線。Perplexity首席執(zhí)行官Aravind Srinivas在內(nèi)部測(cè)試后,也決定盡快對(duì)其展開后訓(xùn)練;上一款被Perplexity納入AI搜索的中國(guó)模型是DeepSeek的R1。
從V3/R1到M1再到K2,中國(guó)正在主導(dǎo)開源模型的技術(shù)趨勢(shì),而且它面向全球市場(chǎng),包括硅谷的AI開發(fā)者們。Grok4發(fā)布了,但馬斯克承諾的Grok3還未開源;OpenAI再次延期了它的開源模型;Meta的。遠(yuǎn)低于西方同行的低訓(xùn)練成本,讓DeepSeek震驚了整個(gè)硅谷;此后,MiniMax(稀宇科技)M1與MoonShot的K2,再次證明了中國(guó)初創(chuàng)企業(yè)高效的開源創(chuàng)新。
中國(guó)本土AI卷得厲害。MiniMax(稀宇科技)與MoonShot(月之暗面)看上去一直都有點(diǎn)相互“不對(duì)付”。自去年底DeepSeek激活了開源模型的競(jìng)爭(zhēng)后,年初,MiniMax開源了MiniMax-01,MoonShot發(fā)布了K1.5;上個(gè)月,MiniMaxM1與視頻生成模型Hailuo02,MoonShot則先后拿出了編程模型Kimi-Dev-72B、深度研究智能體Kimi-Researcher,以及昨晚的K2。
但它們效率更高。無(wú)論是DeepSeek還是MiniMax或者M(jìn)oonShot,它們的估值都遠(yuǎn)低于硅谷同行。其中,MoonShot已經(jīng)披露的融資總額,約為15億美元,不夠OpenAI燒2個(gè)月,只夠扎克伯格挖10來(lái)個(gè)人;xAI都有點(diǎn)熬不住,馬斯克不得不讓旗下另一家巨頭SpaceX向其注資20億美元。
這一次,K2震驚硅谷的后勁,或許將比R1來(lái)得更為猛烈。MoonShot比DeepSeek更早推動(dòng)“執(zhí)行”以更低的成本落地,沖擊的不僅是AI應(yīng)用的消費(fèi)市場(chǎng),還包括企業(yè)市場(chǎng)。由于兼容OpenAI和Anthropic的API格式,K2或?qū){借其更高性價(jià)比,贏得硅谷AI應(yīng)用開發(fā)者市場(chǎng)。
震驚硅谷的背后,是這一輪大模型浪潮中,中國(guó)AI初創(chuàng)企業(yè)普遍具備了底層創(chuàng)新能力。沒(méi)有這個(gè)能力的團(tuán)隊(duì),已經(jīng)陸續(xù)掉隊(duì)。
硅谷很多人都盼著K2的技術(shù)報(bào)告,看看MoonShot到底施放了什么魔法,讓一切變得如此高效。而且,它的參數(shù)規(guī)模如此龐大,預(yù)訓(xùn)練數(shù)據(jù)也達(dá)到了15.5萬(wàn)億token,理應(yīng)存在不少技術(shù)障礙。Meta就處理不好分塊注意力與專家選擇路由等MOE架構(gòu)的問(wèn)題。
硅谷的AI研究者注意到,相比R1,K2的架構(gòu)采用了更少的注意力頭,更多的專家。前者可以提高長(zhǎng)上下文效率,后者可以提升每個(gè)token的處理效率。這給MoonShot此前自研的MuonClip優(yōu)化器,帶來(lái)一點(diǎn)“擴(kuò)展”上的麻煩。后者是該團(tuán)隊(duì)年初提出的,它在收斂速度和最終效果上都有明顯的優(yōu)勢(shì),計(jì)算效率是當(dāng)前廣泛使用的AdamW優(yōu)化器的2倍。
但是MuonClip優(yōu)化器論文作者之一的蘇劍林,一開始也很清楚如果對(duì)優(yōu)化器“大動(dòng)干戈”并不容易。這次K2團(tuán)隊(duì)就遇到了MaxLogit爆炸問(wèn)題,即注意力得分有時(shí)會(huì)變得非常極端,造成梯度不穩(wěn)定,最終訓(xùn)練崩潰。小模型沒(méi)有這個(gè)問(wèn)題,傳統(tǒng)AdamW優(yōu)化器也沒(méi)有那么明顯。
為了配合改變,MoonShot在MuonClip優(yōu)化器中融入了自研的QK-Clip技術(shù)。蘇劍林將其類比為“抗生素”,也許并不是解決問(wèn)題最精妙的方法,但往往是解決問(wèn)題最直接有效的方法之一。
無(wú)論是MuonClip還是QK-Clip,都是MoonShot重視底層創(chuàng)新的產(chǎn)物之一。年初,當(dāng)DeepSeek用NSA(原生稀疏注意力)架構(gòu)挑戰(zhàn)傳統(tǒng)Transformer時(shí),同一天,MoonShot也提出了MoBA(混合塊注意力)架構(gòu)。此前,英偉達(dá)推出Dynamo,致敬了DeepSeek不少開源技術(shù),惹得Semianalysis感嘆道這本質(zhì)上是DeepSeek技術(shù)創(chuàng)新的民主化。事實(shí)上,當(dāng)時(shí)Dynamo也致敬了MoonShot開源的術(shù)MoonCake。
很長(zhǎng)一段時(shí)間,MoonShot的注意力被DeepSeek奪走了。后者至今似乎無(wú)意做應(yīng)用和產(chǎn)品,更具理想主義也更具話題性。MoonShot目前仍然存在明確的商業(yè)追求。同期的智譜與MiniMax已經(jīng)計(jì)劃上市,MoonShot還會(huì)遠(yuǎn)嗎?
多智能體協(xié)作,或許是它贏得商業(yè)市場(chǎng)的關(guān)鍵??梢员P點(diǎn)一下MoonShot的資產(chǎn):形式推理模式Kimina-Prover-72B(數(shù)理證明),編程模型Kimi-Dev-72B(開發(fā)工具),深度研究智能體Kimi-Researcher,多模態(tài)推理模型K1.5,視覺(jué)語(yǔ)言模型Kimi-VL。它們最終也許都會(huì)融入更擅長(zhǎng)調(diào)度工具的K2中。MoonShot在技術(shù)博客中介紹稱,K2的智能體能力,得益于大量的Agentic合成數(shù)據(jù)和通用的強(qiáng)化學(xué)習(xí)手段。
MoonShot與DeepSeek似乎還存在另一處不那么重要也不那么技術(shù)的相似點(diǎn)。它們的團(tuán)隊(duì)都相當(dāng)文藝。DeepSeek宣布下場(chǎng)追逐AGI時(shí),就引用了新浪潮電影人特呂弗(Truffaut)的話;R1的回答很多時(shí)候也文縐縐的。月之暗面的公司名,就來(lái)源于搖滾歌手平克·弗洛伊德(Pink Floyd)的專輯。這次,MoonShot顯然對(duì)K2相當(dāng)滿意,成員在X上活躍起來(lái),他們自稱團(tuán)隊(duì)是一群熱愛搖滾與電影人塔倫蒂諾(Tarantino)與庫(kù)布里克(Kubrick)的科學(xué)家相互吸引組成的,“它的氣味剛剛好?!?/p>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.