趕在WAIC結(jié)束后,搶在OpenAI發(fā)布GPT-5前,北京的智譜開源了新一代大模型GLM-4.5。僅在今年7月更新的開源模型,至少還包括了K2、Qwen3-2507系列、Qwen3-Coder、Wan2.2、Step-3,霸占了榜單的整個(gè)頭部。這是中國(guó)與美國(guó)在AI領(lǐng)域的前沿競(jìng)爭(zhēng),也是北京、上海與杭州自己的三城演義。
美國(guó)發(fā)布AI之后,緊接著中國(guó)舉辦了一屆規(guī)模空前的WAIC,展示中國(guó)將加快向全世界部署開源AI。而美國(guó)越來越忌憚中國(guó)的開源技術(shù)棧,無論是白宮的開源AI策略、OpenAI推遲發(fā)布的開源模型,還是Meta斥巨資打造超級(jí)AI夢(mèng)之隊(duì)后給Llama帶來的懸念,在開源領(lǐng)域,美國(guó)遭遇的可能是又一個(gè)電動(dòng)車的故事,至少榜單已經(jīng)開始雷同了。
DeepSeek啟動(dòng)了中國(guó)開源模型的飛輪效應(yīng),引也發(fā)了一波又一波的價(jià)格戰(zhàn)。開源模型就像是另一個(gè)在產(chǎn)業(yè)政策推動(dòng)下處于“飛輪與內(nèi)卷”中的行業(yè)。它們?cè)谌驙?zhēng)奪各種性能測(cè)試榜單最后那些百分點(diǎn),展示各自的城市的雄心。
開源之都,繼續(xù)開源
杭州最先舉起了開源的大旗,從互聯(lián)網(wǎng)之城向AI。前陣子黃仁勛在他,將它稱為“中國(guó)的硅谷”,下次一定要去看看。
自年中開源Qwen3以來,阿里巴巴已經(jīng)陸續(xù)更新了統(tǒng)一多模態(tài)理解與生成模型Qwen VLo、編碼模型Qwen3-Coder,以及升級(jí)版的基礎(chǔ)模型Qwen3-2507系列,最近又發(fā)布了全球首個(gè)開源MoE視頻生成模型。此外,阿里巴巴還悄悄分享了中文方言的合成模型Qwen-TTS與支持92種語言的互譯模型Qwen-MT。不少都集中在。
其中,Qwen3-Coder的旗艦?zāi)P停阅茏阋詫?duì)標(biāo)Claude Sonnet-4。它的總參數(shù)高達(dá)4800億,每次激活350億參數(shù),最大的創(chuàng)新之一,在于具備智能體功能,一條命令接管整個(gè)代碼倉(cāng)庫(kù),實(shí)現(xiàn)“在世界中自主編程”。但它的平均價(jià)格只是Claude 4的1/3。如果還嫌貴,可以自己部署。Perplexity首席執(zhí)行官Aravind Srinivas直呼“開源正在取勝”,HuggingFace首席執(zhí)行官Clement Delangue更是在X上刷屏推薦。
Wan2.2則首次將MOE架構(gòu)引入了視頻生成。以往,視頻生成消耗遠(yuǎn)高于文本與圖像的token,采用MOE架構(gòu),可以使模型在推理成本幾乎不變的前提下,提升總參數(shù)規(guī)模。它其實(shí)是一個(gè)雙專家設(shè)計(jì)。Wan2.2先是將任務(wù)交給多個(gè)高噪專家構(gòu)建主體結(jié)構(gòu),然后再由低噪專家補(bǔ)充細(xì)節(jié)。阿里團(tuán)隊(duì)還在訓(xùn)練中引入了電影工業(yè)標(biāo)準(zhǔn)的美學(xué)數(shù)據(jù),包括光影、鏡頭與色彩。
開源不僅意味著技術(shù)創(chuàng)新,也意味著產(chǎn)品策略更切近社區(qū)。與不少模型廠商將“快思考”與“慢思考”整合到一起不同,這次阿里在更新基礎(chǔ)模型Qwen3-2507時(shí),仍然區(qū)分了非思考版的Instruct與推理版的Thinking。這是基于“與社區(qū)溝通和深思熟慮”后的決策。
目前,盡管外面吵得火熱,DeepSeek仍然保持平靜,只是在兒童節(jié)前悄悄丟了一個(gè)更新版的R1-0528,讓人會(huì)更具“雄心”與“真誠(chéng)”。DeepSeek領(lǐng)先的MOE、GRPO等技術(shù),已經(jīng)被對(duì)手超越;這個(gè)世界上唯一在前沿競(jìng)爭(zhēng)卻又不在乎商業(yè)化的AI實(shí)驗(yàn)室,也許有足夠的定力,在GPT-5發(fā)布之后再度出手。
上海與北京緊跟
上海與北京加入開源的三城演義,是被DeepSeek逼出來的。從AI分析機(jī)構(gòu)Artificial Analysis的前沿模型智能趨勢(shì)就能發(fā)現(xiàn),無論是上海的MiniMax,還是北京的月之暗面或智譜,首個(gè)納入統(tǒng)計(jì)的模型都出現(xiàn)在2025年后。尤其是北京的兩家,更是首次亮相。好在,它們正在迅速追齊。
上海的MiniMax與北京的月之暗面,一直都是市場(chǎng)“拱火”對(duì)象。去年,媒體攢局讓兩家的投資者坐在一起,盡訴分歧。結(jié)果,自去年底DeepSeek激活了開源模型的競(jìng)爭(zhēng)后,兩家初創(chuàng)企業(yè)至少在開源路線上達(dá)成了一致,迅速卷了起來。年初,MiniMax開源了MiniMax-01,月之暗面發(fā)布了K1.5;最近,MiniMax,拿出了長(zhǎng)上下文推理大模型M1,月之暗面則拿出了的K2。
競(jìng)爭(zhēng)太過激烈,月之暗面先開源了K2,上周才發(fā)布它的技術(shù)報(bào)告。除了之前已經(jīng)披露過的更少的注意力頭,更多的專家的MOE架構(gòu)創(chuàng)新,以及與之配合的自研MuonClip優(yōu)化器與QK-Clip技術(shù),報(bào)告還揭示了更多訓(xùn)練細(xì)節(jié)。為了解決高質(zhì)量數(shù)據(jù)不足的問題,提升每token有效學(xué)習(xí)信號(hào),K2在訓(xùn)練中采用了重述法(rephrasing),把原始文本改寫成不同的表達(dá)方式,讓大模型多學(xué)幾遍,同時(shí)又不至于過擬合,效果高出同一內(nèi)容重復(fù)相同遍數(shù)約5個(gè)百分點(diǎn)。重述是自動(dòng)化流水線(pipeline)的。
K2還引入了自我批評(píng)獎(jiǎng)勵(lì)機(jī)制,增強(qiáng)了對(duì)復(fù)雜、難以直接驗(yàn)證任務(wù)的處理能力,相當(dāng)于擴(kuò)展了,這也是擴(kuò)展AGI能力邊界的關(guān)鍵。
在WAIC前夜,上海的階躍星辰則拿出了旗艦基礎(chǔ)模型Step 3。這個(gè)3210億總參數(shù)規(guī)模,每次激活380億參數(shù)的模型,在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)突出,階躍星辰稱之為“最強(qiáng)開源多模態(tài)推理模型”。作為推理模型,它具備視覺能力。多模態(tài)也正是階躍星辰最擅長(zhǎng)的,CEO姜大昕稱,多模態(tài)領(lǐng)域也開始向強(qiáng)化學(xué)習(xí)過渡。這款模型將在7月31日正式開源,接受開發(fā)者在真實(shí)應(yīng)用場(chǎng)景中的試用與評(píng)價(jià)。
為開發(fā)Step 3,該團(tuán)隊(duì)采用了AFD技術(shù),也就是讓注意力(Attention)模塊與前饋神經(jīng)網(wǎng)絡(luò)(FFN)解耦為專門的子系統(tǒng),更好地適應(yīng)不同的硬件配置和性能需求,優(yōu)化解碼效率。在知乎上,該團(tuán)隊(duì)員工Yibo Zhu進(jìn)一步解釋稱,DeepSeek之前提出的DeepEP(適用專家并行的數(shù)據(jù)庫(kù))方案,本質(zhì)上就是AFD的特例;對(duì)于國(guó)產(chǎn)芯片設(shè)計(jì)來說,AFD技術(shù)也降低對(duì)單個(gè)芯片的高性能的過度依賴。
在WAIC結(jié)束后,智譜也加入了進(jìn)來,開源了旗艦混合推理模型GLM-4.5與GLM-4.5-Air,以及這兩個(gè)模型的基礎(chǔ)模型(Base)與向量化版本(FP8),均采用MIT開源許可證發(fā)布,可用于商業(yè)用途和二次開發(fā)。GLM-4.5擁有3550億總參數(shù)量,其中320億活躍參數(shù);GLM-4.5-Air更輕巧些,擁有 1060億總參數(shù)量,其中120億活躍參數(shù)??梢哉f是用更小的參數(shù)規(guī)模實(shí)現(xiàn)了相當(dāng)水平的智能水平。除了比主流大模型更便宜,它的生成速度最快可至100tokens/s,超越了其他模型。此外,與Qwen3-Coder或K2類似,GLM-4.5也是一款智能體友好的模型;這是一大趨勢(shì)。
三城演義與地緣競(jìng)爭(zhēng)
阿里巴巴選擇開源,無論是在技術(shù)路徑上還是商業(yè)模式上,都與它云巨頭的身份相契合。阿里云創(chuàng)始人王堅(jiān)認(rèn)為,與其他大多數(shù)生意都是“從商業(yè)出發(fā)”,用技術(shù)來支持商業(yè)不同,云計(jì)算必須是“先有技術(shù)”,而且也不是所有技術(shù)都能成為生意。AI何嘗不是如此,電力、算力最終轉(zhuǎn)化成token,模型要先有智能才能被應(yīng)用所調(diào)用。
在面對(duì)黃仁勛時(shí),王堅(jiān)承認(rèn)“開源模型正在改變我們的業(yè)務(wù)”。開源的生態(tài),最終服務(wù)于阿里云,與通義大模型適配到一起,也對(duì)齊了阿里“讓天下沒有難做的生意”的使命。在互聯(lián)網(wǎng)時(shí)代,免費(fèi)就是平臺(tái)經(jīng)濟(jì)的一種放大規(guī)模效應(yīng)的競(jìng)爭(zhēng)策略,在AI時(shí)代這一套同樣有效,Qwen系列模型的累計(jì)下載量已超4億次,衍生模型超14萬,位居全球排名第一。
而對(duì)于DeepSeek這個(gè)獨(dú)特的本土團(tuán)隊(duì)而言,開源不僅僅是商業(yè)策略,更是一種文化,吸引頂尖人才,逐步成為全球硬核創(chuàng)新貢獻(xiàn)者。DeepSeek證明了通往AGI的路將是由本土華人與硅谷華人趟出來的。
不過,北京仍然具備顯著的人才優(yōu)勢(shì)。黃仁勛說全世界一半的AI人才是華人,中國(guó)一半的頂尖AI人才應(yīng)該在北京。Meta狂挖硅谷華人,幾乎都是中國(guó)本科畢業(yè)的,再細(xì)節(jié)探究它新近曝光的,就可以發(fā)現(xiàn)清華貢獻(xiàn)了最多的AI研究人才,北大同樣貢獻(xiàn)巨大。事實(shí)上,年初,DeepSeek橫空出世的時(shí)候,胡佛研究所(Hoover Institution)的,就發(fā)現(xiàn)它的人才也離不開這兩所高校。
這些頂尖人才也可以通過北京的開源模型廠商證明自己的價(jià)值。在發(fā)布K2后,月之暗面員工自述稱,開源意味著更高的技術(shù)標(biāo)準(zhǔn),會(huì)倒逼自己做出更好的模型,與 AGI 的目標(biāo)更一致;唯一的遺憾就是,這條路不是自己率先走通的。相比投放流量,“硬實(shí)力就是最好的推廣”。這一點(diǎn),對(duì)于開源模型,對(duì)于AI人才而言,都同樣有效。
上海正在奮起直追。從史上最大規(guī)模WAIC上,“東道主”的階躍星辰與MiniMax動(dòng)靜就可以見一斑。MiniMax創(chuàng)始人閆俊杰在WAIC上的主旨演講,被主辦方恰好排在了之后。后者也是這屆WAIC最大亮點(diǎn)之一。此前,Minimax五連發(fā),終于讓一心想做“模都”的上海,終于出了個(gè)能打上國(guó)際榜單的大模型。今年3月,上海將規(guī)劃中的智算規(guī)模,從去年底“算力浦江”規(guī)劃到2025年底的30EFLOPS,提升到2027年底的200EFLOPS,短短兩年,足足增長(zhǎng)6倍。
在開源路線上,深圳也重視起來了。最近,騰訊在WAIC上開源了混元3D世界模型1.0,并披露了包括端側(cè)混合推理語言模型、多模態(tài)理解模型、游戲視覺模型等在內(nèi)的一系列開源計(jì)劃。
在中國(guó),開源也在擁抱產(chǎn)業(yè)政策。在這一屆WAIC上,《人工智能全球治理行動(dòng)計(jì)劃》提議打造跨國(guó)開源社區(qū)和安全、可靠開源平臺(tái),算是中國(guó)對(duì)美國(guó)《AI行動(dòng)計(jì)劃》的官方回應(yīng)。智能將是出海的“新新三樣”。新加坡數(shù)碼發(fā)展及新聞部(MDDI)部長(zhǎng)楊莉明就歡迎DeepSeek之類高性價(jià)比開源模型,幫忙覆蓋東南亞數(shù)百種語言的市場(chǎng)需求。此外,中國(guó)的行動(dòng)計(jì)劃還提出要“公共部門率先部署應(yīng)用”。這些城市的公共部門,一定會(huì)更加帶頭卷起來的。
創(chuàng)投機(jī)構(gòu)Benchmark的Bill Gurley看到了這一點(diǎn)。他認(rèn)為中國(guó)開放AI模型所產(chǎn)生的組合效應(yīng)非常強(qiáng)大,模型之間都可以互相改進(jìn),新模型的推出也更容易。這種既開放又競(jìng)爭(zhēng)的生態(tài),創(chuàng)新力特別強(qiáng)勁,將輕松超越任何一家專有模型。底下,一位AI創(chuàng)業(yè)者評(píng)論稱,任何“和它在一起”的國(guó)家,都會(huì)認(rèn)識(shí)到這是軟實(shí)力的新杠桿。這也是美國(guó)擔(dān)心的。與特朗普關(guān)系越來越密切的奧特曼,就在6月底一份關(guān)于中國(guó)AI的研究中點(diǎn)名了智譜。
有創(chuàng)新的卷,要好過沒有創(chuàng)新的。在卷的過程中暴露的問題,最終也將在應(yīng)用落地時(shí)得以淘汰、迭代與進(jìn)化。王堅(jiān)非常喜歡“群體心智”(collective mind)這個(gè)概念。在他看來,AI是一場(chǎng)馬拉松,今天的領(lǐng)先更像是進(jìn)入下一階段的一個(gè)“過程”而已。但是,“集體”推動(dòng)可以實(shí)現(xiàn)非常快速的迭代,這也是中國(guó)AI“人才紅利”的意義所在。
這輪你跑得快,下一輪可能換另一個(gè)人跑得快;節(jié)奏可能會(huì)慢下來,但只要你夠好,你就還能追上來……這不是殘酷,這是健康。因?yàn)槟愫妥钣懈?jìng)爭(zhēng)力的人在一起工作,這正是新技術(shù)誕生的方式。
事實(shí)上也是如此。這一個(gè)月來,全球最強(qiáng)開源模型的稱號(hào),已經(jīng)迅速在R1-0528、K2、Qwen3-2507與GLM-4.5不斷流轉(zhuǎn)?,F(xiàn)在的懸念是,在OpenAI發(fā)布GPT-5后,它會(huì)專注于拿出一個(gè)開源模型,從中國(guó)企業(yè)頭上搶走桂冠嗎?
但也許更重要的,是中國(guó)在開源的基礎(chǔ)上建立起技術(shù)棧,在token經(jīng)濟(jì)上足以與美國(guó)的閉源前沿模型競(jìng)爭(zhēng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.