夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

月之暗面Kimi,最有活人感的AI公司

0
分享至


01

當(dāng)DeepSeek-R2持續(xù)跳票,GPT-5仍在難產(chǎn),Grok-4不及預(yù)期,最近Kimi-K2的發(fā)布一時(shí)間風(fēng)光無兩。

K2從DeepSeek手中,奪過了全球開源第一的寶座,硅谷的開源社區(qū)的AI開發(fā)者都在熱議Kimi-K2。英國《自然》雜志網(wǎng)站也發(fā)表文章稱,中國大模型Kimi-K2發(fā)布后引發(fā)轟動,世界迎來又一個(gè)“DeepSeek時(shí)刻”。

今天凌晨,Kimi發(fā)布了K2的技術(shù)報(bào)告,有趣的是,K2也在這87個(gè)署名作者名單里。意思很明顯,K2也參與創(chuàng)造了自己。Kimi算是第一家把AI寫進(jìn)作者名單里的大模型公司。


這種把AI當(dāng)成協(xié)作伙伴,且署名的操作方式,體現(xiàn)出Kimi內(nèi)部很強(qiáng)的“活人感”。

并非唯一例證。Kimi-K2發(fā)布前夜,工程師把它接入公司門口的電鋼琴上,演奏了一首卡農(nóng)。雖然有些磕磕絆絆,C大調(diào)和弦彈的也不完整,Kimi工程師chrysvlk在視頻號上寫道:“這算不算它的第一聲‘hello world’呢?”

工程師們浪漫起來,文科生都要自愧不如。對于Kimi這家極具搖滾性的大模型公司來說,做出這種事情并不讓人感到意外。

Kimi創(chuàng)始人楊植麟是個(gè)典型的文藝青年,以至于這家公司也透露著相同的文藝氣質(zhì)。月之暗面這個(gè)名字,就來自平克弗洛伊德最著名的專輯《The Dark Side of The Moon》,團(tuán)隊(duì)工程師們同樣是一群熱愛電臺司令、平克·弗洛伊德、昆汀和庫布里克的人。

如果讓這個(gè)團(tuán)隊(duì)去玩音樂、拍電影,似乎也毫不違和,“我加入的一個(gè)重要原因,就是覺得味道很對味?!痹轮得娴膱F(tuán)隊(duì)成員Crystal說。

Kimi的活人感,正體現(xiàn)在工程師們敢于公開說話。K2在鋼琴營造的浪漫主義氛圍中發(fā)布后,Kimi的工程師們還在知乎玩起了接龍,他們發(fā)表感想,甚至自爆公司內(nèi)部決策,解答網(wǎng)友對于技術(shù)方面的疑惑。

比如,年初DeepSeek-R1爆火后,曾經(jīng)作為明星大模型公司的Kimi,完全被DeepSeek搶占風(fēng)頭,外界對Kimi有很多不好的言論,認(rèn)為Kimi團(tuán)隊(duì)一定恨死DeepSeek。

Kimi成員Justin Wong卻坦率地說:“恰恰相反,不少Kimi的成員認(rèn)為這是好事,DeepSeek證明硬實(shí)力是最好的推廣,只要模型做的好,就能獲得市場認(rèn)可?!?/p>

相比其他六小龍以及AI大廠閉起門來搞技術(shù),Kimi讓工程師出來發(fā)言的操作很新鮮,能感受到他們是一群有激情、有溫度的人。

Justin Wong還說,在DeepSeek的沖擊下,Kimi團(tuán)隊(duì)的反思很激進(jìn),最激進(jìn)的是楊植麟,他直接決定不再更新K1系列模型,而是集中資源搞基礎(chǔ)算法和K2。

意圖很明顯,Kimi放棄短期產(chǎn)品迭代,轉(zhuǎn)向底層技術(shù)突破和下一代模型能力的躍進(jìn)上。

這種激進(jìn),正符合一群搖滾愛好者的作風(fēng)。不過以追求AGI為目標(biāo)的Kimi,激進(jìn)中又帶著務(wù)實(shí),他們沒有因?yàn)镈eepSeek火出圈而陷入內(nèi)耗,反而借助DeepSeek的開源,Kimi-K2的模型結(jié)構(gòu)完全繼承了DeepSeek-V3。

Kimi的工程師劉少偉說,在啟動K2訓(xùn)練之前,他們進(jìn)行了大量模型結(jié)構(gòu)相關(guān)的scaling實(shí)驗(yàn),結(jié)果是,所有當(dāng)時(shí)與DeepSeek-V3不同的結(jié)構(gòu),沒有一個(gè)能真正打敗它的。

“在已經(jīng)有muon優(yōu)化器和更大參數(shù)量兩個(gè)巨大變量的前提下,我們并不想引入沒有明確收益的額外變量來標(biāo)新立異?!币馑际?,若強(qiáng)行為了與DeepSeek不同,幾乎沒有一點(diǎn)優(yōu)勢。

經(jīng)過綜合考慮,Kimi最終選擇完全繼承DeepSeek-V3的結(jié)構(gòu),并調(diào)整適合他們的模型結(jié)構(gòu)參數(shù)。


這是一種妥協(xié)后的務(wù)實(shí),工程師們對此也很坦誠。Kimi另一位成員蘇劍林說,我們最終決定,K2還是先狠狠地致敬DeepSeek了,而不是刻意地標(biāo)新立異,更多的想法和創(chuàng)意,我們把它們做得更扎實(shí)后,在K3、K4再見了。

02

K2被討論最多的是其總參數(shù)和價(jià)格。K2采用稀疏激活的混合專家(MoE)架構(gòu),總參數(shù)量達(dá)1萬億,每次推理激活320億參數(shù)(約3.2%),在保持高性能的同時(shí)大幅降低算力成本。

但K2的核心亮點(diǎn)不是參數(shù),而是首次讓萬億模型在MuonClip優(yōu)化器下實(shí)現(xiàn)零訓(xùn)練崩潰。萬億參數(shù)在模型訓(xùn)練中存在穩(wěn)定性不足問題,K2采用QK-Clip與Muon優(yōu)化器(這兩項(xiàng)是大模型高參數(shù)訓(xùn)練中,提升效率和解決穩(wěn)定性的先進(jìn)技術(shù))結(jié)合的方法,幫助神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中更好地收斂,提升了模型的準(zhǔn)確性。

借助這種方法,K2解決了超大規(guī)模訓(xùn)練中的梯度爆炸問題,實(shí)現(xiàn)15.5萬億token的穩(wěn)定訓(xùn)練。在蘇劍林看來,QK-Clip給了他們很大啟發(fā),在面對一個(gè)類似的難題時(shí),應(yīng)該至少要問自己三個(gè)問題:

1.這個(gè)方法能保證解決這個(gè)問題嗎?(我們此前的一系列無效嘗試)

2.如果不能,有什么方法能保證解決這個(gè)問題嗎?(QK-Clip)

3.這是解決這個(gè)問題的最小改動的方法嗎?(Per-Head的QK-Clip)

蘇劍林認(rèn)為QK-Clip的思路,實(shí)際上是解決很多訓(xùn)練不穩(wěn)定問題的“抗生素”,它可以推廣成“哪里不穩(wěn)Clip哪里”,只要監(jiān)控指標(biāo)出現(xiàn)了異常,那么就可以考慮構(gòu)建類似的Clip。

Kimi成員Flood Sung,對K2的Agent能力更為興奮,他用“一生二,二生三,三生萬物”形容K2的Agent能力。

“我們先讓模型生成幾百個(gè)場景,比如外賣、微博、微信...然后基于場景生成幾千個(gè)tools,比如點(diǎn)個(gè)外賣,發(fā)送微博,查找聯(lián)系人,然后基于不同的tool組合生成幾百上千個(gè)不同的Agent(不同的sytem prompt+不同的tool set),接下來我們針對每一個(gè)不同的agent生成從簡單到復(fù)雜的具有得分點(diǎn)的任務(wù)……”

幾千個(gè)agent在虛擬世界里瘋狂交互,F(xiàn)lood Sung覺得這有點(diǎn)科幻,讓他聯(lián)想到《黑鏡》的劇情。

這次Kimi還給Scaling Law 正了身。劉少偉稱,他們還驗(yàn)證了在固定activate params(激活參數(shù))不變的前提下,單純增長 MOE總參數(shù)量,Scaling Law依然成立,且不論訓(xùn)練loss還是驗(yàn)證loss,結(jié)論始終保持,無需擔(dān)心增大總參數(shù)量會過擬合。

Scaling Law(規(guī)模定律)此前一直受到爭議,OpenAI前首席科學(xué)家 Ilya提出“預(yù)訓(xùn)練終結(jié)”論點(diǎn),認(rèn)為互聯(lián)網(wǎng)可用數(shù)據(jù)已接近枯竭,需轉(zhuǎn)向私域高精度數(shù)據(jù)或強(qiáng)化學(xué)習(xí)范式。

包括楊植麟此前也曾被認(rèn)為,在模型訓(xùn)練中過度相信Scaling Law。這次Kimi驗(yàn)證,借助Scaling Law依然能夠大力出奇跡。

K2在各項(xiàng)測試中成績都比較拔尖。在SWE Bench Verified(編程)、LiveCodeBench 等測試中,Kimi K2 以65.8% 和53.7% 的準(zhǔn)確率超越DeepSeek V3(46.9%)和GPT-4.1(44.7%),編程能力全球僅次于Claude 4 Sonnet。實(shí)際測試中,它能生成包含晝夜光影變化的3D HTML場景,并支持復(fù)雜代碼調(diào)試。


MATH-500、AIME 等數(shù)學(xué)競賽級測試,Kimi K2分別以97.4% 和69.6% 的成績領(lǐng)先GPT-4.1(92.4%),成為當(dāng)前數(shù)學(xué)推理能力最強(qiáng)的開源模型。

這些成績自然沒能讓Kimi像年初DeepSeek那般轟動,但在一定范圍內(nèi)確實(shí)產(chǎn)生較大影響。K2發(fā)布6天里,已在開源平臺HuggingFace上收獲10萬+下載,1400+點(diǎn)贊。

全球最大開源AI平臺Hugging Face聯(lián)合創(chuàng)始人托馬斯評價(jià)稱:“來自中國的Kimi團(tuán)隊(duì)在過去幾個(gè)月推出的系列模型令人印象深刻,K2更是挑戰(zhàn)了閉源模型的極限?!?/p>

03


Kimi近大半年像是坐上了過山車,地位起起伏伏。目前Kimi 正被市場追捧,但也不值得懈怠,畢竟大模型競逐賽依然很激烈。

一個(gè)很現(xiàn)實(shí)情況是,在當(dāng)前各家大模型你追我趕的情況下,基本上誰更新版本誰排名就能上升。可以說是,遍地SOTA王,短暫又輝煌。

這邊K2全球開源模型第一的位置還沒坐穩(wěn),昨夜阿里Qwen3又迎來升級。升級后的Qwen3在GQPA(知識)、AIME25(數(shù)學(xué))、LiveCodeBench(編程)、Arena-Hard(人類偏好對齊)、BFCL(Agent能力)等眾多測評中表現(xiàn)出色,超過Kimi-K2和DeepSeek-V3。

要知道,今年DeepSeek R2和GPT 5都還沒發(fā)布,下半年的大模型競賽將更加白熱化。

實(shí)際上Kimi K2的性能并沒有到達(dá)炸裂程度。一些網(wǎng)友反映,評測得分只是一方面,真實(shí)體驗(yàn)才是王道。

包括Kimi的工程師們也不是十分滿意,這一點(diǎn)從他們文章里能看出來。如劉少偉所說,K2發(fā)布前面臨的問題是,他們的“新結(jié)構(gòu)”還沒有經(jīng)歷過足夠大規(guī)模的驗(yàn)證。K2更像是他們下一代模型的一個(gè)過渡產(chǎn)品。

前文蘇劍林也說,K2先狠狠地致敬DeepSeek,更多的想法和創(chuàng)意,等做得更扎實(shí)后,會在K3、K4面世。言辭中多少透露著不甘和遺憾。

Justin Wong知道Kimi K2還有數(shù)不清的缺點(diǎn),所以和蘇劍林一樣,他說自己比任何時(shí)候都更想要K3。

Kimi團(tuán)隊(duì)的技術(shù)理想主義一直是追求AGI。Justin Wong認(rèn)為,2025 年智能的上限仍然完全由模型決定,“作為一家以AGI為目標(biāo)的公司,如果不去追求智能的上限,那我一天也不會多呆下去?!?/p>

他把AGI形容為極其險(xiǎn)峻的獨(dú)木橋,容不得一絲分心和猶豫,追求也許不會成功,但猶豫一定會失敗。他還提到2024年6月智源大會上,聽到李開復(fù)脫口而出地說:“我作為一個(gè)投資人,會關(guān)注AI應(yīng)用的RO!”當(dāng)時(shí)他就判斷,李開復(fù)的零一萬物活不長。

無論如何,Kimi團(tuán)隊(duì)搖滾式的反叛精神,以及認(rèn)真做模型的態(tài)度,都融入到了他們在個(gè)人社交賬號文章里。讓大家對Kimi團(tuán)隊(duì)多了一些具象的認(rèn)知。

從長期主義的角度來看,在這場大模型競賽中,公司文化氛圍更好的Kimi或許能走得更遠(yuǎn)。楊植麟曾說:“AI不是我在接下來一兩年找到什么PMF(產(chǎn)品市場匹配),而是接下來十到二十年如何改變世界?!?/p>

這位想要改變的世界的90后,眼下一切才剛剛開始。

作者 | 孫方

編輯 | 八尺

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
同事們抱團(tuán)排擠我,我主動申請調(diào)去倉庫,三個(gè)月后董事長親自來請我

同事們抱團(tuán)排擠我,我主動申請調(diào)去倉庫,三個(gè)月后董事長親自來請我

蕭竹輕語
2025-10-27 16:22:35
果然,幼兒園里是沒有秘密的,評論區(qū)硬是陪著我吃了一頓早飯

果然,幼兒園里是沒有秘密的,評論區(qū)硬是陪著我吃了一頓早飯

有趣的火烈鳥
2025-09-19 16:04:10
學(xué)醫(yī)后才明白,增強(qiáng)骨密度最好的運(yùn)動,不是散步游泳,而是這個(gè)

學(xué)醫(yī)后才明白,增強(qiáng)骨密度最好的運(yùn)動,不是散步游泳,而是這個(gè)

周哥一影視
2025-10-23 12:39:17
無戲可拍的黃秋生,為什么能讓成龍?jiān)诩议T口敗得這么慘?網(wǎng)友熱議

無戲可拍的黃秋生,為什么能讓成龍?jiān)诩议T口敗得這么慘?網(wǎng)友熱議

手工制作阿殲
2025-11-03 15:30:29
1981年,郭汝瑰問杜聿明:你明知我是共產(chǎn)黨,為什么不揭發(fā)我?

1981年,郭汝瑰問杜聿明:你明知我是共產(chǎn)黨,為什么不揭發(fā)我?

大國紀(jì)錄
2025-11-03 09:25:46
李連杰赤膊拍片辟謠“換零件”傳聞 直言人言可畏

李連杰赤膊拍片辟謠“換零件”傳聞 直言人言可畏

一池春水l
2025-11-03 14:45:25
清遠(yuǎn)水庫不少放生貓被淹死,放貓人小紅書賬號被扒

清遠(yuǎn)水庫不少放生貓被淹死,放貓人小紅書賬號被扒

映射生活的身影
2025-11-02 17:37:15
敢不敢爆一下自己的瓜?網(wǎng)友:運(yùn)動時(shí)喜歡聽男朋友和前女友的故事

敢不敢爆一下自己的瓜?網(wǎng)友:運(yùn)動時(shí)喜歡聽男朋友和前女友的故事

帶你感受人間冷暖
2025-10-21 00:15:03
僅得29分?東契奇:我和里夫斯之前發(fā)揮不錯,但這場都打得很糟

僅得29分?東契奇:我和里夫斯之前發(fā)揮不錯,但這場都打得很糟

懂球帝
2025-11-03 15:06:11
輕松一刻:我替我朋友問一下,你們的真實(shí)時(shí)間是多久?

輕松一刻:我替我朋友問一下,你們的真實(shí)時(shí)間是多久?

萊月昂
2025-10-16 19:41:54
僅下放1天,楊瀚森已被召回!3個(gè)細(xì)節(jié)說明一個(gè)事實(shí)球迷可以放心了

僅下放1天,楊瀚森已被召回!3個(gè)細(xì)節(jié)說明一個(gè)事實(shí)球迷可以放心了

鍋?zhàn)踊@球
2025-11-03 11:00:11
趙鴻剛無法代表通背拳,他本是跑酷選手,綁定傳武成網(wǎng)紅揚(yáng)名捷徑

趙鴻剛無法代表通背拳,他本是跑酷選手,綁定傳武成網(wǎng)紅揚(yáng)名捷徑

楊華評論
2025-11-02 21:39:57
汪東興提反對意見,鄧公起身質(zhì)問:為什么你每次開會都唱反調(diào)?

汪東興提反對意見,鄧公起身質(zhì)問:為什么你每次開會都唱反調(diào)?

瀚霖學(xué)史
2025-10-24 09:04:10
驗(yàn)貨成功!湖人撿漏23歲600萬神槍真香:轟25+8,化身東契奇絕配

驗(yàn)貨成功!湖人撿漏23歲600萬神槍真香:轟25+8,化身東契奇絕配

李喜林籃球絕殺
2025-11-03 14:44:10
烏襲俄輸油管:后勤重創(chuàng)與戰(zhàn)局升級

烏襲俄輸油管:后勤重創(chuàng)與戰(zhàn)局升級

小小小白看世界
2025-11-03 15:04:26
廈門女士存了1500萬,去取錢時(shí)被告知剩50元,警方的話讓女子懵了

廈門女士存了1500萬,去取錢時(shí)被告知剩50元,警方的話讓女子懵了

牛魔王與芭蕉扇
2025-03-31 15:49:22
交易截止日之前,幾位可能被交易的球員

交易截止日之前,幾位可能被交易的球員

籃球盛世
2025-11-03 11:45:10
山東最新人事任免!

山東最新人事任免!

山東教育
2025-11-03 12:16:50
中方奉陪到底!《慶州宣言》發(fā)布,刪掉四個(gè)字,高市早苗禍從口出

中方奉陪到底!《慶州宣言》發(fā)布,刪掉四個(gè)字,高市早苗禍從口出

觀星賞月
2025-11-03 14:57:15
突發(fā)!“尼米茲”號航母逼近黃巖島,055率隊(duì)大膽插入打成一團(tuán)!

突發(fā)!“尼米茲”號航母逼近黃巖島,055率隊(duì)大膽插入打成一團(tuán)!

起喜電影
2025-11-03 14:52:16
2025-11-03 16:19:00
白鯨實(shí)驗(yàn)室one incentive-icons
白鯨實(shí)驗(yàn)室one
AI向上,關(guān)注AI風(fēng)向
52文章數(shù) 10關(guān)注度
往期回顧 全部

科技要聞

余承東內(nèi)部信:鴻蒙下一步要實(shí)現(xiàn)上億覆蓋

頭條要聞

中紀(jì)委"三連發(fā)" 三"虎"同日被開除黨籍

頭條要聞

中紀(jì)委"三連發(fā)" 三"虎"同日被開除黨籍

體育要聞

開拓者官宣召回楊瀚森 隊(duì)記解析核心原因

娛樂要聞

錄音徹底揭露知名導(dǎo)演王家衛(wèi)的體面

財(cái)經(jīng)要聞

馬斯克:未來5-6年傳統(tǒng)手機(jī)與App將消失

汽車要聞

超跑同款磁流變減振 深藍(lán)L06包你開得爽

態(tài)度原創(chuàng)

時(shí)尚
房產(chǎn)
藝術(shù)
公開課
軍事航空

秋季穿衣別太老氣橫秋,看看這27套造型,時(shí)尚舒適又顯高

房產(chǎn)要聞

中糧(三亞)國貿(mào)中心ITC首期自貿(mào)港政策沙龍圓滿舉行

藝術(shù)要聞

90后跨國夫妻,到浙江山居:花20萬租20年,值了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美總統(tǒng)威脅對尼日利亞動武 尼方回應(yīng)

無障礙瀏覽 進(jìn)入關(guān)懷版 2020国产激情视频在线观看| 久久久久亚洲AV成人人电影按摩| 久久久久久免费毛片精品| 男同无码gv一区二区三免费| 久久精品成人免费观看| 日韩熟妇无码av| 西西国产精品无码免费播放| 在线色国产| 最新无码国产在线视频2021| 俄罗斯老熟妇性爽xxxx| 日韩熟女专区一区| 亚洲AV午夜福利精品| 亚洲色最新高清AV网站| 波多野结衣爆操57分钟| 欧美大片va欧美在线播放| 亚洲成在人线AV中文字幕喷水| 无码三级在线看中文字幕完整版| 一二三四在线视频社区3| 欧美性爱404| 久久久久99精品成人片| 国产 vedio| 我和亲妺妺乱的视频网站| 色综合久久中文字幕综合网| 少女频道在线观看高清| 欧美二区极品| 国产精品免费视频不卡| 国产精品白丝jk黑袜喷水视频| 亚洲变态另类天堂av手机版| 成人午夜天| 九九国内免费视频| 国产精品BBWW| 精品久久久久久蜜臂a∨| 欧洲金发美女大战黑人| 色一区色二区色三区| 日韩成人福利视频在线观看| 日韩一区普通话| 亚洲人成网线在线播放va蜜芽| 国产三级精品三级在线看| 扒开腿用力插免费视频| 美人妻被黑人XXXX猛交1| 亚洲制服中文字幕一区二区|