夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

當(dāng)我們談?wù)揇eepSeek時(shí),是在談?wù)撌裁?/h1>
0
分享至



(圖片來(lái)源:pixabay)



連日來(lái),隨著DeepSeek持續(xù)霸榜熱搜,其創(chuàng)始人梁文峰的許多觀點(diǎn)也熱傳于網(wǎng)絡(luò)。

"中國(guó)AI和美國(guó)有一兩年差距,但真實(shí)的gap是原創(chuàng)和模仿之差"“過(guò)去三十多年IT浪潮里,我們基本沒有參與到真正的技術(shù)創(chuàng)新里” "經(jīng)驗(yàn)包袱太重的人,創(chuàng)新動(dòng)力不足”……他的話語(yǔ)樸實(shí)且坦誠(chéng),道理講得很白,卻給人耳目一新之感。這一點(diǎn),與大家在使用DeepSeek時(shí)的感受是相當(dāng)一致的。

在國(guó)內(nèi)輿論場(chǎng)中,梁文峰本人與DeepSeek是深度捆綁的,有人稱他是人工智能上甘嶺的“黃繼光”,有人說(shuō)他是中國(guó)的“馬斯克”,但在筆者看來(lái),更重要的或許在于做好DeepSeek與梁文峰思維的解碼,換言之,大家應(yīng)當(dāng)更加清楚地知道,當(dāng)我們?cè)谡務(wù)揇eepSeek時(shí),到底在談?wù)撌裁?,或者說(shuō)應(yīng)該談?wù)撌裁础?/p>

其一:突圍,山重水復(fù)疑無(wú)路

ChatGPT問(wèn)世以來(lái),全球AI競(jìng)賽正式進(jìn)入“大力出奇跡”時(shí)代。巨參數(shù)、大數(shù)據(jù)、強(qiáng)算力成為大模型研發(fā)的基礎(chǔ),規(guī)模法則(scaling law)被認(rèn)為是智能“涌現(xiàn)”的核心:OpenAI的GPT-4參數(shù)規(guī)模突破1.8萬(wàn)億,訓(xùn)練數(shù)據(jù)集包含13萬(wàn)億token;微軟、谷歌等一眾科技巨頭均斥巨資囤積算力。而在規(guī)模法則的另一面,全球高質(zhì)量文本數(shù)據(jù)迅速枯竭;單次訓(xùn)練成本逐漸失控;美國(guó)對(duì)芯片采取針對(duì)性出口管制,以維護(hù)其算力霸權(quán)及AI技術(shù)優(yōu)勢(shì)。

當(dāng)美國(guó)科技大廠已投入巨資,構(gòu)建起了一套由他們制定的行業(yè)標(biāo)準(zhǔn)、生存法則時(shí),當(dāng)很多人潛意識(shí)中已默許,AI領(lǐng)域未來(lái)發(fā)展的話語(yǔ)權(quán)、主導(dǎo)權(quán)和控制權(quán)正牢牢掌握在西方手中時(shí),來(lái)自中國(guó)的DeepSeek卻突然闖了進(jìn)來(lái)。

其用架構(gòu)算法、訓(xùn)練方式、工程優(yōu)化等系統(tǒng)性創(chuàng)新,在千億參數(shù)規(guī)模下展現(xiàn)出與GPT-o1-1217相當(dāng)?shù)耐评砟芰?,以顯著降低的訓(xùn)練成本,走出一條震驚世界的差異化技術(shù)路徑,實(shí)現(xiàn)國(guó)產(chǎn)大模型的突圍。

正如有論者指出,DeepSeek讓許多人認(rèn)識(shí)到一個(gè)一直存在但被忽視的重要趨勢(shì),那就是中國(guó)在生成式AI領(lǐng)域正在快速追趕美國(guó)。要知道,拜登政府2022年實(shí)施并在此后多次收緊禁止向中國(guó)出售最先進(jìn)芯片及芯片制造設(shè)備的禁令,目的就是限制中國(guó)獲取尖端技術(shù)。DeepSeek團(tuán)隊(duì)正是在美國(guó)AI芯片禁運(yùn)的壓力下,不得不在較低性能的H800 GPU上訓(xùn)練模型。但正是這樣的“降維”,反而推動(dòng)了算法優(yōu)化的突破。

其二:創(chuàng)新,東風(fēng)夜放花千樹

DeepSeek的成功,挑戰(zhàn)了AI領(lǐng)域“規(guī)模至上”的傳統(tǒng)思維。那么從技術(shù)角度看,DeepSeek主要?jiǎng)?chuàng)造了哪些核心創(chuàng)新?

首先是模型架構(gòu)?;旌蠈<夷P停∕oE)通過(guò)將模型分成多個(gè)專家,并在每個(gè)特定任務(wù)中只激活少量合適的專家,從而在推理過(guò)程中減少參數(shù)量,提升效率。據(jù)透露,GPT-4便采用了MoE框架,而DeepSeek-V3對(duì)MoE框架進(jìn)行了重要?jiǎng)?chuàng)新,新框架包含細(xì)粒度多數(shù)量的專業(yè)專家和更通用的共享專家。

就MoE框架而言,其面臨的一個(gè)重要難題是如何確定哪個(gè)標(biāo)記(token)會(huì)到達(dá)哪個(gè)專家或子模塊。DeepSeek引入了新的無(wú)損負(fù)載均衡技術(shù)和路由網(wǎng)絡(luò)方法,有效降低了通信開銷,突破了傳統(tǒng)方法增加通信開銷換取高效推理的瓶頸,使得新框架更加穩(wěn)定高效。

其次是算法突破。多頭潛在注意力機(jī)制(Multi-Head Latent Attention,MLA)是DeepSeek最關(guān)鍵的技術(shù)突破,它顯著降低了模型推理成本。在過(guò)去,推理能力最大的限制之一即為加載上下文所需的內(nèi)存: KV緩存是Transformer中的一種內(nèi)存機(jī)制,它將每一步生成的鍵(Key)和值(Value)保存到緩存中,隨著上下文長(zhǎng)度的增加,KV緩存顯著增加。而MLA可將每個(gè)查詢所需的KV緩存降低90%以上。

第三是訓(xùn)練方式。DeepSeek-R1-Zero首次證明了基于大規(guī)模強(qiáng)化學(xué)習(xí)(RL)與高質(zhì)量合成數(shù)據(jù)(Synthetic Data)結(jié)合的技術(shù)路徑,可在不依賴標(biāo)注數(shù)據(jù)、監(jiān)督微調(diào)(SFT)的情況下,獲得高水平推理能力。在R1-Zero訓(xùn)練中,DeepSeek應(yīng)用組相對(duì)優(yōu)化策略(GRPO)和兩個(gè)簡(jiǎn)單的獎(jiǎng)勵(lì)函數(shù)(回答準(zhǔn)確性和思維過(guò)程格式準(zhǔn)確性獎(jiǎng)勵(lì)),使得R1-Zero自發(fā)形成了評(píng)估和優(yōu)化推理的能力,產(chǎn)生令人驚嘆的“頓悟時(shí)刻”(Aha Moment)。

DeepSeek-R1則是在R1-Zero基礎(chǔ)上,進(jìn)一步利用少量標(biāo)注數(shù)據(jù)監(jiān)督微調(diào)作為冷啟動(dòng),并結(jié)合強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練,顯著提升了模型生成結(jié)果的可讀性及面向開放問(wèn)題的推理能力。此外,DeepSeek也驗(yàn)證了模型蒸餾技術(shù)在推理能力上的有效性。

第四是數(shù)據(jù)策略。DeepSeek采用高質(zhì)量合成數(shù)據(jù)的數(shù)據(jù)策略與其訓(xùn)練方式、推理任務(wù)相匹配,極大降低了數(shù)據(jù)成本。“數(shù)據(jù)質(zhì)量?jī)?yōu)先”的核心原則也已逐漸成為領(lǐng)域共識(shí):比數(shù)據(jù)規(guī)模更重要的是數(shù)據(jù)質(zhì)量與知識(shí)密度,相應(yīng)地,DeepSeek采取了拒絕采樣(rejection sampling)等基于驗(yàn)證的數(shù)據(jù)篩選與增強(qiáng)方法。

最后是工程技術(shù)。除了在架構(gòu)、算法、技術(shù)路徑等方面形成“軟突破”,成功降低訓(xùn)練成本,提升模型效率,DeepSeek團(tuán)隊(duì)強(qiáng)大的工程優(yōu)化能力也同樣令人驚嘆。DeepSeek繞過(guò)了英偉達(dá)的通用編程框架CUDA,使用了更底層也更復(fù)雜的PTX(Parallel Thread Execution)匯編語(yǔ)言直接操控GPU指令集,從而實(shí)現(xiàn)芯片算力的效用最大化。這一“硬突破”也一定程度上威脅到英偉達(dá)生態(tài)的護(hù)城河,為未來(lái)適配國(guó)產(chǎn)GPU留下巨大的想象空間。

其三:未來(lái),長(zhǎng)風(fēng)破浪會(huì)有時(shí)

DeepSeek的橫空出世讓人們重新反思大模型、AGI領(lǐng)域暴力美學(xué)式的思維慣性,也重新關(guān)注算法、架構(gòu)、優(yōu)化等技術(shù)創(chuàng)新的巨大潛力。更重要的是,DeepSeek-R1還可以免費(fèi)使用,而且是開源的。低成本與開放性的強(qiáng)強(qiáng)聯(lián)合可能有助于普及AI技術(shù),讓其他國(guó)家(尤其是美國(guó)以外)的開發(fā)者能夠入局。當(dāng)美國(guó)公司在為試圖進(jìn)入該領(lǐng)域的競(jìng)爭(zhēng)對(duì)手設(shè)置盡可能多的障礙時(shí),中國(guó)卻在開放這項(xiàng)技術(shù),這確實(shí)是一種諷刺。

曾幾何時(shí),硅谷將AI技術(shù)塑造為一個(gè)珍貴且神奇的成就,將埃隆·馬斯克、薩姆·奧爾特曼等領(lǐng)軍人物描繪成引領(lǐng)人類進(jìn)入新世界的先知。而DeepSeek撕掉了此前籠罩在AI之上的神秘面紗。

它專注創(chuàng)新,在人工智能全球競(jìng)爭(zhēng)白熱化的關(guān)鍵時(shí)期形成突破,為中國(guó)的智能生態(tài)構(gòu)建奠定關(guān)鍵基礎(chǔ);它擁抱開源,拒絕“Close AI”,為全世界技術(shù)社區(qū)做出堅(jiān)實(shí)貢獻(xiàn)。當(dāng)我們贊嘆DeepSeek產(chǎn)品的巨大成功,也應(yīng)當(dāng)關(guān)注其團(tuán)隊(duì)的系統(tǒng)性創(chuàng)新能力,這既包含多方面的技術(shù)突破,也包括如何聚合“高密度技術(shù)人才”、如何為年輕團(tuán)隊(duì)提供高效的創(chuàng)新土壤。

最后,也要指出DeepSeek的關(guān)鍵破局點(diǎn),是在保持推理能力相當(dāng)?shù)那闆r下,實(shí)現(xiàn)了訓(xùn)練及計(jì)算成本的極大降低。而從數(shù)學(xué)原理上說(shuō),并未跳出大模型浪潮范疇,這也意味著,DeepSeek也無(wú)法解決這一技術(shù)路線下不可解釋、幻覺等內(nèi)在問(wèn)題。因此,關(guān)于智能“涌現(xiàn)”的根本奧秘,關(guān)于現(xiàn)有模型的智能邊界與潛力,關(guān)于模型的解釋性、泛化性、穩(wěn)定性,尤其是幻覺引發(fā)的認(rèn)知安全風(fēng)險(xiǎn),仍是值得深入探索的重要議題;長(zhǎng)期而言,算力依然是人工智能的基礎(chǔ)設(shè)施,我們也期待芯片領(lǐng)域誕生屬于中國(guó)的DeepSeek時(shí)刻。

(文/王鑫 北京航空航天大學(xué)人工智能學(xué)院副教授)

歡迎下載“北京青年報(bào)”客戶端

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中美把重頭戲安排在最后,特朗普為了見到中方,已經(jīng)做了萬(wàn)全準(zhǔn)備

中美把重頭戲安排在最后,特朗普為了見到中方,已經(jīng)做了萬(wàn)全準(zhǔn)備

文史微鑒
2025-10-29 15:18:12
中國(guó)4大長(zhǎng)壽食物,紅薯排第3,第1很多人想不到,中老年要常吃

中國(guó)4大長(zhǎng)壽食物,紅薯排第3,第1很多人想不到,中老年要常吃

艾米手工作品
2025-10-28 13:55:56
一個(gè)披著資本主義外衣的共產(chǎn)主義國(guó)家

一個(gè)披著資本主義外衣的共產(chǎn)主義國(guó)家

霹靂炮
2025-10-29 22:51:12
浙江89歲老頭攙扶著84歲老太去離婚,承諾離婚后所有存款都?xì)w老太,誰(shuí)料,老頭一句話讓在場(chǎng)所有人淚目

浙江89歲老頭攙扶著84歲老太去離婚,承諾離婚后所有存款都?xì)w老太,誰(shuí)料,老頭一句話讓在場(chǎng)所有人淚目

品讀時(shí)刻
2025-10-29 09:03:59
演員張藝洋已執(zhí)行死刑!中國(guó)娛樂(lè)圈首例,倪大紅、李雪健被牽連

演員張藝洋已執(zhí)行死刑!中國(guó)娛樂(lè)圈首例,倪大紅、李雪健被牽連

阿纂看事
2025-07-25 17:12:19
雖遠(yuǎn)必誅?韓國(guó)是這樣去解救電詐園區(qū)的韓國(guó)人的!

雖遠(yuǎn)必誅?韓國(guó)是這樣去解救電詐園區(qū)的韓國(guó)人的!

麥杰遜
2025-10-27 14:19:53
賴清德剛對(duì)大陸攤牌,新加坡就作出鄭重涉臺(tái)表態(tài),民進(jìn)黨要破防了

賴清德剛對(duì)大陸攤牌,新加坡就作出鄭重涉臺(tái)表態(tài),民進(jìn)黨要破防了

墨印齋
2025-10-29 17:09:28
三上悠亞 成功宣布退役,退役后嫁到中國(guó),再見了我們的青春!

三上悠亞 成功宣布退役,退役后嫁到中國(guó),再見了我們的青春!

素然追光
2025-10-30 01:30:03
茍俊不幸去世,年僅34歲

茍俊不幸去世,年僅34歲

阜陽(yáng)發(fā)布
2025-10-29 12:23:06
發(fā)射倒計(jì)時(shí)!神舟二十一號(hào)準(zhǔn)備出征,3名老航天員有機(jī)會(huì)出差嗎?

發(fā)射倒計(jì)時(shí)!神舟二十一號(hào)準(zhǔn)備出征,3名老航天員有機(jī)會(huì)出差嗎?

普陀動(dòng)物世界
2025-10-30 03:39:52
劍指總冠軍!廣東男籃簽約2.21米前掘金中鋒,從此陣容再無(wú)短板!

劍指總冠軍!廣東男籃簽約2.21米前掘金中鋒,從此陣容再無(wú)短板!

田先生籃球
2025-10-29 09:52:21
風(fēng)向已經(jīng)變了,德國(guó)為首的西方媒體齊發(fā)聲:中國(guó)已在關(guān)鍵領(lǐng)域崛起

風(fēng)向已經(jīng)變了,德國(guó)為首的西方媒體齊發(fā)聲:中國(guó)已在關(guān)鍵領(lǐng)域崛起

墨蘭史書
2025-10-29 12:15:06
雷克薩斯甩出“王炸”:31.27萬(wàn),新車正式上市!

雷克薩斯甩出“王炸”:31.27萬(wàn),新車正式上市!

高科技愛好者
2025-10-29 23:07:02
東部第一!4戰(zhàn)轟下150分,場(chǎng)均37.5分徹底封神,恩比德成配角?

東部第一!4戰(zhàn)轟下150分,場(chǎng)均37.5分徹底封神,恩比德成配角?

球童無(wú)忌
2025-10-29 23:26:10
特朗普確定降芬太尼關(guān)稅,中美敲定APEC,A股站穩(wěn)4000

特朗普確定降芬太尼關(guān)稅,中美敲定APEC,A股站穩(wěn)4000

丁辰靈
2025-10-29 20:03:42
外媒預(yù)測(cè):2030年中國(guó)擁有4艘航母16艘055大驅(qū),和美軍實(shí)力持平!

外媒預(yù)測(cè):2030年中國(guó)擁有4艘航母16艘055大驅(qū),和美軍實(shí)力持平!

南宗歷史
2025-10-29 16:03:41
沒完沒了?鄭智化第三條發(fā)文才最惡劣,偏激早見端倪,全網(wǎng)抵制

沒完沒了?鄭智化第三條發(fā)文才最惡劣,偏激早見端倪,全網(wǎng)抵制

一只番茄魚
2025-10-29 15:54:34
直接被踢出中國(guó)市場(chǎng)!壟斷中國(guó)30年,卻揚(yáng)言絕不培養(yǎng)中國(guó)員工

直接被踢出中國(guó)市場(chǎng)!壟斷中國(guó)30年,卻揚(yáng)言絕不培養(yǎng)中國(guó)員工

顧史
2025-10-05 16:49:06
15歲302天!道曼成為阿森納隊(duì)史最年輕的首發(fā)球員

15歲302天!道曼成為阿森納隊(duì)史最年輕的首發(fā)球員

雷速體育
2025-10-30 03:33:10
大陸偵辦沈伯洋后,賴清德急了,趕緊喊話鄭麗文和國(guó)民黨,不簡(jiǎn)單

大陸偵辦沈伯洋后,賴清德急了,趕緊喊話鄭麗文和國(guó)民黨,不簡(jiǎn)單

策略述
2025-10-29 16:57:50
2025-10-30 04:56:49

團(tuán)結(jié)湖參考 incentive-icons
團(tuán)結(jié)湖參考
國(guó)內(nèi)頂尖的時(shí)政新聞評(píng)論
900文章數(shù) 57405關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)GTC:黃仁勛撒錢、造芯、造夢(mèng)

頭條要聞

日媒:“高市早苗當(dāng)面拒絕美國(guó)”

頭條要聞

日媒:“高市早苗當(dāng)面拒絕美國(guó)”

體育要聞

Here we go!羅馬諾:斯帕萊蒂即將出任尤文主帥

娛樂(lè)要聞

她二婚嫁給許紹雄,恩愛40年不離不棄

財(cái)經(jīng)要聞

美聯(lián)儲(chǔ)降息25個(gè)基點(diǎn) 12月起結(jié)束縮表

汽車要聞

自信大廠做派 全新瑞虎8詮釋什么是穩(wěn)中進(jìn)化

態(tài)度原創(chuàng)

家居
教育
旅游
時(shí)尚
本地

家居要聞

純白質(zhì)感 簡(jiǎn)約而不簡(jiǎn)單

教育要聞

教輔貴,市場(chǎng)買不到怎么辦?英語(yǔ)考試超綱怎么辦?教育廳正面回應(yīng)

旅游要聞

“工廠游”成文旅新寵 彰顯工業(yè)文化強(qiáng)大魅力

外套里面穿什么?這8件“姐感內(nèi)搭”高級(jí)又好看

本地新聞

全網(wǎng)圍觀,到底多少人被這個(gè)野人大學(xué)生笑瘋了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 中国农村妇女真实BBWBBWBBW| Chinese人妻吃屄| 啊灬啊灬啊灬快灬深高潮了| 欧美日逼网站| 久久久精品人妻一区二区三区 | 蜜桃精品免费久久久久影院 | 日韩人妻无码精品一专区二肛交 | 日韩色欲人妻无码精品av| 国产在线精品一区二区高清不卡| 中文字字幕一区二区三区四区五区| 亚欧av无码乱码在线观看性色| 最新国产av| 亚洲人成电影网站色迅雷| 亚洲国产精品嫩草影院| 98久久人妻少妇激情啪啪| 日本欧美另类| PORNY丨人妻| 91尤物国产尤物福利在线| 欧美女人视频操逼| 色欲av国内精品久久久夜夜百度| 国产无av码在线观看| 日韩啪啪A| 精品无码 第一页| 精品国产一区二区三区A| 少妇性荡欲午夜性开放视频剧场| 人人射人人爱在线播放| 日本妇女毛茸茸| 国产精品电影久久久久电影网| 中文字幕亚洲精品第一页| 日韩精品久久久久久免费| 厨房人妻丰满熟妇无码区乱| 久久免费精品国自产拍网站| 亚洲AV狠狠入| 亚洲嫩模一区二区三区视频| 亚洲视频网址| xx性欧美肥妇精品久久久久久| 欧美人妻久久| 人妻少妇系列| 无码国产精品一区二区免费式直播 | 无码日韩精品一区二区人妻| 男女猛烈激情xx00免费视频|