夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek的陽謀:在《自然》雜志公布論文,到底贏得了什么?

DeepSeek在《自然》雜志公布論文

0
分享至

DeepSeek 叕贏了,這回它登上了《自然》雜志的封面!



畫面中的立方體代表著電子神經(jīng)元,也就是我們常說的“大模型參數(shù)”,每個神經(jīng)元都在向著深層次方向探索。紅色的線代表關(guān)鍵的核心信號,而白色的線則意味著發(fā)散的探索。最終,所有的探索都會變成電子神經(jīng)元之間的鏈接,最終完成對問題答案的探索。
下面的文字突出了一個關(guān)鍵詞:“SELF-HELP”,也就是“自學(xué)”,“Reinforcement learning teaches AI model to improve itself”的意思則是:強化學(xué)習(xí)教會人工智能模型自我提升。
不理解這句話沒關(guān)系,后文中有大白話的解讀。

DeepSeek經(jīng)歷了幾次爆火之后,已經(jīng)成了連老媽都熟悉的大眾詞匯。這回登上《自然》雜志的封面,大家的第一反應(yīng)就是:“遙遙領(lǐng)先”以及“厲害了我的國!”

不過別著急慶祝,如果你想知道DeepSeek為啥遙遙領(lǐng)先,以及領(lǐng)先在什么地方,那就把本文看完。全文大白話,包你一看看就懂。

DeepSeek填補行業(yè)空白

在《自然》雜志的官方評論里,有一個詞被反復(fù)強調(diào)了很多遍。這個詞不是“性能強大”,也不是“技術(shù)突破”,而是聽起來平平無奇的“同行評審”。

《自然》雜志說:目前所有主流的大模型都沒有經(jīng)過獨立的同行評審,而 DeepSeek 填補了這項行業(yè)空白。


Nature 發(fā)表 Editorial 文章《為何同行評審對 AI 模型有益》,來


這就怪了。AI 領(lǐng)域日新月異,GPT 都更新到第 5 代了,同行評審就是讓你把成果拿給行業(yè)專家看看,怎么還能輪到后起之秀的 DeepSeek 來打破空白呢?難道,過去這些年,全世界的 AI 巨頭們,都是在王婆賣瓜的嗎?

嘿嘿,還真讓你說對了。

這個同行評審機制,就像是科學(xué)圈兒里的“質(zhì)監(jiān)局”。任何一項新的科學(xué)發(fā)現(xiàn),想要獲得公認(rèn),就必須把所有的實驗方法、數(shù)據(jù)、推導(dǎo)過程,毫無保留地交給同行去匿名審查。


來源:Nature


要知道,同行是冤家這話可不是白說的,這些同行專家可不想你輕松獲得榮譽,他們恨不得你翻車。所以,同行評審?fù)且粋€拿著顯微鏡挑刺的過程。實驗設(shè)計不嚴(yán)謹(jǐn)啊,實驗創(chuàng)新性不夠啊,實驗數(shù)據(jù)不完整啊……反正各種問題全能給你挑出來。

當(dāng)然,挑刺歸挑刺,但是科學(xué)家還是講究科學(xué)精神的,真正過硬的研究,也會因為嚴(yán)格的同行評審而獲得信任。

但是,人工智能大模型這個行業(yè)從一開始就被 ChatGPT-3 帶了個壞頭,ChatGPT-3 只開放了很少的一部分代碼,公開了一些類似于產(chǎn)品說明書的所謂技術(shù)細(xì)節(jié)。從此以后,黑箱發(fā)布就成了大模型產(chǎn)品發(fā)布的“江湖規(guī)矩”。新的大模型產(chǎn)品看起來根本不像是一項科學(xué)研究,更像是一個產(chǎn)品發(fā)布會。大家通常只能看到一個驚艷的結(jié)果,至于核心的訓(xùn)練方法和數(shù)據(jù)細(xì)節(jié),往往以商業(yè)機密為由秘不示人。

DeepSeek 這次做的,就是選擇堂堂正正地接受科學(xué)界最嚴(yán)苛的質(zhì)檢。這就是《自然》雜志說 DeepSeek 填補了行業(yè)空白的原因。

“自學(xué)成才的DeepSeek

當(dāng)然,填補行業(yè)空白只能證明 DeepSeek 的擔(dān)當(dāng)和勇氣,這與技術(shù)和創(chuàng)新沒有關(guān)系。這篇論文讓科學(xué)界真正興奮的,是他們用另辟蹊徑的方法和扎實的實驗數(shù)據(jù),狠狠打了其他大模型的臉。

之前科學(xué)家們一直以為,要想讓一個 AI 模型變得更聰明,唯一的辦法,就是把海量人類專家寫好的解題步驟“喂”給 AI,讓它去模仿學(xué)習(xí)。學(xué)得越多,能力也就越強。這與我們學(xué)校里推行的教育方式基本一致,我告訴你經(jīng)典例題和標(biāo)準(zhǔn)答案,你給我背下來。這種方法叫做監(jiān)督式微調(diào)(SFT)。

但 DeepSeek 的科學(xué)家們提出了一個大膽的假設(shè):總是模仿人類的解題思路,會不會反而限制了 AI 的發(fā)展?就好像學(xué)生如果必須嚴(yán)格按照老師的思路學(xué)習(xí),是不是就無法超越老師?有沒有可能,讓 AI 自己去發(fā)現(xiàn)規(guī)律,然后自學(xué)成才?

這個想法其實并不算石破天驚,但是絕對叛逆。因為如果允許學(xué)生自學(xué),還允許他們發(fā)明老師都沒用過的解題思路,那么,一旦學(xué)生成功解出老師也無法解答的問題,那么老師就必須承認(rèn),教學(xué)并不是學(xué)生成才的必經(jīng)之路。

DeepSeek 的科學(xué)家決定豪賭一把。他們繞過了用人類范例教學(xué)的傳統(tǒng)步驟,直接把一個名叫 DeepSeek-R1-Zero 的模型扔進了試煉場里。


DeepSeek-R1-Zero 在訓(xùn)練過程中的 AIME 準(zhǔn)確率,基線是人類參與者


試煉場的規(guī)則簡單且殘酷:

  1. 只給難題:給模型海量的、極難的推理問題,比如數(shù)學(xué)競賽(AIME)、編程競賽和 STEM 領(lǐng)域的難題。
  2. 只看結(jié)果:不提供任何人類的解題過程作為參考。AI 的每一次嘗試,只會得到一個最簡單的反饋信號:如果最終答案正確,就給獎勵;回答錯誤,啥也沒有。

這就像把一個沒上學(xué)的孩子,直接扔進奧數(shù)賽場,沒有基礎(chǔ)知識,沒有公式和技巧,只告訴他:“答對了有糖吃,答錯了沒有。你自己想辦法吧?!?/p>

這種方法,就是論文里說到的“強化學(xué)習(xí)”,它的本質(zhì)就是純粹的激勵。DeepSeek 的科學(xué)家們想看看,在巨大的難題壓力和最純粹的獎懲激勵下,AI 的推理能力能否自發(fā)地涌現(xiàn)出來。

每個人都想知道,這個被扔進奧數(shù)賽場的孩子,到底能不能一朝悟道。

真實的訓(xùn)練數(shù)據(jù)讓人極為驚喜。首先,它學(xué)會了如何深思熟慮。

科學(xué)家發(fā)現(xiàn),隨著訓(xùn)練的進行,模型生成的回答文本長度在持續(xù)、穩(wěn)定地暴漲。這說明,在沒有任何外部指令的情況下,AI 自己領(lǐng)悟了一件事:那就是簡單粗暴解決不了復(fù)雜問題,花更多的時間去推演和探索有助于獲得正確答案。于是,它不再追求一口吃個胖子,而是自發(fā)地選擇了深度思考這條路線。

其次,也是最令人震撼的,是它學(xué)會了反思和自我糾錯。


強化學(xué)習(xí)過程中 DeepSeek-R1-Zero 在訓(xùn)練集上的平均響應(yīng)長度。來


在訓(xùn)練過程中,模型開始自發(fā)地使用一些代表反思的詞匯,比如“等等”、“不對”、“我要檢查一下”、“驗證”、“好像有錯”或者類似的話。

論文里給出了一個堪稱神來之筆的案例。在解決一個數(shù)學(xué)問題時,模型先是按照一個思路進行推導(dǎo),但寫著寫著,它突然停了下來,然后自己打出了一行字:

“Wait, wait. Wait. That's an aha moment I can flag here.” (等等,等等。等等。我在這里標(biāo)記一下,這是一個頓悟時刻。)



然后,它就真的像一個突然想通了什么的學(xué)生一樣,推翻了之前的思路,開始一步一步地重新對問題進行評估,整個過程與那些突然發(fā)現(xiàn)了問題,然后從頭開始檢查的學(xué)生一模一樣。

這個頓悟時刻,讓見多識廣的科學(xué)家們都感到興奮。科學(xué)家在論文中寫道:“DeepSeek 的頓悟時刻,也是我們的頓悟時刻,讓我們見證了強化學(xué)習(xí)的強大力量”。

而且,這不是一個簡單的個案。數(shù)據(jù)顯示,在訓(xùn)練達到大約 8000 步之后,“wait”這個詞的使用頻率突然飆升,說明三思而后行已經(jīng)成了它刻入骨髓的思維習(xí)慣。因為必須拿出正確答案才有糖吃?!皩Α北取翱臁敝匾枚唷?/p>

最終,這個沒有人類老師手把手教的大模型,靠著自己在試煉場里的摸爬滾打,自發(fā)地進化出了包括自我反思、過程驗證、動態(tài)調(diào)整策略等一系列高級的推理模式。

最終的結(jié)果是,在數(shù)學(xué)、編程等可驗證的嚴(yán)肅推理任務(wù)上,它的表現(xiàn)全面超越了那些接受傳統(tǒng)填鴨式教學(xué)的模型。在 AIME 數(shù)學(xué)競賽基準(zhǔn)測試上,它的最終成績甚至遠(yuǎn)超人類參賽者的平均水平。這個沒有老師全靠自學(xué)的孩子,向人類證明了自己的能力。

憑啥要開源?憑啥要透明?

讀到這里,你可能會產(chǎn)生一個非常自然的疑問:我們費了這么大勁,探索出了這么厲害的獨門秘籍,為什么要把它公之于眾?又是寫論文,又是開源模型,這不是讓競爭對手抄作業(yè),自己吃虧嗎?

這個問題問得非常好,因為它已經(jīng)觸及了科學(xué)思維和商業(yè)直覺的沖突點。

從短期的、零和博弈的商業(yè)直覺來看,保密確實是最佳選擇。而且,除了 DeepSeek 以外,就算是其他開源的大模型,也沒有如此認(rèn)真地接受同行評審。但是,從長期的、更宏大的發(fā)展視角看,開放和透明,恰恰是所有競爭對手都無法破解的陽謀。

第一,開放是建立信任的唯一途徑。AI 正在成為社會的基礎(chǔ)設(shè)施,一個不透明的黑箱,是無法得到國際社會的真正信任的。

DeepSeek 通過《自然》雜志的同行評審,等于是在向全世界宣告:我的能力是經(jīng)得起最嚴(yán)格檢驗的,是可靠的。在一個人人都在談?wù)?AI 安全和 AI 倫理的時代,一個“可信”的標(biāo)簽,是花多少錢都買不來的無形資產(chǎn)。

第二,開放是加速自我進化的最佳策略??茖W(xué)的發(fā)展史一再證明,閉門造車永遠(yuǎn)比不上開放社區(qū)的集體智慧。當(dāng) DeepSeek 把自己的方法和模型公開后,全世界成千上萬的頂尖頭腦都會成為它的免費測試員和外部智囊。

他們會發(fā)現(xiàn)你沒注意到的漏洞,會提出你沒想到的優(yōu)化方向,甚至?xí)谀愕墓ぷ?,開發(fā)出讓你也備受啟發(fā)的新應(yīng)用。這種來自全球社區(qū)的反饋和激蕩,是任何一個封閉的公司靠內(nèi)部力量都無法企及的,它會極大地加速自身的迭代速度。

第三,開放是吸引頂尖人才的終極引力場。頂尖的科學(xué)家和工程師,最看重的是什么?是解決世界級難題的機會和獲得全球同行認(rèn)可的聲譽。一篇《自然》封面論文,就是向全球人才發(fā)出的最強招募令,它證明了這里是能夠做出世界級工作的頂級平臺。這種對人才的吸引力,遠(yuǎn)比保住一兩個技術(shù)秘密的價值要大得多。

所以你看,開放和透明,看似吃虧,實則是在下一盤更大的棋。它賭的不是用戶數(shù)或者會員費這些眼前得失,它通過建立信任、融入全球智慧網(wǎng)絡(luò)、吸引頂尖人才,來贏得整個 AI 時代的長期競爭。

DeepSeek贏了啥?

現(xiàn)在,我們可以回答標(biāo)題中的問題了:DeepSeek 到底贏得了什么?

如果說,選擇在《自然》上公開發(fā)表,是贏得了一種“安全可信”的科學(xué)信譽。那么,他們在論文中揭示的“AI 可以自學(xué)”的新規(guī)律,則贏得了對人工智能本質(zhì)的認(rèn)知優(yōu)勢。

DeepSeek 的科學(xué)家們用一場無可辯駁的漂亮實驗,證明了 AI 的推理能力,不一定需要學(xué)習(xí)人類的固有知識,它們完全可以像人類一樣,通過觀察世界而獨立發(fā)現(xiàn)規(guī)律。舊的規(guī)律如此,新的規(guī)律當(dāng)然也沒問題。

這個發(fā)現(xiàn),極大地拓展了我們對人工智能潛力的想象。它把 AI 從一個只能模仿人類知識的學(xué)生,升級成了能獨立發(fā)現(xiàn)新規(guī)律的科學(xué)家。

這事兒甚至可以直接擴展到教育界:一個孩子考上清北,學(xué)校、老師、家長都覺得是自己牛逼,其實你們都太自戀了,牛逼的是孩子自己。

信源:

[1] 論文鏈接:https://www.nature.com/articles/s41586-025-09422-z

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
郝龍斌與鄭麗文誰當(dāng)選差別已經(jīng)顯現(xiàn),民眾黨或已準(zhǔn)備開慶功會

郝龍斌與鄭麗文誰當(dāng)選差別已經(jīng)顯現(xiàn),民眾黨或已準(zhǔn)備開慶功會

基斯默默
2025-09-20 23:24:05
百萬粉絲女主播被“開盒”,收到大量騷擾信息,全家被迫搬離,“只需一個名字就可獲得5年個人信息”

百萬粉絲女主播被“開盒”,收到大量騷擾信息,全家被迫搬離,“只需一個名字就可獲得5年個人信息”

環(huán)球網(wǎng)資訊
2025-09-21 16:15:04
中國高壓水炮為何禁止出口?看看被噴的菲律賓船就知道了

中國高壓水炮為何禁止出口?看看被噴的菲律賓船就知道了

壹知眠羊
2025-09-21 07:57:12
隕石獵人算出“火流星”落地點,挖出423公斤的“茂名”:跟做夢一樣,感覺很恍惚

隕石獵人算出“火流星”落地點,挖出423公斤的“茂名”:跟做夢一樣,感覺很恍惚

紅星新聞
2025-09-20 19:56:22
阿爾特塔:沒拿下曼城非常失望,馬丁內(nèi)利本該首發(fā)但他沒有抱怨

阿爾特塔:沒拿下曼城非常失望,馬丁內(nèi)利本該首發(fā)但他沒有抱怨

直播吧
2025-09-22 08:37:06
藍(lán)營改選亂成一團,關(guān)鍵時刻,洪秀柱站了出來,態(tài)度很明確!

藍(lán)營改選亂成一團,關(guān)鍵時刻,洪秀柱站了出來,態(tài)度很明確!

通鑒史智
2025-09-22 07:25:09
上海西貝生意火爆!有顧客稱落座即送月餅,該店承諾不滿意可退餐

上海西貝生意火爆!有顧客稱落座即送月餅,該店承諾不滿意可退餐

火山詩話
2025-09-22 06:28:49
“風(fēng)王”誕生!“樺加沙”將正面襲擊廣東!最新路徑預(yù)測→

“風(fēng)王”誕生!“樺加沙”將正面襲擊廣東!最新路徑預(yù)測→

廣州花都發(fā)布
2025-09-21 21:10:31
喜馬拉雅煙花秀引爭議,新華社、人民日報接連發(fā)聲

喜馬拉雅煙花秀引爭議,新華社、人民日報接連發(fā)聲

21世紀(jì)經(jīng)濟報道
2025-09-21 14:45:36
離婚6年,文章女兒生日宴曝光,馬伊琍這盤“大棋”終被看懂

離婚6年,文章女兒生日宴曝光,馬伊琍這盤“大棋”終被看懂

訪史
2025-09-22 05:31:14
陳紫函自曝3年做12次試管,今年已50歲希望渺茫,暗示男方有問題

陳紫函自曝3年做12次試管,今年已50歲希望渺茫,暗示男方有問題

心靜物娛
2025-09-21 10:14:31
有望成為歷史最年輕球隊!馬克斯:這對我們來說是獨特機遇

有望成為歷史最年輕球隊!馬克斯:這對我們來說是獨特機遇

北青網(wǎng)-北京青年報
2025-09-22 07:29:08
柏拉圖為什么偉大?因他在2400年前,就回答了今天的所有人生困惑

柏拉圖為什么偉大?因他在2400年前,就回答了今天的所有人生困惑

詩意世界
2025-09-18 11:39:14
乾隆滅掉準(zhǔn)噶爾,屠盡男丁滅族,對當(dāng)時的世界造成了極大的震撼?

乾隆滅掉準(zhǔn)噶爾,屠盡男丁滅族,對當(dāng)時的世界造成了極大的震撼?

銘記歷史呀
2025-09-17 17:52:21
《731》差評超出可控!影片方緊急關(guān)閉評分,外國觀眾發(fā)聲了!

《731》差評超出可控!影片方緊急關(guān)閉評分,外國觀眾發(fā)聲了!

古希臘掌管月桂的神
2025-09-20 20:37:40
千萬富翁王曉舉7月找到生母 9月才認(rèn)親 原因曝光 不是我們想象的那樣

千萬富翁王曉舉7月找到生母 9月才認(rèn)親 原因曝光 不是我們想象的那樣

動物奇奇怪怪
2025-09-22 01:13:02
降維打擊!25歲菲利克斯3輪聯(lián)賽5球1助攻,領(lǐng)跑沙特超射手榜

降維打擊!25歲菲利克斯3輪聯(lián)賽5球1助攻,領(lǐng)跑沙特超射手榜

直播吧
2025-09-21 10:15:03
英國出動戰(zhàn)機進入波蘭上空!俄軍稱大規(guī)模打擊烏軍工綜合體!特朗普:美國正從俄烏沖突中獲利

英國出動戰(zhàn)機進入波蘭上空!俄軍稱大規(guī)模打擊烏軍工綜合體!特朗普:美國正從俄烏沖突中獲利

每日經(jīng)濟新聞
2025-09-21 10:04:02
iPhone17ProMax全網(wǎng)首批差評出爐,把果粉都?xì)庹耍?>
    </a>
        <h3>
      <a href=搞機小帝
2025-09-22 00:02:45
被中年阿姨的“清潔大法”驚到了!不費啥勁,家里窗明幾凈

被中年阿姨的“清潔大法”驚到了!不費啥勁,家里窗明幾凈

美家指南
2025-09-20 08:03:24
2025-09-22 09:08:49
科學(xué)聲音 incentive-icons
科學(xué)聲音
普及科學(xué)知識,傳播科學(xué)精神
315文章數(shù) 35176關(guān)注度
往期回顧 全部

科技要聞

巴菲特清倉比亞迪,持股期間股價漲超38倍

頭條要聞

英加澳承認(rèn)巴勒斯坦國 內(nèi)塔尼亞胡發(fā)聲威脅:等著瞧

頭條要聞

英加澳承認(rèn)巴勒斯坦國 內(nèi)塔尼亞胡發(fā)聲威脅:等著瞧

體育要聞

在意甲最草根的球會 創(chuàng)造新的"萊斯特奇跡"

娛樂要聞

西安街頭邂逅趙露思,美到讓人不敢認(rèn)

財經(jīng)要聞

始祖鳥“跑偏”

汽車要聞

全系華為+寧德時代 阿維塔07 26款售21.99萬元起

態(tài)度原創(chuàng)

藝術(shù)
親子
本地
手機
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

孩子委屈的樣子讓人動容

本地新聞

大學(xué)生軍訓(xùn)哪家強,廣西申請“出戰(zhàn)”!

手機要聞

國內(nèi)手機TOP5排行來了,你在用哪款?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 国产v亚洲v天堂无码久久久| 人人干人人看人人摸| 中文精品一卡2卡3卡4卡| 120秒高潮熟女| 亚洲精品国男人在线视频| FreeXXXX国产HD中文| 中国老熟妇毛茸茸逼| 成在线人免费视频| 老熟妇仑乱视频一区二区| 国产精品视频3p| 亚洲一线免费看| 国产精品成人免费视频网站| 嗯啊视频网站在线观看| 精品无码AV无码免费专区| 亚洲精品~无码抽插| 国产无遮挡猛进猛出免费| Av片激情综合网| 亚洲A成人片在线播放| 日本天堂免费观看| 少妇撒尿一区二区在线视频| 日本做受高潮好舒服视频| 欧美日产国产精品日产| 日产乱码一二三区别免费麻豆 | 9l精品人妻中文字幕色| 日本熟妇久久久久久久久久| 国产成AV人片久青草影院| 午夜视频在线观看免费完整版 | 国产精品自在线拍国产电影| 国产精品一线二线三线| 亚洲国产综合一区二区精品| 亚洲高清一区二区三区电影| 在线视频 亚洲精品| 激情美女人妻| 国产天堂亚洲国产碰碰| 狠狠人妻久久久久久综合老师粉嫩| 色综合久久人妻精品日韩| 中文字幕日产无线码一区 | 无码一区二区三区久久精品| 少妇熟女 一区| 亚洲欧美日本国产mag| 一起草视频在线播放|