梁文峰在《自然》發(fā)表封面論文 DS成首個經(jīng)過嚴(yán)格學(xué)術(shù)審查的大模型

2025-09-18 18:22:42　來源: 人工智能學(xué)家

北京舉報

分享至

中國杭州AI初創(chuàng)公司DeepSeek開發(fā)的R1模型近日在《自然》雜志發(fā)表了同行評議版本，成為首個經(jīng)過嚴(yán)格學(xué)術(shù)審查的主要大語言模型。DeepSeek 創(chuàng)始人兼 CEO 梁文峰為該論文的通訊作者?！蹲匀弧冯s志不但將該篇論文作為封面論文，還在評論報道文章中用“里程碑式論文揭示 DeepSeek AI 模型的秘密”

這一里程碑式事件不僅揭示了該公司如何以僅29.4萬美元的訓(xùn)練成本創(chuàng)造出震撼全球AI產(chǎn)業(yè)的模型，更重要的是，它為整個人工智能行業(yè)樹立了透明度和科學(xué)嚴(yán)謹(jǐn)性的新標(biāo)準(zhǔn)。

今年1月，當(dāng)DeepSeek R1模型發(fā)布時，其卓越的推理能力和極低的開發(fā)成本瞬間引發(fā)全球科技股大幅下跌，納斯達克指數(shù)單日暴跌超過3%，英偉達等AI龍頭企業(yè)市值蒸發(fā)數(shù)千億美元。如今，隨著經(jīng)過同行評議的正式論文發(fā)布，這家中國公司的技術(shù)路徑得到了學(xué)術(shù)界的認(rèn)可，同時也為其創(chuàng)新方法提供了更可靠的科學(xué)依據(jù)。

論文鏈接：

https://www.nature.com/articles/s41586-025-09422-z

突破性的強化學(xué)習(xí)方法改寫AI訓(xùn)練范式

DeepSeek R1的核心創(chuàng)新在于采用了"純強化學(xué)習(xí)"這一自動化試錯方法。與傳統(tǒng)依賴人工標(biāo)注推理示例的訓(xùn)練方式不同，R1通過獎勵模型達到正確答案的行為來學(xué)習(xí)推理策略，而非模仿人類預(yù)設(shè)的推理模式。這種方法使模型能夠自主發(fā)展出諸如自我反思、驗證和動態(tài)調(diào)整等高級推理能力。

俄亥俄州立大學(xué)AI研究員孫歡表示，DeepSeek的這一創(chuàng)新"在研究界極具影響力"，并指出"2025年迄今為止幾乎所有在大語言模型中進行強化學(xué)習(xí)的工作，都可能在某種程度上受到R1的啟發(fā)"。

為提升效率，DeepSeek還采用了一種名為"群體相對策略優(yōu)化"的技術(shù)，讓模型自我評估嘗試結(jié)果，而非依賴獨立算法進行評分。這些技術(shù)創(chuàng)新使得R1不僅在推理任務(wù)上表現(xiàn)卓越，在成本控制方面也實現(xiàn)了突破。

根據(jù)《自然》雜志論文的補充材料首次披露，R1的訓(xùn)練成本僅為29.4萬美元，加上構(gòu)建基礎(chǔ)模型的約600萬美元，總投入遠低于競爭對手動輒數(shù)千萬美元的開發(fā)費用。更值得注意的是，DeepSeek主要使用英偉達H800芯片進行訓(xùn)練，這些芯片自2023年起被美國出口管制禁止向中國銷售。

學(xué)術(shù)透明度開啟AI發(fā)展新紀(jì)元

DeepSeek R1成為首個通過同行評議的主要大語言模型，這一先例在AI學(xué)術(shù)界引起廣泛贊譽。機器學(xué)習(xí)工程師、論文評審員劉易斯·滕斯托爾稱這是"非常值得歡迎的先例"，強調(diào)"如果我們沒有公開分享這一過程大部分內(nèi)容的標(biāo)準(zhǔn)，就很難評估這些系統(tǒng)是否存在風(fēng)險"。

在同行評議過程中，DeepSeek團隊根據(jù)評審意見減少了對模型的擬人化描述，并增加了技術(shù)細節(jié)說明，包括模型訓(xùn)練數(shù)據(jù)類型和安全性考慮。這種嚴(yán)格的學(xué)術(shù)審查流程不僅驗證了模型的有效性，也為其他AI公司樹立了榜樣。

論文發(fā)表后，DeepSeek明確否認(rèn)了此前關(guān)于其使用OpenAI模型輸出進行訓(xùn)練的指控。該公司在與評審員的交流中聲明，R1并非通過復(fù)制其他大語言模型生成的推理示例來學(xué)習(xí)。雖然承認(rèn)其基礎(chǔ)模型像其他大語言模型一樣在網(wǎng)絡(luò)上訓(xùn)練，可能包含已存在的AI生成內(nèi)容，但DeepSeek堅持其核心訓(xùn)練方法的原創(chuàng)性。

滕斯托爾表示，盡管無法百分之百確定R1未使用OpenAI示例進行訓(xùn)練，但其他實驗室的復(fù)制嘗試表明"DeepSeek的推理方法可能足夠優(yōu)秀，無需這樣做"。他補充道："現(xiàn)在的證據(jù)相當(dāng)明確，僅使用純強化學(xué)習(xí)就能獲得極高性能。"

全球AI競爭格局的重新洗牌

DeepSeek的成功不僅僅是技術(shù)突破，更是對全球AI產(chǎn)業(yè)發(fā)展模式的深刻挑戰(zhàn)。其開源策略使R1成為AI社區(qū)平臺Hugging Face上最受歡迎的開放權(quán)重模型，下載量已達1090萬次。這種開放模式與美國科技巨頭的封閉生態(tài)系統(tǒng)形成鮮明對比，為全球AI研發(fā)提供了新的范式。

在科學(xué)任務(wù)完成挑戰(zhàn)ScienceAgentBench中，R1雖然在準(zhǔn)確性方面未居首位，但在平衡能力與成本方面表現(xiàn)出色，證明了其在實際應(yīng)用中的競爭力。這一表現(xiàn)進一步證實了低成本高效能AI模型的可行性，對整個行業(yè)的資源配置策略產(chǎn)生深遠影響。

目前，眾多研究團隊正嘗試將DeepSeek的方法應(yīng)用于改進現(xiàn)有大語言模型的推理能力，并將其擴展到數(shù)學(xué)和編程之外的其他領(lǐng)域。正如滕斯托爾所言，R1已經(jīng)"啟動了一場革命"。

DeepSeek的崛起標(biāo)志著AI發(fā)展進入新階段，其低成本高效能的技術(shù)路徑、開源開放的發(fā)展理念，以及對學(xué)術(shù)透明度的堅持，正在重新定義人工智能產(chǎn)業(yè)的競爭規(guī)則。隨著更多研究機構(gòu)和企業(yè)開始關(guān)注并采用類似方法，全球AI技術(shù)發(fā)展有望迎來更加多元化和民主化的未來。這場由中國初創(chuàng)企業(yè)引發(fā)的技術(shù)革命，最終可能惠及全人類的科技進步。

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟、人類風(fēng)險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828 進入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.