中國杭州AI初創(chuàng)公司DeepSeek開發(fā)的R1模型近日在《自然》雜志發(fā)表了同行評議版本,成為首個經(jīng)過嚴(yán)格學(xué)術(shù)審查的主要大語言模型。DeepSeek 創(chuàng)始人兼 CEO 梁文峰為該論文的通訊作者?!蹲匀弧冯s志不但將該篇論文作為封面論文,還在評論報道文章中用“里程碑式論文揭示 DeepSeek AI 模型的秘密”
這一里程碑式事件不僅揭示了該公司如何以僅29.4萬美元的訓(xùn)練成本創(chuàng)造出震撼全球AI產(chǎn)業(yè)的模型,更重要的是,它為整個人工智能行業(yè)樹立了透明度和科學(xué)嚴(yán)謹(jǐn)性的新標(biāo)準(zhǔn)。
今年1月,當(dāng)DeepSeek R1模型發(fā)布時,其卓越的推理能力和極低的開發(fā)成本瞬間引發(fā)全球科技股大幅下跌,納斯達克指數(shù)單日暴跌超過3%,英偉達等AI龍頭企業(yè)市值蒸發(fā)數(shù)千億美元。如今,隨著經(jīng)過同行評議的正式論文發(fā)布,這家中國公司的技術(shù)路徑得到了學(xué)術(shù)界的認(rèn)可,同時也為其創(chuàng)新方法提供了更可靠的科學(xué)依據(jù)。
論文鏈接:
https://www.nature.com/articles/s41586-025-09422-z
突破性的強化學(xué)習(xí)方法改寫AI訓(xùn)練范式
DeepSeek R1的核心創(chuàng)新在于采用了"純強化學(xué)習(xí)"這一自動化試錯方法。與傳統(tǒng)依賴人工標(biāo)注推理示例的訓(xùn)練方式不同,R1通過獎勵模型達到正確答案的行為來學(xué)習(xí)推理策略,而非模仿人類預(yù)設(shè)的推理模式。這種方法使模型能夠自主發(fā)展出諸如自我反思、驗證和動態(tài)調(diào)整等高級推理能力。
俄亥俄州立大學(xué)AI研究員孫歡表示,DeepSeek的這一創(chuàng)新"在研究界極具影響力",并指出"2025年迄今為止幾乎所有在大語言模型中進行強化學(xué)習(xí)的工作,都可能在某種程度上受到R1的啟發(fā)"。
為提升效率,DeepSeek還采用了一種名為"群體相對策略優(yōu)化"的技術(shù),讓模型自我評估嘗試結(jié)果,而非依賴獨立算法進行評分。這些技術(shù)創(chuàng)新使得R1不僅在推理任務(wù)上表現(xiàn)卓越,在成本控制方面也實現(xiàn)了突破。
根據(jù)《自然》雜志論文的補充材料首次披露,R1的訓(xùn)練成本僅為29.4萬美元,加上構(gòu)建基礎(chǔ)模型的約600萬美元,總投入遠低于競爭對手動輒數(shù)千萬美元的開發(fā)費用。更值得注意的是,DeepSeek主要使用英偉達H800芯片進行訓(xùn)練,這些芯片自2023年起被美國出口管制禁止向中國銷售。
學(xué)術(shù)透明度開啟AI發(fā)展新紀(jì)元
DeepSeek R1成為首個通過同行評議的主要大語言模型,這一先例在AI學(xué)術(shù)界引起廣泛贊譽。機器學(xué)習(xí)工程師、論文評審員劉易斯·滕斯托爾稱這是"非常值得歡迎的先例",強調(diào)"如果我們沒有公開分享這一過程大部分內(nèi)容的標(biāo)準(zhǔn),就很難評估這些系統(tǒng)是否存在風(fēng)險"。
在同行評議過程中,DeepSeek團隊根據(jù)評審意見減少了對模型的擬人化描述,并增加了技術(shù)細節(jié)說明,包括模型訓(xùn)練數(shù)據(jù)類型和安全性考慮。這種嚴(yán)格的學(xué)術(shù)審查流程不僅驗證了模型的有效性,也為其他AI公司樹立了榜樣。
論文發(fā)表后,DeepSeek明確否認(rèn)了此前關(guān)于其使用OpenAI模型輸出進行訓(xùn)練的指控。該公司在與評審員的交流中聲明,R1并非通過復(fù)制其他大語言模型生成的推理示例來學(xué)習(xí)。雖然承認(rèn)其基礎(chǔ)模型像其他大語言模型一樣在網(wǎng)絡(luò)上訓(xùn)練,可能包含已存在的AI生成內(nèi)容,但DeepSeek堅持其核心訓(xùn)練方法的原創(chuàng)性。
滕斯托爾表示,盡管無法百分之百確定R1未使用OpenAI示例進行訓(xùn)練,但其他實驗室的復(fù)制嘗試表明"DeepSeek的推理方法可能足夠優(yōu)秀,無需這樣做"。他補充道:"現(xiàn)在的證據(jù)相當(dāng)明確,僅使用純強化學(xué)習(xí)就能獲得極高性能。"
全球AI競爭格局的重新洗牌
DeepSeek的成功不僅僅是技術(shù)突破,更是對全球AI產(chǎn)業(yè)發(fā)展模式的深刻挑戰(zhàn)。其開源策略使R1成為AI社區(qū)平臺Hugging Face上最受歡迎的開放權(quán)重模型,下載量已達1090萬次。這種開放模式與美國科技巨頭的封閉生態(tài)系統(tǒng)形成鮮明對比,為全球AI研發(fā)提供了新的范式。
在科學(xué)任務(wù)完成挑戰(zhàn)ScienceAgentBench中,R1雖然在準(zhǔn)確性方面未居首位,但在平衡能力與成本方面表現(xiàn)出色,證明了其在實際應(yīng)用中的競爭力。這一表現(xiàn)進一步證實了低成本高效能AI模型的可行性,對整個行業(yè)的資源配置策略產(chǎn)生深遠影響。
目前,眾多研究團隊正嘗試將DeepSeek的方法應(yīng)用于改進現(xiàn)有大語言模型的推理能力,并將其擴展到數(shù)學(xué)和編程之外的其他領(lǐng)域。正如滕斯托爾所言,R1已經(jīng)"啟動了一場革命"。
DeepSeek的崛起標(biāo)志著AI發(fā)展進入新階段,其低成本高效能的技術(shù)路徑、開源開放的發(fā)展理念,以及對學(xué)術(shù)透明度的堅持,正在重新定義人工智能產(chǎn)業(yè)的競爭規(guī)則。隨著更多研究機構(gòu)和企業(yè)開始關(guān)注并采用類似方法,全球AI技術(shù)發(fā)展有望迎來更加多元化和民主化的未來。這場由中國初創(chuàng)企業(yè)引發(fā)的技術(shù)革命,最終可能惠及全人類的科技進步。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風(fēng)險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828 進入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.