夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

DeepSeek論文登《自然》封面,披露R1訓練費200萬,不依賴對手內(nèi)容

0
分享至
核心提示
  • 01 由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文,登上了《自然》雜志封面。論文聲明,該模型的成功并不依賴于使用其競爭對手的輸出內(nèi)容進行訓練。
  • 02 R1是首個經(jīng)歷同行評議的主流大語言模型,被認為是“值得歡迎的先例”。作為開放權重模型,它在Hugging Face上下載量已達1090萬次,并被研究人員認為“引發(fā)了一場革命”。
  • 03 論文還首次披露,其增量訓練成本僅29.4萬美元,且主要在英偉達H800芯片上進行訓練。

9月18日消息,由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文,登上了《自然》(Nature)雜志封面。


論文研究人員表示,DeepSeek強大的AI模型R1之所以能成功,并不依賴于使用其競爭對手的輸出內(nèi)容進行訓練。今年一月,R1的發(fā)布曾引發(fā)美國股市暴跌。這一聲明出自今天發(fā)表于《自然》(Nature)雜志的一篇經(jīng)同行評議的R1模型論文的附帶文件中。

R1旨在出色地完成數(shù)學和編程等“推理”任務,是美國科技公司所開發(fā)工具的一個更廉價的競爭對手。作為一個“開放權重”(open weight)模型,任何人都可以下載它,并且它也是迄今為止在AI社區(qū)平臺Hugging Face上最受歡迎的此類模型,下載量已達1090萬次。

這篇論文是對今年一月所發(fā)布的一份預印本的更新,該預印本描述了DeepSeek如何增強一個標準的大語言模型(Large Language Model, LLM)以處理推理任務。其補充材料首次披露了R1的增量訓練成本僅相當于29.4萬美元。這筆費用是在該公司(總部位于杭州)為構建R1所基于的基礎大語言模型而花費的約600萬美元之外的,但總金額仍遠低于競爭對手模型據(jù)信高達數(shù)千萬美元的成本。DeepSeek表示,R1主要是在英偉達的H800芯片上進行訓練的,而根據(jù)美國的出口管制規(guī)定,該芯片自2023年起已被禁止向中國銷售。

嚴格的同行評審

R1被認為是首個經(jīng)歷同行評議過程的主流大語言模型。“這是一個非常值得歡迎的先例,”Hugging Face的機器學習工程師劉易斯·坦斯托爾(Lewis Tunstall)說,他也是這篇《自然》論文的審稿人之一?!叭绻覀儧]有這種公開分享大部分流程的規(guī)范,就很難評估這些系統(tǒng)是否存在風險?!?/p>

為回應同行評議的意見,DeepSeek團隊減少了其描述中的擬人化用語,并補充了技術細節(jié)的說明,包括模型訓練所用的數(shù)據(jù)類型及其安全性?!?b>經(jīng)歷一個嚴格的同行評議過程,無疑有助于驗證模型的有效性和實用性,”位于哥倫布市的俄亥俄州立大學AI研究員孫歡(Huan Sun)說?!捌渌疽矐撨@樣做。”

DeepSeek的主要創(chuàng)新在于,它使用了一種自動化的“試錯法”,即純粹的強化學習(pure reinforcement learning),來創(chuàng)建R1。這個過程是通過獎勵模型得出正確答案的方式進行,而不是教它遵循人類挑選的推理范例。該公司表示,其模型正是通過這種方式學會了自身的類推理策略,例如如何在不遵循人類預設策略的情況下驗證其解題過程。為提高效率,該模型還使用了被稱為“組相對策略優(yōu)化”(group relative policy optimization)的技術,即利用估算值為自身的嘗試打分,而不是另外采用一個獨立的算法來做這件事。

孫歡表示,該模型在AI研究人員中“相當有影響力”?!?b>2025年迄今為止,幾乎所有在大語言模型中進行強化學習的研究,都可能或多或少地受到了R1的啟發(fā)。”

關于訓練方式的爭議

今年一月的媒體報道曾暗示,OpenAI研究人員認為,DeepSeek利用了OpenAI模型的輸出來訓練R1,這種方法可以在使用較少資源的情況下加速模型能力的提升。

DeepSeek并未在其論文中公布其訓練數(shù)據(jù)。但是,在與審稿人的交流中,該公司的研究人員聲明,R1并非通過復制OpenAI模型生成的推理范例來學習的。不過他們承認,與大多數(shù)其他大語言模型一樣,R1的基礎模型是在海量網(wǎng)絡數(shù)據(jù)上訓練的,因此它會吸收互聯(lián)網(wǎng)上已有的任何AI生成內(nèi)容。

孫歡認為,這一反駁“與我們在任何出版物中能看到的說法一樣有說服力”。坦斯托爾補充說,盡管他無法百分之百確定R1沒有在OpenAI的范例上進行訓練,但其他實驗室的復現(xiàn)嘗試表明,DeepSeek的這套推理方法可能已經(jīng)足夠好,無需這樣做。“我認為現(xiàn)在的證據(jù)相當清楚,僅使用純粹的強化學習就能獲得非常高的性能,”他說。

孫歡說,對于研究人員而言,R1仍然非常有競爭力。在一項旨在完成分析和可視化數(shù)據(jù)等科學任務的挑戰(zhàn),即ScienceAgentBench基準測試中,孫歡及其同事發(fā)現(xiàn),盡管R1的準確率并非第一,但從平衡能力與成本的角度來看,它是表現(xiàn)最好的模型之一。

坦斯托爾說,其他研究人員現(xiàn)在正嘗試應用創(chuàng)建R1所用的方法,來提高現(xiàn)有大語言模型的類推理能力,并將其擴展到數(shù)學和編程以外的領域。他補充說,從這個意義上講,R1“引發(fā)了一場革命”。(易句)

(本文由AI翻譯,網(wǎng)易編輯負責校對)

延伸閱讀
相關推薦
熱點推薦
陳剛、韋韜會見劉強東

陳剛、韋韜會見劉強東

新京報政事兒
2025-09-20 22:51:35
24歲小伙愛上51歲大媽,大媽性欲高還虐待他,結果被小伙砍成5段

24歲小伙愛上51歲大媽,大媽性欲高還虐待他,結果被小伙砍成5段

胖胖侃咖
2024-04-22 08:00:09
不可觸碰!新加坡總理對48國發(fā)出警告,賴清德:臺軍不可能投降

不可觸碰!新加坡總理對48國發(fā)出警告,賴清德:臺軍不可能投降

虎哥閑聊
2025-09-21 09:32:26
年輕時的斯大林,身高只有1米65,卻是高加索的悍匪。

年輕時的斯大林,身高只有1米65,卻是高加索的悍匪。

歲月有情1314
2025-09-20 21:22:03
“胯寬腰粗”的身材太有看點了,黑色瑜伽褲,穿出霸氣十足高級感

“胯寬腰粗”的身材太有看點了,黑色瑜伽褲,穿出霸氣十足高級感

小喬古裝漢服
2025-09-19 15:20:20
國民黨改選三強鼎立!鄭麗文叫板對手 力挺 “兩岸同屬一中” 樹立場

國民黨改選三強鼎立!鄭麗文叫板對手 力挺 “兩岸同屬一中” 樹立場

愛意隨風起呀
2025-09-21 16:36:40
爺青回 50歲小李子近照曝光,顏值回春瘦成閃電,這是受啥刺激了

爺青回 50歲小李子近照曝光,顏值回春瘦成閃電,這是受啥刺激了

洲洲影視娛評
2025-09-20 22:56:45
那些無用的知識,不僅侮辱智商,還誤導生命的流向

那些無用的知識,不僅侮辱智商,還誤導生命的流向

深度報
2025-09-19 21:16:25
羅永浩事件徹底升級!21元饅頭戳破西貝底褲,于東來也翻車了

羅永浩事件徹底升級!21元饅頭戳破西貝底褲,于東來也翻車了

介知
2025-09-20 15:59:34
消失30年的大湖死而復生,西北沙漠發(fā)洪水,北方生態(tài)要逆轉(zhuǎn)了?

消失30年的大湖死而復生,西北沙漠發(fā)洪水,北方生態(tài)要逆轉(zhuǎn)了?

Hi科普啦
2025-09-20 10:20:06
睡完首富睡總統(tǒng):從撈女到頂級名媛,靠男人拿到268億,她憑啥?

睡完首富睡總統(tǒng):從撈女到頂級名媛,靠男人拿到268億,她憑啥?

毒sir財經(jīng)
2025-07-29 16:27:45
局座張召忠:如果他連任兩屆的話,他一定能把美國從老大帶成老二

局座張召忠:如果他連任兩屆的話,他一定能把美國從老大帶成老二

大道無形我有型
2025-09-21 13:47:54
梁曉聲:中國富豪家庭92%將子女送往英美私校,既規(guī)避教育內(nèi)卷...

梁曉聲:中國富豪家庭92%將子女送往英美私校,既規(guī)避教育內(nèi)卷...

清風拂心
2025-09-14 13:15:08
定了!連續(xù)免費8天

定了!連續(xù)免費8天

魯中晨報
2025-09-21 14:41:02
中國男籃終于硬氣一回!U23男隊爆冷美國隊:殺進三人世界杯八強

中國男籃終于硬氣一回!U23男隊爆冷美國隊:殺進三人世界杯八強

籃球快餐車
2025-09-21 08:20:18
3分慘案折射國羽女單困境,沒人能對抗安洗瑩,長期薅陳雨菲遮羞

3分慘案折射國羽女單困境,沒人能對抗安洗瑩,長期薅陳雨菲遮羞

楊華評論
2025-09-21 16:04:04
“法官沒良心” 值10萬?農(nóng)婦罵了句實話,法院道歉退錢后更揪心了

“法官沒良心” 值10萬?農(nóng)婦罵了句實話,法院道歉退錢后更揪心了

熱風追逐者
2025-09-21 14:10:06
英媒:艦載無人機將改變未來海軍戰(zhàn)術

英媒:艦載無人機將改變未來海軍戰(zhàn)術

參考消息
2025-09-21 12:04:32
直擊iPhone17系列開售:最高溢價700元,藍色不受寵,標準版也得加價

直擊iPhone17系列開售:最高溢價700元,藍色不受寵,標準版也得加價

鈦媒體APP
2025-09-19 09:08:15
恭喜!中國女排2米巨頭復活,聯(lián)手李盈瑩沖冠,趙勇明年召回她?

恭喜!中國女排2米巨頭復活,聯(lián)手李盈瑩沖冠,趙勇明年召回她?

李喜林籃球絕殺
2025-09-21 15:49:03
2025-09-21 18:12:49

科技要聞

蔚來全新ES8正式上市:售價40.68萬元起

頭條要聞

貴州2億元殯儀館荒廢8年至今 兩位投資人到死沒見開業(yè)

頭條要聞

貴州2億元殯儀館荒廢8年至今 兩位投資人到死沒見開業(yè)

體育要聞

在意甲最草根的球會 創(chuàng)造新的"萊斯特奇跡"

娛樂要聞

西安街頭邂逅趙露思,美到讓人不敢認

財經(jīng)要聞

OpenAI想殺入蘋果“腹地”

汽車要聞

全系華為+寧德時代 阿維塔07 26款售21.99萬元起

態(tài)度原創(chuàng)

教育
時尚
本地
旅游
健康

教育要聞

小升初壓軸題,求陰影部分的面積,難倒了不少人

杭州,居然是一個巨大的真人尋寶游戲!

本地新聞

大學生軍訓哪家強,廣西申請“出戰(zhàn)”!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

內(nèi)分泌科專家破解身高八大謠言

無障礙瀏覽 進入關懷版
×
精品丰满熟女一区二区三区| 国产在线成人综合| 色综合热无码热国产| 国产av亚洲精品ai换脸电影| Av天堂亚洲凹凸| 日本不卡在线视频二区三区| 制服丝袜人妻综合第一页| 久久午夜夜伦鲁鲁片不卡| 美女在线观看www| 日韩成人福利视频在线观看| 在线日韩人妻| 亚洲一区二区日韩综合久久| 人人操人人乐| 3级国产操逼片| 国产精品国产三级国产av品爱网| 国产精品久久久久久久久| 亚洲成人综合在线| 国产卡一卡二卡3卡4乱码| 一边呻吟一边吞精的少妇| 激情国产内射| 午夜免费视频观看| av成人激情| 国产成人精品一区二三区| 丁香六月在线观看| 亚洲精品乱码久久久久久中文字幕| 无码av高潮喷水无码专区线 | 精品人妻无码| 亚洲国产精品久久久久4婷婷| 亚洲日韩中文在线精品第一| 精品国产精品国产偷麻豆| 亚洲欧美精品一中文字幕| 日韩大片在线| 色综合 图片区 小说区| 国产精神高潮呻吟久久AV无码| 女人与公拘交酡zozo| 韩一区二区三区| 国产成人8X人网站视频| 亚洲人妻无码破解| av一区二区三区人妻少妇 | 熟妇人妻无码一区二区三区Av| 亚洲天天做日日做天天谢日日欢|