夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

梁文鋒領銜團隊在《自然》發(fā)論文了…

0
分享至

設置星標 關注,從此你的世界多點科學~


今年1月,來自杭州的深度求索公司攜開源推理模型DeepSeek-R1火爆全網(wǎng)。

AI專家盛贊其“純強化學習”的創(chuàng)新范式讓模型自我進化、擺脫對人工標注文本的依賴,業(yè)內(nèi)同行驚嘆于其超高性能背后的超低投入,金融市場則以股價巨震向這位物美價廉的數(shù)學大師、編程高手、推理王者致敬。

DeepSeek-R1是開放權重模型(訓練參數(shù)對公眾公開),可供任何人下載使用。時至今日,它在AI開源社區(qū)Hugging Face上的下載量已超過1090萬次,是目前同類模型里最受歡迎的。此外,它還剛剛成為全球第一款經(jīng)過完整同行評審的大語言模型(LLM)。

9月17日,深度求索創(chuàng)始人梁文鋒及其團隊正式于《自然》雜志發(fā)表封面文章,詳細闡述了他們強化標準LLM、升級推理策略的方式和過程。

DeepSeek的核心創(chuàng)新在于采用純強化學習(pure reinforcement learning)這一自動化試錯方法構(gòu)建R1:通過獎勵機制驅(qū)動模型自己得出正確答案,而非教它遵循人類選擇的推理示例。因此,DeepSeek-R1能在“獨立思考”中學習形成自己的推理策略,例如“怎樣不受人類思維影響地驗證自己的結(jié)果”。

為提升效率,模型選擇估計值(而非獨立算法)來給自己的工作評分——此項技術被稱為“群體相對策略優(yōu)化”(GRPO),屬于強化學習中的一種優(yōu)化方法,允許模型在訓練時通過自我評估和群體比較以求增效。

有同行表示,DeepSeek-R1已對人工智能學界產(chǎn)生“相當顯著的影響”,2025年幾乎所有給大語言模型上強化學習的研究都“或多或少受到R1啟發(fā)”。

另一方面,新論文在補充材料中首次披露了R1模型的訓練成本——區(qū)區(qū)29.4萬美元。構(gòu)建基礎LLM的投入則為600萬美元。這是什么概念呢?OpenAI、谷歌DeepMind、Meta等AI巨頭的模型訓練成本都是幾千萬起步的。

值得一提的是,R1主要采用英偉達H800芯片進行訓練,而該芯片在2023年因美國出口管制禁令而被禁止對華銷售。

此外,梁文鋒等人根據(jù)評審意見減少了擬人化表述,并補充了技術細節(jié)說明,包括模型訓練數(shù)據(jù)類型和安全性方面的內(nèi)容。

Hugging Face的機器學習工程師劉易斯·坦斯托爾(Lewis Tunstall)是這篇《自然》新作的評審者之一。在他看來,如果不樹立“將模型的大部分開發(fā)過程與學界共享”的規(guī)范,同行就沒法評估系統(tǒng)是否存在風險。

俄亥俄州立大學的人工智能研究員孫歡則指出,嚴格的同行評審過程確實有助于驗證模型的有效性和實用性,其他公司應當效仿DeepSeek。

此前有媒體報道OpenAI方面對DeepSeek-R1的質(zhì)疑:深度求索團隊可能使用了OpenAI模型的輸出數(shù)據(jù)來訓練R1,這幫助他們以更少資源取得更高性能。

梁文鋒等人未通過論文公開訓練數(shù)據(jù),但根據(jù)他們與評審人員的交流內(nèi)容,R1并未復制OpenAI模型生成的推理示例以開展學習。不過他們也承認,與大多數(shù)大語言模型一樣,R1的基礎模型確實“上網(wǎng)”練過,因此必然吸收互聯(lián)網(wǎng)上既有的AI生成內(nèi)容。

坦斯托爾認為,雖無法百分百確定R1未使用OpenAI的示例進行訓練,但其他實驗室的復現(xiàn)結(jié)果已證明,DeepSeek的推理方案可能足夠優(yōu)秀了,優(yōu)秀到不必做那種事。“僅靠純強化學習就可實現(xiàn)極高性能!”

他還表示,目前很多同行正嘗試運用R1的開發(fā)方法,既增強現(xiàn)有LLM的類推理能力,又將其應用領域拓展至數(shù)學和編程之外?!癛1成功引領了一場變革。”

孫歡指出,對研究者來說,R1很強很好用。在做數(shù)據(jù)分析和可視化等科學任務時,R1的準確率并未遙遙領先,但它最好地平衡了性能與成本。

資料來源:


《世界科學》雜志版在售中 歡迎訂閱

月刊定價

15元/期

全年訂閱價

180元

點擊左側(cè)圖片或以下方訂閱方式選購

方式一

掃描二維碼,“雜志鋪”訂閱有折扣~

方式二

全國各地郵局訂閱 郵發(fā)代號:4-263

方式三

機構(gòu)訂閱,請撥打

021-53300839;

021-53300838

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海一輛理想Mega行駛時無碰撞起火,10秒內(nèi)車底連續(xù)爆炸,被燒成空架,多方回應

上海一輛理想Mega行駛時無碰撞起火,10秒內(nèi)車底連續(xù)爆炸,被燒成空架,多方回應

極目新聞
2025-10-24 10:11:14
今天,A股突破3949,不出意外的話,下周大概率會這樣走

今天,A股突破3949,不出意外的話,下周大概率會這樣走

杰絲聊古今
2025-10-24 14:53:11
7億!公牛總部正式亮相,設計真“牛”,網(wǎng)友:不愧是插座一哥

7億!公牛總部正式亮相,設計真“?!?,網(wǎng)友:不愧是插座一哥

GA環(huán)球建筑
2025-10-24 11:34:34
3歲童喝珍珠奶茶蹦床時不幸窒息亡,家長發(fā)聲欲追責;律師分析各方法律責任

3歲童喝珍珠奶茶蹦床時不幸窒息亡,家長發(fā)聲欲追責;律師分析各方法律責任

大風新聞
2025-10-24 15:30:06
臺灣人,難道不是中國人?

臺灣人,難道不是中國人?

新民周刊
2025-10-24 09:12:18
張雪峰改口,慫了?

張雪峰改口,慫了?

獨角鯨工作坊
2025-10-24 13:11:57
理想汽車回應MEGA起火事故:駕乘人員全部安全離車 將積極配合消防部門調(diào)查

理想汽車回應MEGA起火事故:駕乘人員全部安全離車 將積極配合消防部門調(diào)查

財聯(lián)社
2025-10-24 11:44:15
被家暴16次小謝財產(chǎn)分割已宣判 144萬現(xiàn)金不知能否拿到

被家暴16次小謝財產(chǎn)分割已宣判 144萬現(xiàn)金不知能否拿到

大象新聞
2025-10-24 13:45:03
特朗普赦免幣安創(chuàng)始人趙長鵬

特朗普赦免幣安創(chuàng)始人趙長鵬

澎湃新聞
2025-10-24 11:20:28
特朗普稱將對委內(nèi)瑞拉采取地面行動

特朗普稱將對委內(nèi)瑞拉采取地面行動

極目新聞
2025-10-24 14:39:47
武漢一女子遭遇APP投資騙局:起訴被法院駁回,警方又不立案

武漢一女子遭遇APP投資騙局:起訴被法院駁回,警方又不立案

上游新聞
2025-10-24 15:04:05
交付量破4萬臺,黑馬領克900快速晉升為標桿

交付量破4萬臺,黑馬領克900快速晉升為標桿

汽車投訴網(wǎng)
2025-10-24 11:53:42
楊振寧的大部分遺產(chǎn)都已捐贈,給翁帆留了3000萬啟動資金

楊振寧的大部分遺產(chǎn)都已捐贈,給翁帆留了3000萬啟動資金

金牌娛樂
2025-10-22 09:41:52
潘石屹的“提前下車術”:別人在還債,他在和老婆在紐約享受生活

潘石屹的“提前下車術”:別人在還債,他在和老婆在紐約享受生活

李昕言溫度空間
2025-10-23 20:23:55
美對俄制裁邁出歷史性一步,歐盟蕭規(guī)曹隨招招致命

美對俄制裁邁出歷史性一步,歐盟蕭規(guī)曹隨招招致命

史政先鋒
2025-10-23 17:30:07
退役6年 41歲前阿森納中場變大富豪:資產(chǎn)超100億鎊 會見英國國王

退役6年 41歲前阿森納中場變大富豪:資產(chǎn)超100億鎊 會見英國國王

風過鄉(xiāng)
2025-10-24 12:24:43
突發(fā)!宗馥莉辭職41天后,有經(jīng)銷商收通知:明年繼續(xù)賣娃哈哈;此前有娃哈哈經(jīng)銷商稱被要求不能代理“娃小宗”

突發(fā)!宗馥莉辭職41天后,有經(jīng)銷商收通知:明年繼續(xù)賣娃哈哈;此前有娃哈哈經(jīng)銷商稱被要求不能代理“娃小宗”

每日經(jīng)濟新聞
2025-10-24 00:42:05
高市早苗內(nèi)閣名單出爐,日本知名寫真女星入選!曾因搞不清“糧食自給率”出丑

高市早苗內(nèi)閣名單出爐,日本知名寫真女星入選!曾因搞不清“糧食自給率”出丑

紅星新聞
2025-10-24 13:54:04
趙長江辭職:凌晨還回用戶消息的85后,終究沒熬過有職無權的委屈

趙長江辭職:凌晨還回用戶消息的85后,終究沒熬過有職無權的委屈

藍色海邊
2025-10-24 11:11:45
鄭麗文登機赴京前,拋出人事名單,朱立倫回應:不準打破慣例

鄭麗文登機赴京前,拋出人事名單,朱立倫回應:不準打破慣例

一個有靈魂的作者
2025-10-23 19:50:32
2025-10-24 16:51:00
世界科學 incentive-icons
世界科學
《世界科學》編輯部運營賬號
1788文章數(shù) 26894關注度
往期回顧 全部

科技要聞

馬斯克“加倍下注”,再次挑戰(zhàn)特朗普手下

頭條要聞

銀行大廳"業(yè)務員"讓57名儲戶的上千萬元養(yǎng)老錢打水漂

頭條要聞

銀行大廳"業(yè)務員"讓57名儲戶的上千萬元養(yǎng)老錢打水漂

體育要聞

NBA反賭掃黑!楊瀚森一覺起來主教練沒了

娛樂要聞

VOGUE大合照太勢利:影后只能站角落?

財經(jīng)要聞

"十五五"時期,中國將著重辦好這些事

汽車要聞

空間實用/補能高效 吉利藍氣球限時鉅惠價3.99萬元起

態(tài)度原創(chuàng)

教育
時尚
手機
親子
軍事航空

教育要聞

國務院通過!原部屬高校,申博成功

今年秋冬我一定要買這件衣服,越看越心動!

手機要聞

一加Ace 6影像能力全面解析:索尼5000萬像素主攝+OPPO旗艦算法

親子要聞

初秋萬圣親子玩法 | 不得不服,北京遛娃還是太超前了!

軍事要聞

專家:清除加沙地表未爆彈藥或需20多年

無障礙瀏覽 進入關懷版 国产稚嫩高中生呻吟激情在线视频| www.ydrsjk.cn| 激情综合色综合久久综合| 日本午夜精品一本在线观看 | 国产精品一区二区av交换| 精品熟女肥臀一区二区三区| 久99视频| 精品乱码Av一区二区三区| 国产精品久久久久久2021| 人妻性xxxx| 天天日天天透| 拍国产乱人伦偷精品视频| 操东北女人在线| 888,aV| 成人性生交大片100部| 日日噜噜夜夜狠狠视频无码| 国产一区二区在线有码| 国产精品久久久久无码AV铜川| 综合色一色综合久久网| 免费永久AV| 欧美在线看片a免费观看| 中文字幕熟女乱伦| 中文字幕无线码一区2020青青| 欧美性少妇freesexhd| 亚洲香蕉中文日韩v日本| 成人影视 亚洲无码| 无码国产精品一区二区免费i6| 日韩二人作爱视频| 成人在线综合| 国产成人无码免费视频在线| 无码人妻av一区二区三区波多野| 久久毛片免费看视频粉嫩| 亚州AV天堂| 午夜成人性游戏视频| 国产真人性做爰久久网站| 中文字幕无码国产| 少妇一级无码av专区| 亚洲激情成人综合网| 欧美午夜不卡影院| 谁有国产精品久久国的网站| 中文在线数据库官网av|