夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek R-1更新,讓人更期待R2的“雄心與真誠”

0
分享至

R2沒來,R1-0528來了。

這款以半年前的DeepSeek V3 Base模型為基座,在后訓(xùn)練階段投入更多算力的升級版推理模型,同樣非常能打,讓DeepSeek穩(wěn)居全球第二AI實(shí)驗(yàn)室的位置。寬松的MIT許可也沒變化,兌現(xiàn)了向全球技術(shù)生態(tài)提供強(qiáng)大開源模型的承諾。這更讓人期待V4與真正的R2了。

在多項(xiàng)基準(zhǔn)測試中,DeepSeek-R1-0528在數(shù)學(xué)、編程和通用邏輯上的性能,足以媲美最強(qiáng)閉源模型o3和Gemini 2.5 Pro,也超越了最強(qiáng)開源模型Qwen3-235B。它還在幻覺改善、創(chuàng)意寫作、工具調(diào)用與前端代碼生成上有所提升。

獨(dú)立AI分析網(wǎng)站Artificial Analysis很快更新了領(lǐng)先AI大廠模型智能的排名。DeepSeek無論在性能提升還是迭代速度上,都緊緊咬住了OpenAI。差不多兩年前,奧特曼與伊萊亞被問及,開源模型能否趕上GPT-4時(shí),還非常自信地認(rèn)為,即使趕上了,兩者在真正的前沿模型上的差距也會越拉越大;當(dāng)時(shí),DeepSeek正式成立剛剛滿月。


DeepSeek同時(shí)發(fā)布蒸餾版的R1-0528-Qwen3-8B,在數(shù)學(xué)測試中的表現(xiàn),與比它大數(shù)十倍的Qwen3-235B相當(dāng),提升了學(xué)術(shù)界與工業(yè)界對最先進(jìn)AI的可訪問性。DeepSeek官方公眾號特地將這一重要意義加黑加粗了。

在DeepSeek社交媒體平臺X的官方賬號下,開源社區(qū)對它樸素的版本命名規(guī)則給與好評,甚至認(rèn)為在自己心里,它就是R2了。還有不少開發(fā)者在評論里許愿,要求下一代大模型要有更大的上下文窗口,原生的多模態(tài)功能,等等。

不妨結(jié)合DeepSeek的“歷史”與開源社區(qū)的期待,大膽推測一下它的下一代模型會是什么樣吧。

首先,R1-0528從一開始就不是R2,也不是R-1.5。DeepSeek對模型的命名,有其“潛規(guī)則”。要讓“版本號”小升級,至少要有不同Base(基座)模型級別的迭代與功能的合并。

2個(gè)月前,V3-0324更新,也沒有命名為V-3.5。因?yàn)樗c之前的V3一樣,使用了同樣的Base模型,僅改進(jìn)了后訓(xùn)練方法。這次的R1-0528,則主要是在同樣的Base模型上,投入了更多的后訓(xùn)練算力。

但是,DeepSeek是發(fā)布過V-2.5的。這是一款融合了通用與代碼能力的全新開源模型。從V-2升級到V-2.5,涉及到Base模型的切換與模型的合并。2024年5月,初代DeepSeek-V2發(fā)布;6月,DeepSeek-Coder-V2發(fā)布,6月底,V2-0628上線,用Coder-V2的Base模型,替換原有的Chat的Base模型;7月,對齊優(yōu)化的Coder-V2-0724上線;9月,V2-0628與Coder-V2-0724在相同Base模型的基礎(chǔ)上合并,即V-2.5。12月10日,V2.5-1210上線,宣告V2系列收官。兩周后,下一代的DeepSeek-V3開源,官方稱其為“V3的首個(gè)版本”。

第二,成熟度最高的代碼能力,已經(jīng)融合進(jìn)去了;下一代模型很可能就是原生多模態(tài)。

在V系列基礎(chǔ)大型語言模型之外,DeepSeek的團(tuán)隊(duì)一直在各個(gè)分支上嘗試更多元的探索,包括數(shù)學(xué)模型Math以及專門用于數(shù)學(xué)定理證明的模型Prover,混合專家視覺語言模型VL2以及自回歸的統(tǒng)一多模態(tài)理解與生成模型Janus等。

這體現(xiàn)了DeepSeek的“長期主義”與言行一致。代碼與數(shù)學(xué),多模態(tài)與自然語言本身,三者正是DeepSeek創(chuàng)始人梁文鋒押注的三個(gè)方向,“數(shù)學(xué)和代碼是AGI天然的試驗(yàn)場,有點(diǎn)像圍棋,是一個(gè)封閉的、可驗(yàn)證的系統(tǒng),有可能通過自我學(xué)習(xí)就能實(shí)現(xiàn)很高的智能”。

DeepSeek證明了自己可以很好地合并模型;而且,MoE又天然的是多專家的模型。也許最終,這三個(gè)押注方向都會合流。尤其是多模態(tài),一直都是開源社區(qū)對DeepSeek的V4或R2的期待;至少在DeepSeek下一代模型的完整迭代周期內(nèi)實(shí)現(xiàn)。閉源的OpenAI、谷歌已經(jīng)都這么做了。

第三,下一代基礎(chǔ)模型的推出,至少對應(yīng)著新的注意力機(jī)制創(chuàng)新的工程化與商業(yè)化,也越來越對應(yīng)人類對“記憶”該有的樣子的理解。這種將“規(guī)模競賽”進(jìn)一步扭轉(zhuǎn)為“效率競賽”的努力,事實(shí)上變相為“擴(kuò)展定律”續(xù)了命,有利于在更高效的算力支出上研發(fā)更高參數(shù)規(guī)模的大模型,同時(shí)也為應(yīng)用場景進(jìn)一步降低了全面采用AI的成本。

這正是貫穿DeepSeek主力模型迭代始終的主線。DeepSeek-V2對傳統(tǒng)Transformer架構(gòu)的自注意力機(jī)制進(jìn)行了全方位的創(chuàng)新,提出了MLA(多頭潛在注意力)機(jī)制。美國知名半導(dǎo)體分析機(jī)構(gòu)semianalysis敏銳地感覺到,這種架構(gòu)創(chuàng)新將對OpenAI造成麻煩。V3則首創(chuàng)了一種無輔助損失的負(fù)載均衡策略,并設(shè)定了多token預(yù)測訓(xùn)練目標(biāo)以提升性能,以及開創(chuàng)性的適用于FP8精度的訓(xùn)練框架。

最有希望引入V4或R2模型的,也許要數(shù)DeepSeek年初提出的NSA(原生可訓(xùn)練稀疏注意力)機(jī)制。它能帶來的,也正是用戶目前迫切想要的長上下文。更長的上下文,意味著倉庫級代碼生成、多輪智能體間互動以及科研深度的推理能力。但是,注意力計(jì)算在總計(jì)算成本中占比,也會隨著要處理的上下文的序列的增長而急劇增長。而目前很多稀疏注意力機(jī)制只是在特定階段受限起效。

NSA支持端到端的訓(xùn)練,而且硬件對齊友好,通過將文本壓縮為粗粒度語義塊(壓縮數(shù)據(jù)量)、動態(tài)篩選關(guān)鍵片段(減少計(jì)算量),并結(jié)合局部滑動窗口(限定關(guān)注長度),既保留全局理解,又減少冗余計(jì)算。DeepSeek團(tuán)隊(duì)已經(jīng)在27B(3B激活參數(shù))的MoE架構(gòu)模型上做了多項(xiàng)測試,提升顯著。

V4還可能會帶來更多注意力機(jī)制創(chuàng)新。DeepSeek團(tuán)隊(duì)成員提到了一項(xiàng)名為BSBR(帶塊檢索的塊稀疏注意力)的技術(shù),短期記憶用傳統(tǒng)方法處理(塊內(nèi)遞歸),長期記憶則用全局注意力機(jī)制捕捉(塊外全局注意力),保存在 SSD 硬盤里,需要時(shí)快速檢索到GPU上。

第四,DeepSeek之于整個(gè)AI生態(tài),尤其是中國的AI生態(tài)的意義,不僅僅在于它會回答下一代模型怎么樣,還會回答適配下一代模型的基礎(chǔ)設(shè)施怎么樣。

去年至今,它先后用兩篇論文,分別詳細(xì)介紹了如何通過軟硬件協(xié)同優(yōu)化,用A100與H800搭建出“平民版”的智算集群。H800集群已經(jīng)訓(xùn)練出了V2與V3,V4會擁有自己的全新的基礎(chǔ)設(shè)施嗎?


在這個(gè)意義上,今年年初NSA論文里提到的“基于Triton實(shí)現(xiàn)硬件對齊的稀疏”的細(xì)節(jié),讓人回想起去年這個(gè)時(shí)候,微軟、Meta的工程師忙著為Triton優(yōu)化。

這是專為神經(jīng)網(wǎng)絡(luò)計(jì)算設(shè)計(jì)的跨平臺兼容的編程語言和編譯器,提供了一種從CUDA中解耦出來的可能性。當(dāng)Meta發(fā)布第二代MTIA時(shí),其工程師表示Triton “高效”且“與硬件無關(guān)”。不過,在中國以外的市場,大家還都沒有被逼到不用CUDA只用Triton的地步。

此外,開源社區(qū)也有人好奇,隨著后訓(xùn)練的比重越來越大,會出現(xiàn)新的針對強(qiáng)化學(xué)習(xí)優(yōu)化的AI基礎(chǔ)設(shè)施嗎?

25個(gè)月前,DeepSeek在前身幻方量化的公眾號上發(fā)表了其AGI征程宣言,引用到“務(wù)必要瘋狂地?fù)肀坌模瑫r(shí)要瘋狂地真誠”。那么,也讓我們期待DeepSeek的下一代大模型會更具“雄心”與“真誠”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國紅旗防空導(dǎo)彈:防空反導(dǎo)反隱身打衛(wèi)星,不做選擇全部都要

中國紅旗防空導(dǎo)彈:防空反導(dǎo)反隱身打衛(wèi)星,不做選擇全部都要

裝甲鏟史官
2025-09-03 19:50:04
AI戰(zhàn)狼出山,華人工程師竊走了馬斯克整套程式庫!

AI戰(zhàn)狼出山,華人工程師竊走了馬斯克整套程式庫!

木蹊說
2025-09-03 00:35:37
我有一種預(yù)感,勝利日閱兵將成為大轉(zhuǎn)折時(shí)刻的標(biāo)志性記憶

我有一種預(yù)感,勝利日閱兵將成為大轉(zhuǎn)折時(shí)刻的標(biāo)志性記憶

阿爾法34號
2025-09-03 11:35:59
殲-35與殲-35A兩款戰(zhàn)機(jī)各有什么特點(diǎn)?操縱裝置大不同

殲-35與殲-35A兩款戰(zhàn)機(jī)各有什么特點(diǎn)?操縱裝置大不同

環(huán)球網(wǎng)資訊
2025-09-04 07:52:38
全球獨(dú)一份,閱兵最時(shí)髦!為何解放軍要推出空降戰(zhàn)車三件套?

全球獨(dú)一份,閱兵最時(shí)髦!為何解放軍要推出空降戰(zhàn)車三件套?

金戈鐵馬入夢來
2025-09-03 17:33:06
聯(lián)盟將調(diào)查小卡快船涉簽陰陽合同!1規(guī)定成間接證據(jù) 湖媒:太荒謬

聯(lián)盟將調(diào)查小卡快船涉簽陰陽合同!1規(guī)定成間接證據(jù) 湖媒:太荒謬

顏小白的籃球夢
2025-09-03 21:49:19
閱兵式女機(jī)長譚紅梅走紅,她是重慶人,長得漂亮,丈夫身份不一般

閱兵式女機(jī)長譚紅梅走紅,她是重慶人,長得漂亮,丈夫身份不一般

凱旋學(xué)長
2025-09-03 17:46:03
美帝擊沉委內(nèi)瑞拉“運(yùn)毒船”,打響了推翻馬杜羅政權(quán)的第一彈

美帝擊沉委內(nèi)瑞拉“運(yùn)毒船”,打響了推翻馬杜羅政權(quán)的第一彈

李未熟擒話2
2025-09-03 11:57:19
女子帶二孩火車餐車吃泡面被趕后續(xù):人民日報(bào)轉(zhuǎn)發(fā),列車員躺贏

女子帶二孩火車餐車吃泡面被趕后續(xù):人民日報(bào)轉(zhuǎn)發(fā),列車員躺贏

筆墨V
2025-09-03 10:13:37
100式坦克?紅旗-29?東風(fēng)-61?九三閱兵都有哪些亮點(diǎn)?

100式坦克?紅旗-29?東風(fēng)-61?九三閱兵都有哪些亮點(diǎn)?

軍武次位面
2025-09-03 15:51:33
宋楚瑜談九三閱兵感慨:沒人可以再欺負(fù)中華民族

宋楚瑜談九三閱兵感慨:沒人可以再欺負(fù)中華民族

看看新聞Knews
2025-09-04 01:35:05
網(wǎng)傳汽車?yán)走_(dá)能掃描出水泥柱有藏尸?車載雷達(dá)畫面曝光評論區(qū)炸鍋!

網(wǎng)傳汽車?yán)走_(dá)能掃描出水泥柱有藏尸?車載雷達(dá)畫面曝光評論區(qū)炸鍋!

浪花媽媽
2025-09-02 23:02:35
全網(wǎng)瘋找薛凱琪 “小兔子”!又純又欲太出圈,這狀態(tài)說44歲誰信

全網(wǎng)瘋找薛凱琪 “小兔子”!又純又欲太出圈,這狀態(tài)說44歲誰信

七阿姨愛八卦
2025-09-03 23:49:15
金正恩在北京邀請白俄羅斯總統(tǒng)訪問朝鮮,朝鮮官方暫無回應(yīng)

金正恩在北京邀請白俄羅斯總統(tǒng)訪問朝鮮,朝鮮官方暫無回應(yīng)

三湘都市報(bào)
2025-09-03 16:38:30
九三閱兵解說員揭曉,原來是他們兩位,都是央視知名主持人

九三閱兵解說員揭曉,原來是他們兩位,都是央視知名主持人

半窗疏影
2025-09-03 19:53:08
放棄260億、退回路虎!毛阿敏的抉擇與6萬中植投資人日夜渴望!

放棄260億、退回路虎!毛阿敏的抉擇與6萬中植投資人日夜渴望!

新浪財(cái)經(jīng)
2025-09-03 18:15:57
九三閱兵現(xiàn)場:霍震霆哽咽發(fā)言,奧運(yùn)天團(tuán)姚明搶眼,雷軍排隊(duì)好乖

九三閱兵現(xiàn)場:霍震霆哽咽發(fā)言,奧運(yùn)天團(tuán)姚明搶眼,雷軍排隊(duì)好乖

花心電影
2025-09-03 17:07:49
美媒分析東風(fēng)-61,說了半天也搞不清楚:至少確定有這么個(gè)東西

美媒分析東風(fēng)-61,說了半天也搞不清楚:至少確定有這么個(gè)東西

頭條爆料007
2025-09-03 22:01:10
九三閱兵現(xiàn)場:鐘南山不像90歲,姚明霍啟剛同框,杜江張凱麗哽咽

九三閱兵現(xiàn)場:鐘南山不像90歲,姚明霍啟剛同框,杜江張凱麗哽咽

法老不說教
2025-09-03 17:36:17
為什么韓勝延司令員能當(dāng)大閱兵的總指揮?

為什么韓勝延司令員能當(dāng)大閱兵的總指揮?

李昕言溫度空間
2025-09-03 15:08:38
2025-09-04 08:51:00
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
187文章數(shù) 41關(guān)注度
往期回顧 全部

科技要聞

傳蘋果自研AI搜索,明年iPhone將大升級

頭條要聞

19歲姑娘在九三閱兵儀式上擔(dān)任長號手 暑假結(jié)束上大二

頭條要聞

19歲姑娘在九三閱兵儀式上擔(dān)任長號手 暑假結(jié)束上大二

體育要聞

排面!德國大使館盛贊樊振東:世界級巨星

娛樂要聞

劉尚嫻 最幸運(yùn)的事 就是嫁給初戀丈夫

財(cái)經(jīng)要聞

美國8月份關(guān)稅突破310億美元 創(chuàng)歷史新高

汽車要聞

一天一個(gè)樣 方程豹鈦3玩轉(zhuǎn)“面部重組”

態(tài)度原創(chuàng)

時(shí)尚
旅游
教育
手機(jī)
藝術(shù)

鄭合惠子,好容易出cp的一款“雜草系”女演員

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

學(xué)校把處分拍到臉上,劉迪連開口機(jī)會都沒有,教育部文件成了廢紙

手機(jī)要聞

iPhone 17發(fā)布在即,華爾街預(yù)計(jì)新機(jī)難逃提價(jià)命運(yùn)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進(jìn)入關(guān)懷版 精品久久久久久中文字幕无码vr | 国产刺激一区二区三区| 日韩福利视频| 精品国产成人a区在线观看| 国产极品尤物在线| 亚洲中文字幕无码中字| 寂寞少妇做spa按摩无码| 免费六九AV大全无码| 人妻无码精品久久亚瑟影视| 亚洲综合五月天欧美| 欧洲 国产69xxx| 亚洲av无码精品蜜桃| 欧美成人爽片视频在线| 国产97在线 | 日韩| 精品国精品国自产在国产| 激情五月欧美| 亚洲欧美日韩精品久久| 免费黄色在线| 久久中文字幕日韩无码视频| 99国产精品久久久久99打野战| 欧美亚洲成人电影一区二区三区| 欧美黑人粗暴多交高潮水最多 | 久久不见久久见免费影院| 婷婷要玩综合| 五月婷婷六月合| 99久久er热在这里只有精品99| 国产精品口爆一区二区| 人妻久久久一区二区三区| 婷婷综合AV在线| 国产粉嫩系列一区二区三| 国产人成高清在线视频99最全资源| 淫荡人妻小视频| 在线播放av.com| 性生交大全免费看| 最近的中文字幕大全免费| 2022av天堂| 青青青国产在线观看手机免费| 国产成人精品无码免费播放| 日韩av天堂综合网久久| 青草国产羞羞视频| 欧美性爱k8|