夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

德國團隊基于DeepSeek打造R1T2模型,速度比R1-0528快200%

0
分享至

DeepSeek-R2 姍姍來遲,業(yè)內(nèi)人士似乎等不及了?這不,德國 TNG Technology Consulting GmbH 公司(下稱 TNG)基于 DeepSeek R1-0528 新版本,推出了一款速度提升 200% 的 DeepSeek-TNG R1T2 Chimera 模型(下稱 R1T2)。R1T2 是一款擁有 6710 億參數(shù)的開源混合模型,也是 TNG 團隊 Chimera 大模型系列中的最新型號。DeepSeek-R1-0528 因其擴展的思維鏈推理而傾向于給出長篇大論的詳細(xì)回答,而本次 R1T2 的設(shè)計更加簡潔,它在使用明顯更少的詞匯的同時,也能給出同樣智能的回答。另外,R1T2 再次使用了由 TNG 團隊提出的集合專家(AoE,Assembly-of-Experts)方法。


(來源:arXiv)

值得注意的是,TNG 的聯(lián)合創(chuàng)始人亨利克·克萊格斯(Henrik Klagges)是相關(guān)論文的第一作者,領(lǐng)英頁面顯示他聯(lián)合創(chuàng)辦 TNG 已有 24 年之久。


圖 | 相關(guān)論文(來源:arXiv)

1994 年,克萊格斯從英國牛津大學(xué)畢業(yè)后,于 2001 年創(chuàng)辦了 TNG。目前,該公司擁有 917 名員工,99.9% 的員工為學(xué)術(shù)人員,并且超過 50% 的員工擁有數(shù)學(xué)、物理和計算機科學(xué)的博士學(xué)位。也就是說,作為一個基于 DeepSeek 做變體模型的團隊,TNG 并不是一個無名小卒。


(來源:領(lǐng)英)

此前,在相關(guān)實驗結(jié)果以及混合專家(MoE,Mixture of Experts)模塊化結(jié)構(gòu)的啟發(fā)之下,TNG 團隊將 DeepSeek-V3-0324 和 DeepSeek-R1 的路由專家張量進(jìn)行合并,由此打造了 DeepSeek-R1T-Chimera 模型(下稱 R1T)。而本次推出的 R1T2 在保留 DeepSeek-R1 推理性能的同時,在效率和速度方面實現(xiàn)了顯著提升。在不損失或幾乎不損失智能的情況下顯著降低了冗余度,這意味著它能產(chǎn)生更短的響應(yīng),從而能夠直接轉(zhuǎn)化為更快的推理速度和更低的計算成本。

作為 R1T 的后續(xù)版本,R1T2 還引入了一種新的“Tri-Mind”配置,該配置集成了三個父模型:DeepSeek-R1-0528、DeepSeek-R1 和 DeepSeek-V3-0324。

據(jù)介紹,R1T2 是在沒有進(jìn)一步微調(diào)或重新訓(xùn)練的情況下構(gòu)建的,它繼承了 DeepSeek-R1-0528 的推理能力、DeepSeek-R1 的結(jié)構(gòu)化思維模式以及 DeepSeek-V3-0324 的簡潔指令導(dǎo)向的行為特性,因此是一個更高效、更強大的模型。

AI 開發(fā)者社區(qū)對此反應(yīng)也比較積極,Hugging Face 的高級領(lǐng)導(dǎo) Vaibhav(VB)Srivastav 在 X 上寫道:“太棒了!DeepSeek R1T2——比 R1-0528 快 200%,比 R1 快 20%。在 GPQA 和 AIME 24 數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于 R1,并采用 DS V3、R1 和 R1-0528 組合打造了集合專家架構(gòu),而且它使用 MIT 許可協(xié)議,目前已在 Hugging Face 上開放?!?/p>


(來源:X)

TNG 團隊提供的基準(zhǔn)比較結(jié)果顯示,在 AIME-24、AIME-25 和 GPQA-Diamond 測試集的評估下,R1T2 的推理性能達(dá)到了其最智能父模型 DeepSeek-R1-0528 的 90% 至 92%。

與此同時,TNG 團隊并不側(cè)重于原始處理時間或每秒處理的 token 數(shù)量,而是以每個答案的輸出 token 數(shù)量來衡量“速度”,他們將這視為一種能夠同時反映成本和延遲的實用指標(biāo)。R1T2 生成響應(yīng)所需的 token 量大約為 DeepSeek-R1-0528 的 40%,這意味著輸出長度減少了 60%,從而能夠直接減少推理時間和計算負(fù)載,進(jìn)而能使響應(yīng)速度提高 200%。與原始的 DeepSeek-R1 相比,R1T2 的平均簡潔度也提高了約 20%,這為高通量或成本敏感的部署帶來了顯著的效率提升。并且,這種高效性并未以犧牲智能為代價。正如 TNG 團隊的基準(zhǔn)圖表所展示的,R1T2 在“智能 vs. 輸出成本”曲線上處于一個理想?yún)^(qū)域。它在保持推理質(zhì)量的同時能夠大幅減少冗余輸出,這一特性對于那些對推理速度、吞吐率和成本都有嚴(yán)格要求的企業(yè)級應(yīng)用至關(guān)重要。


(來源:arXiv)



集合專家與混合專家有何不同?

如前所述,TNG 團隊曾提出了集合專家(AoE,Assembly-of-Experts)方法,這是一種通過有選擇地合并多個預(yù)訓(xùn)練模型的權(quán)重張量(內(nèi)部參數(shù))來構(gòu)建大模型的技術(shù)。

很多人對于混合專家(MoE,Mixture-of-Experts)并不陌生,MoE 是一種架構(gòu)設(shè)計,其中不同的組件或“專家”會根據(jù)輸入有條件地被激活。對于典型的 MoE 大模型比如 DeepSeek-V3 和 Mixtral來說,在任何給定 token 的前向傳遞過程中,只有模型專家層的一個子集處于活動狀態(tài)(例如,256 個中的 8 個)。這使得超大規(guī)模模型在實現(xiàn)更高參數(shù)量和更強專業(yè)化的同時,仍能保持可控的推理成本,因為每個 token 只需激活網(wǎng)絡(luò)中的一小部分子模塊。

在預(yù)訓(xùn)練期間,大模型計算一個 8 位權(quán)重需要 10^13 至 10^15 次浮點運算(FLOPs,F(xiàn)loating-Point Operations),不僅成本極高而且效率低下。正是為了更好地利用對預(yù)訓(xùn)練模型的大量投資,TNG 團隊開發(fā)了 AoE。AoE 是一種模型融合技術(shù),而非一種架構(gòu)。它通過有選擇地插值多個預(yù)訓(xùn)練的 MoE 模型的權(quán)重張量,以用于從這些模型中創(chuàng)建一個新模型。

該方法能夠在線性時間內(nèi)創(chuàng)建現(xiàn)有 MoE 父模型的高效子模型變體。模型權(quán)重張量會被單獨進(jìn)行插值處理,從而能夠增強或抑制父模型的語義特征。通過改變從父模型中提取的權(quán)重比例,TNG 團隊觀察到 AoE 子模型的一些特性會逐漸變化,而其他行為特征則會發(fā)生急劇轉(zhuǎn)變。

另據(jù)悉,AoE 中的“專家”指的是正在合并的模型組件,通常是 MoE 層中路由的專家張量,而非在運行時動態(tài)激活的專家。TNG 團隊對于 AoE 的實現(xiàn)主要側(cè)重于合并路由專家張量,這是模型中負(fù)責(zé)專門推理的部分,同時通常會保留來自 DeepSeek-V3-0324 等更快模型中更高效的共享層和注意力層。這種方法使得 TNG 團隊生成的 R1T 和 R1T2 這一系列 Chimera 模型能夠繼承推理能力,同時避免了最強父模型的冗長性或延遲問題。


(來源:arXiv)



歐洲企業(yè)或面臨使用受限

對于 CTO、AI 平臺所有者、工程主管和 IT 采購團隊而言,R1T2 帶來了切實的益處和戰(zhàn)略選擇:

其一,推理成本更低:由于每項任務(wù)的輸出 token 更少,R1T2 減少了 GPU 時間和能耗,直接節(jié)省了基礎(chǔ)設(shè)施成本,這在高吞吐量或?qū)崟r環(huán)境中尤為重要。

其二,高推理質(zhì)量無冗余:R1T2 保留了 DeepSeek-R1-0528 等頂級模型的大部分推理能力,但沒有它們?nèi)唛L的缺點。這非常適合數(shù)學(xué)、編程、邏輯等結(jié)構(gòu)化任務(wù),在這些任務(wù)中,簡潔的答案更受歡迎。

其三,開源且可修改:MIT 許可證允許完全的部署控制和定制,支持在受監(jiān)管環(huán)境或隔離環(huán)境中進(jìn)行私有托管、模型對齊或進(jìn)一步訓(xùn)練。

其四,新興的模塊化:AoE 方法預(yù)示著一個模型將以模塊化方式構(gòu)建的未來。在這種未來場景中,企業(yè)無需從頭開始重新訓(xùn)練,而是可以通過重組現(xiàn)有模型的優(yōu)勢來組裝出專門的變體。

需要注意的是,R1T2 依賴函數(shù)調(diào)用、工具使用或高級代理編排的企業(yè)應(yīng)注意當(dāng)前的局限性,盡管未來的 Chimera 更新可能會彌補這些不足。

目前,TNG 團隊已通過 OpenRouter 和 Chutes 等平臺提供了早期的 Chimera 變體,這些平臺每天處理數(shù)十億個 token。而 R1T2 的發(fā)布標(biāo)志著這一公開可用性工作的進(jìn)一步發(fā)展。

TNG 團隊指出,盡管該模型非常適合通用推理任務(wù),但由于繼承自 DeepSeek-R1 系列的限制,目前不建議將其用于需要函數(shù)調(diào)用或工具使用的場景。

作為一家歐洲公司,TNG 團隊還建議歐洲用戶評估其是否符合將于 2025 年 8 月 2 日生效的《歐盟 AI 法案》的規(guī)定。在歐盟運營的企業(yè)應(yīng)審查相關(guān)規(guī)定,若無法滿足要求,則應(yīng)考慮在該日期后停止使用該模型。

然而,在美國國內(nèi)運營并為美國用戶或其他國家用戶提供服務(wù)的美國公司,不受《歐盟 AI 法案》條款的約束,這將使其在使用和部署這一免費、快速的開源推理模型時擁有相當(dāng)大的靈活性。但是,如果他們?yōu)闅W盟用戶提供服務(wù),則《歐盟 AI 法案》中的一些條款仍然適用。

總的來說,之前是國內(nèi)開發(fā)者基于國外模型做變體研究,現(xiàn)在逐漸開始反過來,這也映照了中國科技從跟跑到并肩跑,再到逐漸能起到一定引領(lǐng)作用的大趨勢。

參考資料:

相關(guān)論文:https://arxiv.org/pdf/2506.14794

Hugging Face:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera

https://x.com/reach_vb/status/1940536684061643239

https://www.linkedin.com/in/vaibhavs10/

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
游客在西安被毆打后續(xù):打到昏迷腦震蕩,背后原因曝光,當(dāng)?shù)鼗貞?yīng)

游客在西安被毆打后續(xù):打到昏迷腦震蕩,背后原因曝光,當(dāng)?shù)鼗貞?yīng)

北緯的咖啡豆
2025-08-07 16:19:23
85年我在新疆救下一名藏族女子,退伍前夜,首長突然叫住了我

85年我在新疆救下一名藏族女子,退伍前夜,首長突然叫住了我

今天說故事
2025-07-21 17:26:36
江蘇男子2次報案,民警卻拒不派警,致一家四口被殺,法院判了

江蘇男子2次報案,民警卻拒不派警,致一家四口被殺,法院判了

冰雅憶史
2025-08-10 02:20:03
被網(wǎng)友的84妙用驚呆!看前:不就個消毒的,看后:你是我的神!

被網(wǎng)友的84妙用驚呆!看前:不就個消毒的,看后:你是我的神!

新住家居
2025-07-29 18:31:14
機器人+PEEK材料,核心龍頭股梳理

機器人+PEEK材料,核心龍頭股梳理

八百者也
2025-08-10 08:49:20
56歲王菲沒想到,辛苦養(yǎng)大的唇腭裂女兒李嫣,早為親爹李亞鵬爭光

56歲王菲沒想到,辛苦養(yǎng)大的唇腭裂女兒李嫣,早為親爹李亞鵬爭光

春序娛樂
2025-08-09 08:31:59
??社區(qū)盾魔咒!過去14年的社區(qū)盾冠軍僅曼城1次奪得當(dāng)賽季英超冠軍

??社區(qū)盾魔咒!過去14年的社區(qū)盾冠軍僅曼城1次奪得當(dāng)賽季英超冠軍

雷速體育
2025-08-10 15:51:09
上海女博士在家8年未出門,警察破門后,屋內(nèi)景象讓人傻眼

上海女博士在家8年未出門,警察破門后,屋內(nèi)景象讓人傻眼

蘭姐說故事
2025-04-28 10:00:09
GPT-5很強,但也很無趣。

GPT-5很強,但也很無趣。

差評XPIN
2025-08-09 00:14:53
爭議!武磊拄拐進(jìn)場慶祝,與申花球迷沖突,顏駿凌一旁替他賠笑臉

爭議!武磊拄拐進(jìn)場慶祝,與申花球迷沖突,顏駿凌一旁替他賠笑臉

風(fēng)過鄉(xiāng)
2025-08-10 14:09:46
回顧麻豆傳媒:曾經(jīng)一部視頻就獲利將近10萬,女演員月薪10萬起步

回顧麻豆傳媒:曾經(jīng)一部視頻就獲利將近10萬,女演員月薪10萬起步

就一點
2025-08-05 00:35:18
兒子換房,我出70萬,我問哪間是我的,兒子沉默親家母臉色大變

兒子換房,我出70萬,我問哪間是我的,兒子沉默親家母臉色大變

徐俠客有話說
2025-08-08 17:23:18
越來越多人懷念八十年代,實質(zhì)是對覺醒、寬容和人性回歸的期盼!

越來越多人懷念八十年代,實質(zhì)是對覺醒、寬容和人性回歸的期盼!

深度報
2025-07-31 20:55:47
曹云金再次讓全網(wǎng)刮目相看,離婚6年消失了6年的前妻唐菀,后悔嗎

曹云金再次讓全網(wǎng)刮目相看,離婚6年消失了6年的前妻唐菀,后悔嗎

趙仔說
2025-08-09 12:55:10
91年原39軍副軍長訪問朝鮮,臨走時卻被金日成攔?。耗氵€不能離開

91年原39軍副軍長訪問朝鮮,臨走時卻被金日成攔?。耗氵€不能離開

說一說歷史
2025-08-09 12:06:21
廣東男籃確定大外援人選,報價臂展2米18悍將,NBA場均7.1+4.4!

廣東男籃確定大外援人選,報價臂展2米18悍將,NBA場均7.1+4.4!

中國籃壇快訊
2025-08-10 16:14:19
小楊阿姨說:玥兒一直想去看媽媽!光頭墓地不走,徐家不表態(tài)難辦

小楊阿姨說:玥兒一直想去看媽媽!光頭墓地不走,徐家不表態(tài)難辦

鄉(xiāng)野小珥
2025-08-10 02:22:59
亞洲杯狂歡一夜!三個小組第一出爐,中國男籃淘汰賽對手基本確定

亞洲杯狂歡一夜!三個小組第一出爐,中國男籃淘汰賽對手基本確定

知軒體育
2025-08-10 16:17:38
?!芭荨滨r肉!富婆砸錢3000萬自演絕世美人,被罵到退圈

?!芭荨滨r肉!富婆砸錢3000萬自演絕世美人,被罵到退圈

鄉(xiāng)野小珥
2025-08-09 17:38:17
突發(fā)!張晉國外突發(fā)心臟病險喪命,搶救細(xì)節(jié)曝光,蔡少芬崩潰發(fā)文

突發(fā)!張晉國外突發(fā)心臟病險喪命,搶救細(xì)節(jié)曝光,蔡少芬崩潰發(fā)文

扒星人
2025-08-10 13:32:32
2025-08-10 18:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15503文章數(shù) 513972關(guān)注度
往期回顧 全部

科技要聞

機器人大會:展臺水泄不通 觀眾眼里放光!

頭條要聞

媒體報道男子拒付52萬婚宴食材款被訴 當(dāng)事人:遭網(wǎng)暴

頭條要聞

媒體報道男子拒付52萬婚宴食材款被訴 當(dāng)事人:遭網(wǎng)暴

體育要聞

時隔10年全勝出線,中國男籃收獲了什么?

娛樂要聞

謝霆鋒:把世人的唾棄碾成階梯

財經(jīng)要聞

機器人企業(yè)老總要200萬月薪 投資人怒了

汽車要聞

長安啟源全新Q05:10萬級配激光雷達(dá)和小藍(lán)燈

態(tài)度原創(chuàng)

本地
藝術(shù)
旅游
手機
軍事航空

本地新聞

非遺里的天津|讓盛唐的榮華,在蠶絲銅絲間復(fù)活

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

《野生世界》第四集《猩猩》登陸蘋果Vision Pro,用戶可免費觀看

軍事要聞

俄方要求烏克蘭作出重大領(lǐng)土讓步

無障礙瀏覽 進(jìn)入關(guān)懷版 中文字幕偷情| 精品国产亚洲一区二区三区演员表 | 国产成年码AV片在线观看| 精品88在线播放| 日本三级欧美三级人妇视频黑白配 | 精品不卡一区二区| 狠狠干综合影院| 亚洲AV无码专区国产精品片在线| 亚洲精品一区二区在线播| 天堂成品人短视频| 日本熟妇hd| 99精品视频在线观看婷婷| 18禁超污无遮挡无码网址| chinese 国产精品| 国产一区二区三区不卡在线观看 | 精品人妻无码一区二区蜜桃99 | 国产精品高清一区二区不卡| 亚洲无码肏屄视频| 国产狂喷潮在线观看| 北条麻妃在线一区二区| 韩国少妇XXXX搡XXXX搡| 无码精品人妻一区二区湖北九色| 人妻日韩人妻中文字幕| 欧美精品码一区二区三区免费观看| 人人爱人人射| 日韩精品一区二区三区中文无码| 美州久久久毛片| 性大毛片视频| 国产性猛交╳xxx乱大交| 蜜臀av久一久一一区| 99人人精品| 亚洲偷自拍国综合| 免费无码成人AV片在线在线播放 | 欧美操逼一区二区三区2020| 熟妇乱伦图片| 最新高清毛片| 亚洲中文字幕一区精品自拍| 95无码人妻精品一区二区三区| 亚洲韩欧美第25集完整版| 国产无套白浆一区二区| 中文字幕无线码一区二区|