夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

只用512張H200!106B模型靠分布式RL殺出重圍,全網(wǎng)開源

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】Prime Intellect發(fā)布的INTELLECT-3,在數(shù)學(xué)、代碼等多項(xiàng)基準(zhǔn)測試中取得同規(guī)模最強(qiáng)表現(xiàn)。該模型旨在將訓(xùn)練前沿模型的技術(shù)棧開放給社區(qū),推動(dòng)大規(guī)模RL研究的普及與發(fā)展。

最近,Prime Intellect正式發(fā)布了INTELLECT-3。

這是一款擁有106B參數(shù)的混合專家(Mixture-of-Experts)模型,基于Prime Intellect的強(qiáng)化學(xué)習(xí)(RL)技術(shù)棧訓(xùn)練。

在數(shù)學(xué)、代碼、科學(xué)與推理的各類基準(zhǔn)測試上,它達(dá)成了同規(guī)模中最強(qiáng)的成績,甚至超越了不少更大的前沿模型。

Prime Intellect已經(jīng)把完整的訓(xùn)練流程——包括模型權(quán)重、訓(xùn)練框架、數(shù)據(jù)集、RL環(huán)境和評(píng)測體系——全部開源,希望能推動(dòng)更多關(guān)于大規(guī)模強(qiáng)化學(xué)習(xí)的開放研究。

INTELLECT-3使用的訓(xùn)練軟件與基礎(chǔ)設(shè)施,與即將在Prime Intellect平臺(tái)向所有人開放的版本完全一致。

這意味著未來每個(gè)人、每家公司都能擁有對(duì)最先進(jìn)模型進(jìn)行后訓(xùn)練的能力。

多項(xiàng)基準(zhǔn),斬獲SOTA

INTELLECT-3是一個(gè)106B參數(shù)的Mixture-of-Experts(MoE)模型,基于GLM 4.5 Air進(jìn)行了監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)訓(xùn)練。

它在數(shù)學(xué)、代碼、科學(xué)和推理類Benchmark上均取得了同體量中的最強(qiáng)表現(xiàn)。


訓(xùn)練框架

訓(xùn)練中,Prime Intellect使用了以下核心組件:

  • PRIME-RL:自研的分布式RL框架,支持監(jiān)督微調(diào)和大規(guī)模MoE模型的強(qiáng)化學(xué)習(xí)。

  • Verifiers 與 Environments Hub:統(tǒng)一的環(huán)境接口與生態(tài),用于各類智能體式RL環(huán)境與評(píng)測。

  • Prime Sandboxes:高吞吐、安全的代碼執(zhí)行系統(tǒng),用于智能體代碼類環(huán)境。

  • 算力編排:在64個(gè)互聯(lián)節(jié)點(diǎn)上的512張NVIDIA H200 GPU完成調(diào)度與管理。

INTELLECT-3完整使用PRIME-RL進(jìn)行端到端訓(xùn)練。

這套框架與Verifiers環(huán)境深度整合,支撐從合成數(shù)據(jù)生成、監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)到評(píng)估的整個(gè)后訓(xùn)練體系。

通過與Environments Hub的緊密連接,訓(xùn)練系統(tǒng)可以順暢訪問不斷擴(kuò)展的環(huán)境與評(píng)測任務(wù)集合。

PRIME-RL最顯著的特點(diǎn)是全分布式(async-only)。

研究團(tuán)隊(duì)在上一代INTELLECT-2時(shí)就已經(jīng)確認(rèn):

RL的未來一定是分布式的,也就是始終處于輕微off-policy的狀態(tài)。

因?yàn)樵陂L時(shí)序智能體rollout中,分布式是唯一能避免速度瓶頸、真正擴(kuò)大訓(xùn)練規(guī)模的方式。


過去6個(gè)月,研究團(tuán)隊(duì)重點(diǎn)做了大量關(guān)于性能、穩(wěn)定性和大規(guī)模效率的消融實(shí)驗(yàn),INTELLECT-3正是這些研究的成果。

Prime Intellect也將在即將上線的Lab平臺(tái)提供托管式PRIME-RL,訪問者無需處理復(fù)雜基礎(chǔ)設(shè)施就能進(jìn)行大規(guī)模RL訓(xùn)練。

訓(xùn)練環(huán)境

INTELLECT-3的訓(xùn)練環(huán)境由Verifiers庫構(gòu)建,并托管于Environments Hub,這是Prime Intellect面向社區(qū)的RL環(huán)境與評(píng)測中心。

Verifiers是當(dāng)前領(lǐng)先的開源工具,用來為模型構(gòu)建RL環(huán)境與評(píng)測任務(wù)。

它提供模塊化、可擴(kuò)展的組件,讓復(fù)雜環(huán)境邏輯也能以簡潔方式描述,同時(shí)保持極高性能與吞吐。

傳統(tǒng)的RL框架通常把環(huán)境強(qiáng)綁定在訓(xùn)練倉庫里,使得版本管理、消融與外部貢獻(xiàn)都不方便。

Environments Hub則把基于Verifiers的環(huán)境作為獨(dú)立、可鎖定版本的Python模塊發(fā)布,并統(tǒng)一入口點(diǎn),讓任務(wù)可以獨(dú)立版本化、共享與持續(xù)迭代。


INTELLECT-3使用的所有環(huán)境和評(píng)測,均已公開在Environments Hub。

為了支持強(qiáng)化學(xué)習(xí),Prime Intellect大幅擴(kuò)展并升級(jí)了自研的Sandboxes基礎(chǔ)設(shè)施。

在幾千條并發(fā)rollout中安全執(zhí)行外部代碼,需要一個(gè)具備亞秒級(jí)啟動(dòng)、毫秒級(jí)執(zhí)行延遲的容器編排層。

雖然Kubernetes提供了底層能力,但常規(guī)架構(gòu)并無法滿足這種高速度的訓(xùn)練需求。

Prime Sandboxes可以繞過Kubernetes控制面板,通過Rust直接與pod通信,做到接近本地進(jìn)程的延遲;即使在大規(guī)模并發(fā)下也能在10秒內(nèi)啟動(dòng),且每個(gè)節(jié)點(diǎn)可穩(wěn)定運(yùn)行數(shù)百個(gè)隔離沙箱。

在Verifiers中,研究人員將沙箱啟動(dòng)與模型首輪推理并行,從而完全消除代碼執(zhí)行前的可感知等待時(shí)間。

算力調(diào)度

研究人員在64個(gè)互聯(lián)節(jié)點(diǎn)上部署了512張NVIDIA H200 GPU。

最大工程挑戰(zhàn)是如何在可能出現(xiàn)硬件故障的分布式系統(tǒng)里保持確定性與同步。

  • 資源準(zhǔn)備:使用Ansible做基礎(chǔ)設(shè)施即代碼、自動(dòng)發(fā)現(xiàn)硬件,并進(jìn)行InfiniBand預(yù)檢以隔離慢節(jié)點(diǎn)或故障節(jié)點(diǎn)。

  • 調(diào)度:通過Slurm + cgroup v2確保任務(wù)可以干凈退出,不會(huì)留下占用GPU顯存的殘留進(jìn)程。

  • 存儲(chǔ):用Lustre提供高吞吐訓(xùn)練I/O,用NVMe NFS作為快速元數(shù)據(jù)與便捷SSH存儲(chǔ)。

  • 可觀測性:通過DCGM + Prometheus監(jiān)控,能在問題擴(kuò)大前快速發(fā)現(xiàn)并下線不穩(wěn)定節(jié)點(diǎn)。

訓(xùn)練方案

INTELLECT-3主要分兩階段:

基于GLM-4.5-Air的監(jiān)督微調(diào),以及大規(guī)模RL訓(xùn)練。

兩個(gè)階段以及多輪消融實(shí)驗(yàn)都在512張H200 GPU上運(yùn)行,總共持續(xù)兩個(gè)月。

研究人員訓(xùn)練了覆蓋數(shù)學(xué)、代碼、科學(xué)、邏輯、深度研究、軟件工程等類別的多樣化RL環(huán)境,用來提升模型的推理與智能體能力。

所有環(huán)境均已在Environments Hub上公開。


所有基準(zhǔn)測試也都提供了標(biāo)準(zhǔn)化且驗(yàn)證過的實(shí)現(xiàn)。

未來,Prime Intellect的工作重點(diǎn)包括:

  • 擴(kuò)展智能體式RL:研究人員將繼續(xù)訓(xùn)練,并更強(qiáng)調(diào)智能體環(huán)境,預(yù)計(jì)能在更多任務(wù)上獲得進(jìn)一步提升。

  • 更豐富的RL環(huán)境:Environments Hub已擁有 500+ 任務(wù),涵蓋研究、電腦使用、定理證明、自動(dòng)化和專業(yè)領(lǐng)域。INTELLECT-3 只用到了其中一小部分,下一步是讓RL覆蓋更多、更高質(zhì)量的社區(qū)任務(wù)。

  • 長時(shí)序智能體:研究人員正在讓模型能夠自我管理上下文(如裁剪上下文、分支推理、維護(hù)輕量外部記憶),從而讓長時(shí)序行為真正可通過RL訓(xùn)練。未來也會(huì)探索專門獎(jiǎng)勵(lì)長時(shí)序推理的環(huán)境。

Prime Intellect正在構(gòu)建開放的超級(jí)智能技術(shù)棧,把訓(xùn)練前沿模型的能力交到每個(gè)人手里。

INTELLECT-3 也證明:即使不是大實(shí)驗(yàn)室,也可以訓(xùn)練出與頂尖團(tuán)隊(duì)同臺(tái)競技的模型。

參考資料:

https://www.primeintellect.ai/blog/intellect-3

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
又一則勵(lì)志新聞翻車了!

又一則勵(lì)志新聞翻車了!

清書先生
2025-10-21 15:51:40
8名費(fèi)城青少年到佛羅里達(dá)“零元購”被捕!警長:教他們?nèi)绾巫鋈?>
    </a>
        <h3>
      <a href=大洛杉磯LA
2025-12-11 05:37:51
意外發(fā)現(xiàn)他人隱私:你的反應(yīng)是怎樣的?

意外發(fā)現(xiàn)他人隱私:你的反應(yīng)是怎樣的?

特約前排觀眾
2025-11-29 00:15:03
1999年四星隕落:北京301醫(yī)院送走四位開國虎將,前三位備極哀榮,唯獨(dú)最后一位戰(zhàn)神走得太凄涼,連個(gè)黨籍都沒留下,這結(jié)局讓人唏噓不已

1999年四星隕落:北京301醫(yī)院送走四位開國虎將,前三位備極哀榮,唯獨(dú)最后一位戰(zhàn)神走得太凄涼,連個(gè)黨籍都沒留下,這結(jié)局讓人唏噓不已

源溯歷史
2025-12-11 15:27:09
四川一校花,170大長腿,國色天姿,貌美迷人,絕世佳人不過如此

四川一?;ǎ?70大長腿,國色天姿,貌美迷人,絕世佳人不過如此

手工制作阿殲
2025-12-12 09:14:14
76年周總理追悼會(huì)開始前,汪東興下達(dá)事關(guān)毛主席密令,追悼會(huì)推遲

76年周總理追悼會(huì)開始前,汪東興下達(dá)事關(guān)毛主席密令,追悼會(huì)推遲

海佑講史
2025-12-11 13:00:06
這回輪到銀行為難了!越來越多的人,把分散儲(chǔ)蓄集中到一家銀行存

這回輪到銀行為難了!越來越多的人,把分散儲(chǔ)蓄集中到一家銀行存

陳博世財(cái)經(jīng)
2025-12-11 14:30:39
張獻(xiàn)忠是如何莫名其妙地死在四川南充鳳凰山的?

張獻(xiàn)忠是如何莫名其妙地死在四川南充鳳凰山的?

歷史按察使司
2025-12-11 17:27:44
性與命和壽的關(guān)系:好命長壽的男人,往往身上有這幾種特征

性與命和壽的關(guān)系:好命長壽的男人,往往身上有這幾種特征

鬼菜生活
2025-12-11 03:56:01
得分能力出色但防守糟糕,老鷹棄將在湖人二隊(duì)的表現(xiàn)起伏不定

得分能力出色但防守糟糕,老鷹棄將在湖人二隊(duì)的表現(xiàn)起伏不定

稻谷與小麥
2025-12-12 09:43:25
琉球群島遭圍,關(guān)于中日,高市終于說了句實(shí)話:日本經(jīng)濟(jì)遭沖擊

琉球群島遭圍,關(guān)于中日,高市終于說了句實(shí)話:日本經(jīng)濟(jì)遭沖擊

來科點(diǎn)譜
2025-12-12 09:04:06
湖人隊(duì)東契奇在NBA杯四分之一決賽負(fù)于馬刺后,談球隊(duì)的糟糕防守

湖人隊(duì)東契奇在NBA杯四分之一決賽負(fù)于馬刺后,談球隊(duì)的糟糕防守

好火子
2025-12-12 08:52:41
遠(yuǎn)不如國足!卡帥執(zhí)教烏茲別克后大倒苦水:面臨3大困難

遠(yuǎn)不如國足!卡帥執(zhí)教烏茲別克后大倒苦水:面臨3大困難

邱澤云
2025-12-11 17:38:55
陳夢拒絕國家隊(duì)教練,回山東當(dāng)副主任,她為何不愿當(dāng)國家隊(duì)教練?

陳夢拒絕國家隊(duì)教練,回山東當(dāng)副主任,她為何不愿當(dāng)國家隊(duì)教練?

達(dá)文西看世界
2025-12-11 18:24:26
朝鮮半島危機(jī)升級(jí),金正恩接班人浮出水面,中方卻有一個(gè)擔(dān)憂

朝鮮半島危機(jī)升級(jí),金正恩接班人浮出水面,中方卻有一個(gè)擔(dān)憂

近史談
2025-12-09 19:51:07
中國政府已經(jīng)暫停大型粒子加速器計(jì)劃!

中國政府已經(jīng)暫停大型粒子加速器計(jì)劃!

達(dá)文西看世界
2025-12-11 17:05:23
秋后算賬來了。美國嚴(yán)查“赴美生子”,當(dāng)年鉆漏洞的代價(jià)異常慘痛

秋后算賬來了。美國嚴(yán)查“赴美生子”,當(dāng)年鉆漏洞的代價(jià)異常慘痛

鷹視狼顧之天下
2025-12-11 13:42:38
重慶748萬彩票風(fēng)波:店主扣押實(shí)體票,彩中心回應(yīng):獎(jiǎng)金仍凍結(jié)

重慶748萬彩票風(fēng)波:店主扣押實(shí)體票,彩中心回應(yīng):獎(jiǎng)金仍凍結(jié)

聽心堂
2025-12-10 10:02:15
又一個(gè)大V被封!任何政治狂熱,都是國家和人民的災(zāi)難!

又一個(gè)大V被封!任何政治狂熱,都是國家和人民的災(zāi)難!

深度報(bào)
2025-12-10 22:37:02
奚美娟終于不躲了,針對(duì)兒子不是周野芒的這件事,她公開表態(tài)了

奚美娟終于不躲了,針對(duì)兒子不是周野芒的這件事,她公開表態(tài)了

荊楚寰宇文樞
2025-12-10 21:58:28
2025-12-12 10:03:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14078文章數(shù) 66385關(guān)注度
往期回顧 全部

科技要聞

凌晨突發(fā)!GPT-5.2上線,首批實(shí)測感受來了

頭條要聞

澤連斯基:已向美提交修訂后的和平計(jì)劃 更新五點(diǎn)信息

頭條要聞

澤連斯基:已向美提交修訂后的和平計(jì)劃 更新五點(diǎn)信息

體育要聞

你最看不上的人,關(guān)鍵時(shí)刻卻最想救你...

娛樂要聞

黃慧頤曝保劍鋒出軌細(xì)節(jié)!

財(cái)經(jīng)要聞

美國要組建C5,全世界大吃一驚

汽車要聞

長途穿越更輕松 二代哈弗H9穿越版限時(shí)售23.29萬

態(tài)度原創(chuàng)

時(shí)尚
本地
手機(jī)
游戲
藝術(shù)

12月的奇跡,是“白”給的!

本地新聞

打工人夢想中的生活,寵物已經(jīng)提前過上了

手機(jī)要聞

蘋果已超去年,小米即將超去年,vivo在追趕

模擬器&策略發(fā)行商特賣來了!誰在抄襲我的生活?

藝術(shù)要聞

小楷作品獲書法國展桂冠,展現(xiàn)硬筆書法般規(guī)整美感。

無障礙瀏覽 進(jìn)入關(guān)懷版 五月丁香操婷婷| 热久久久久久久久久久| 又色又污又爽又黄的网站| 色七七桃色影院| 欧美黑人欧美精品刺激| 亚洲操逼视频| 五十老熟女高潮嗷| 制服丝袜美腿一区二区| 亚洲AV无码久久精品成人绿帽| 精品厕所偷拍各类美女TP嘘嘘 | 在线国产网址| 国产精品九九九无码喷水| 日韩av无码一区电影| avxxxxoooo| 欧美亚洲日韩中文| 国产精品免费无码| 亚洲丰满女人大隂户| 亚洲十八禁| 婷婷开心五月丁香| 天天艹天天爽| 精品一区二区三人妻视频| 5566久久蜜桃麻豆成人片| 色播五月婷婷| 国语自产少妇精品视频| 无码专区 人妻系列 在线| 99久久久精品免费观看国产 | 无码一区东京热| 欧美日韩视频在线第一区| 国产乱国产乱老熟1000部视频| 老熟妇高潮一区二区三区另类| 最新国产乱人伦偷精品免费网站| 国内精品久久人妻无码| 国产精品爽爽久久久久久| 亚洲AV成人片无码精品| 亚洲精品欧美日韩在线| 精品精品国产自在97香蕉| 又硬又粗又长又爽免费看| 亚欧美国产综合| 好屌妞1区2区3| 久久机热这里只有精品| 亚洲天天做日日做天天欢毛片|