夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

螞蟻開源 Ring-1T,成就推理、編程、通用智能三冠王

0
分享至



AIME 93.4分,開源模型首次逼近人類極限。

作者丨鄭佳美

編輯丨馬曉寧

AI 能不能真正“動腦子”?這個問題有了新答案。

螞蟻開源團隊推出的Ring-1T模型,為這個長期存在的疑問提供了最具說服力的實證。不同于以往依賴海量數(shù)據(jù)“記憶”答案的語言模型,Ring-1T 試圖讓 AI 在復(fù)雜問題中真正“推理”出答案。

它通過強化學(xué)習(xí)與多階段推理機制的結(jié)合,使模型能夠在反饋中不斷修正思路、優(yōu)化邏輯路徑,逐步形成更穩(wěn)定、更接近人類思維的推理模式。

正是這種從“模仿”到“思考”的轉(zhuǎn)變,讓 Ring-1T 成為開源 AI 領(lǐng)域的一次里程碑式突破。接下來,讓我們看看這項研究是如何實現(xiàn)的。


論文地址:

https://arxiv.org/pdf/2510.18855

01

通用智能的火花

實驗中Ring-1T 模型在多個高難度推理與數(shù)學(xué)基準(zhǔn)上進行了系統(tǒng)性評估,都取得了突破性的實驗成果。作為一個開源的萬億參數(shù)思考型模型,Ring-1T 分別在推理、數(shù)學(xué)、編程及通用智能任務(wù)上均展現(xiàn)出卓越的綜合能力。

數(shù)學(xué)推理能力方面,Ring-1T 在 AIME-2025中取得 93.4 分的成績,接近人類頂尖選手水平;在 HMMT-2025 中得分 86.72,顯示其在跨領(lǐng)域數(shù)學(xué)推理與高復(fù)雜度邏輯演算中的強大能力;在 IMO-2025 模擬評測中達到銀牌水平,證明模型能夠在需要多步推理與創(chuàng)造性證明的問題中保持高準(zhǔn)確率和穩(wěn)定性。


編程與算法能力上,模型在 Codeforces 平臺測試中獲得 2088 分,達到人類程序員的高水平區(qū)間。這表明 Ring-1T 不僅能夠理解算法邏輯,還能在有限時間內(nèi)生成高效、可執(zhí)行的代碼,具備良好的算法復(fù)雜度控制與問題分解能力。


通用智能推理任務(wù)中,Ring-1T 在 ARC-AGI-v1 中取得 55.94 分,顯著超越此前開源模型的平均表現(xiàn)。該結(jié)果表明,模型在抽象模式識別、思維遷移與多步認(rèn)知推理方面具備接近通用人工智能的潛力。

總體而言,Ring-1T 在各項基準(zhǔn)測試中表現(xiàn)出優(yōu)異的穩(wěn)定性與一致性,尤其在復(fù)雜推理與多步邏輯任務(wù)中未出現(xiàn)顯著性能退化。與此前主要停留在百億或千億參數(shù)規(guī)模的開源模型相比,Ring-1T 在數(shù)學(xué)、推理與算法任務(wù)上全面刷新了開源模型的性能上限,成為新一代開源思考型模型的性能基準(zhǔn)。


實驗結(jié)果還表明,該模型的高性能得益于論文提出的三項關(guān)鍵技術(shù)

IcePop旨在提升強化學(xué)習(xí)訓(xùn)練的穩(wěn)定性,解決訓(xùn)練與推理分布不一致的問題。它通過動態(tài)約束與梯度剪切,限制高熵樣本的影響,并自適應(yīng)調(diào)整溫度參數(shù),使模型在保持探索性的同時更穩(wěn)定收斂,從而提高推理階段的可靠性。


C3PO++專注于提升長序列推理和大規(guī)模 rollout 的效率。該方法采用動態(tài)分區(qū)和 token 預(yù)算機制,將推理過程劃分為多個小批次,并利用持久化緩沖區(qū)續(xù)傳未完成任務(wù),有效提升 GPU 利用率和整體訓(xùn)練吞吐量。


ASystem則是支撐萬億參數(shù)強化學(xué)習(xí)的分布式架構(gòu)。它整合統(tǒng)一的訓(xùn)練與推理運行時、高效的顯存管理、快速的參數(shù)同步以及安全的隔離執(zhí)行環(huán)境,使大規(guī)模模型訓(xùn)練具備更高的并行性、穩(wěn)定性與容錯性。

02

算法與系統(tǒng)的共振

論文中體現(xiàn)的實驗過程,主要以Ring-1T 思考型模型為研究對象,研究人員設(shè)計了分階段的訓(xùn)練體系,包括監(jiān)督微調(diào)(SFT)推理強化學(xué)習(xí)(Reasoning RL)通用強化學(xué)習(xí)(General RL)。研究的主要突破集中在后兩個階段,通過引入IcePop、C3PO++ASystem等方法,實現(xiàn)了在大規(guī)模強化學(xué)習(xí)中的穩(wěn)定訓(xùn)練與高效推理。


實驗中,Ring-1T 模型的訓(xùn)練過程經(jīng)過精心設(shè)計,以在萬億參數(shù)規(guī)模下同時保證穩(wěn)定性和效率。團隊在訓(xùn)練時采用AdamW 優(yōu)化器,其超參數(shù)設(shè)定為 β?=0.9、β?=0.999,權(quán)重衰減為 0.01;同時固定了 MoE路由器的偏置項,以保持參數(shù)更新的穩(wěn)定。推理與采樣階段的設(shè)置在兩個強化學(xué)習(xí)階段中保持一致,KL 系數(shù)設(shè)為 0.0,采樣溫度為 1.0,以減少訓(xùn)練階段與推理階段分布不一致帶來的偏差。

在強化學(xué)習(xí)階段,Ring-1T 的性能提升主要依賴兩項關(guān)鍵技術(shù):IcePopC3PO++。其中,IcePop的目標(biāo)是讓訓(xùn)練過程更加穩(wěn)定,避免模型在訓(xùn)練和推理階段出現(xiàn)表現(xiàn)不一致的情況。

簡單來說,它會在每次更新模型參數(shù)時,對不穩(wěn)定或異常的樣本進行“篩選”和“削弱”。具體做法是:計算訓(xùn)練階段與推理階段之間的概率差異,如果某個 token 的概率偏離太大,就會被部分“掩蓋”或降低權(quán)重。這樣可以防止模型在訓(xùn)練中因為極端樣本而產(chǎn)生劇烈波動。

除此之外,IcePop 采用了參數(shù) α=0.5、β=5.0 的范圍,也就是只讓概率比值處于 [0.5, 5.0] 的樣本參與優(yōu)化。研究人員還測試了不同范圍的配置(如 [0.5, 2.0]、[0.4, 5.0]),結(jié)果表明默認(rèn)參數(shù)在訓(xùn)練穩(wěn)定性與性能之間達到了平衡。


而之后的 C3PO++ 則負(fù)責(zé)優(yōu)化 rollout 過程,使訓(xùn)練在大規(guī)模分布式環(huán)境下更加高效,特別是在處理超長序列時。傳統(tǒng)方法在遇到很長的推理樣本時會拖慢整個訓(xùn)練進程,而 C3PO++ 通過“分段訓(xùn)練”和“并行續(xù)傳”的方式解決了這個問題。

它設(shè)置了一個token 預(yù)算(Φ),當(dāng)生成的 token 數(shù)達到預(yù)算上限時,就會立即觸發(fā)一次更新。系統(tǒng)分為兩個池子:推理池(P_infer)不斷生成新樣本,訓(xùn)練池(Q_train)收集已經(jīng)生成完成的樣本并進行更新,這樣推理和訓(xùn)練就可以同時進行。

為了防止某些特別長的序列占用資源,C3PO++ 還給每個樣本設(shè)定了一個保留期(σ),超時未完成的樣本會被清除。而那些還沒生成完的樣本則會在下一輪繼續(xù)生成(即“跨迭代續(xù)傳”)。通過這些機制,C3PO++ 能讓訓(xùn)練過程更加流暢高效,不會因為個別長樣本卡住整個系統(tǒng)。

總體來說,IcePop讓訓(xùn)練更穩(wěn),C3PO++讓訓(xùn)練更快,兩者結(jié)合,使 Ring-1T 能在萬億參數(shù)規(guī)模下保持高效、穩(wěn)定的強化學(xué)習(xí)表現(xiàn)。


除此之外,為了讓萬億參數(shù)的 Ring-1T 模型能夠高效穩(wěn)定地進行訓(xùn)練,研究團隊還專門設(shè)計了一個分布式強化學(xué)習(xí)系統(tǒng)——ASystem。它的核心目標(biāo)是:在海量 GPU 和超大模型的條件下,讓訓(xùn)練、推理和參數(shù)更新能夠同時、高效地進行,而不會因為系統(tǒng)瓶頸導(dǎo)致中斷或效率下降。

ASystem 采用一種叫SingleController + SPMD的并行架構(gòu)。簡單來說,就是用一個中央控制器來統(tǒng)一調(diào)度成千上萬的計算節(jié)點,讓每個節(jié)點都執(zhí)行相同的訓(xùn)練流程,從而保證全系統(tǒng)的同步與高效協(xié)作。

整個系統(tǒng)由四個主要模塊組成:

Hybrid Runtime:這是訓(xùn)練和推理的統(tǒng)一執(zhí)行環(huán)境,負(fù)責(zé)同時管理模型訓(xùn)練和模型測試的計算任務(wù),避免不同系統(tǒng)之間反復(fù)傳輸數(shù)據(jù)。

AMem:負(fù)責(zé) GPU 顯存的管理和數(shù)據(jù)傳輸。它可以在不同顯卡之間切換內(nèi)存、使用多條數(shù)據(jù)通道傳輸信息,并通過共享內(nèi)存池減少顯存占用,從而支持更大的批量訓(xùn)練而不會崩潰。

AState:負(fù)責(zé)在不同計算節(jié)點之間同步模型參數(shù)。它采用點對點(P2P)的高效傳輸方式,只同步必要的部分,能在大約 10 秒內(nèi)完成萬億級參數(shù)的同步。

ASandbox:相當(dāng)于一個安全的“實驗沙盒”,用于執(zhí)行代碼生成、數(shù)學(xué)計算和邏輯驗證等推理任務(wù)。它像“函數(shù)即服務(wù)”一樣,可以在隔離環(huán)境中同時運行成千上萬個推理請求。

在系統(tǒng)設(shè)計上,ASystem 將控制邏輯和數(shù)據(jù)流分離,使訓(xùn)練、推理和獎勵計算模塊都能獨立運行。它還具有“快速失敗與自動恢復(fù)”機制:如果某個節(jié)點出現(xiàn)問題,系統(tǒng)能自動檢測并恢復(fù)運行,而不會影響整體訓(xùn)練進度。

通過這些設(shè)計,ASystem 讓 Ring-1T 能夠在成千 GPU 的大規(guī)模環(huán)境中穩(wěn)定運行,實現(xiàn)高吞吐、高可靠的強化學(xué)習(xí)訓(xùn)練。


03

開源智能的下一步

過去的模型大多依賴數(shù)據(jù)去模仿人類答案,但面對復(fù)雜推理或邏輯問題時容易出錯。Ring-1T 的研究探索了一種新的思路 —— 通過強化學(xué)習(xí)讓模型在反饋中不斷調(diào)整自己的思考方式,逐步形成更穩(wěn)定、更清晰的推理能力。

它的另一個意義在于證明了超大規(guī)模強化學(xué)習(xí)是可以實現(xiàn)的。以前這種規(guī)模的模型常常訓(xùn)練不穩(wěn)、成本高、容易崩潰,而這項研究用新的算法和系統(tǒng)設(shè)計,找到了一種讓萬億參數(shù)模型穩(wěn)定訓(xùn)練的方法。這為后續(xù)更復(fù)雜、更自主的模型研究提供了可操作的經(jīng)驗。

從更長遠的角度看,這項工作也讓開源模型有機會在高層次智能上追上閉源系統(tǒng)。它或許不只是一次技術(shù)升級,而是讓智能研究變得更開放、更有延續(xù)性的一步。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
暴跌,崩盤!有人一夜之間虧了好幾萬,直呼“天塌了”

暴跌,崩盤!有人一夜之間虧了好幾萬,直呼“天塌了”

環(huán)球網(wǎng)資訊
2025-10-25 07:32:46
太陽報:貝林可能因不雅動作被罰,歐洲杯他曾因該動作被禁賽

太陽報:貝林可能因不雅動作被罰,歐洲杯他曾因該動作被禁賽

懂球帝
2025-10-27 17:37:08
突發(fā)!烏軍轟炸俄羅斯大壩引發(fā)洪水!普京宣布世界獨一無二導(dǎo)彈

突發(fā)!烏軍轟炸俄羅斯大壩引發(fā)洪水!普京宣布世界獨一無二導(dǎo)彈

涵豆說娛
2025-10-27 17:57:46
日本廣東都是1億多人,日本上半年新生兒有34萬,廣東讓人意外!

日本廣東都是1億多人,日本上半年新生兒有34萬,廣東讓人意外!

阿尢說歷史
2025-09-25 11:53:39
睡覺時總在凌晨3、4點醒來,一般暗示五大疾病,別忽視

睡覺時總在凌晨3、4點醒來,一般暗示五大疾病,別忽視

醫(yī)學(xué)原創(chuàng)故事會
2025-10-22 23:58:03
“電詐之王”陳志發(fā)跡史,攀附權(quán)貴營建政商圈,靠“殺豬盤”起家

“電詐之王”陳志發(fā)跡史,攀附權(quán)貴營建政商圈,靠“殺豬盤”起家

元芳有看法
2025-10-24 14:24:52
俄原油遭遇“國際冷板凳”!中企緊急停購,陸上輸油能否救場?

俄原油遭遇“國際冷板凳”!中企緊急停購,陸上輸油能否救場?

南宮一二
2025-10-27 09:51:49
美方稱中美將就TikTok達成最終協(xié)議,外交部回應(yīng)

美方稱中美將就TikTok達成最終協(xié)議,外交部回應(yīng)

中國基金報
2025-10-27 16:16:28
談判結(jié)束后,中美通報結(jié)果不一樣,魯比奧狂言:不會放棄對臺支持

談判結(jié)束后,中美通報結(jié)果不一樣,魯比奧狂言:不會放棄對臺支持

吳欣純Deborah
2025-10-27 16:39:06
又內(nèi)訌了!德云社元老人物離開,發(fā)文內(nèi)涵郭德綱,徹底撕開遮羞布

又內(nèi)訌了!德云社元老人物離開,發(fā)文內(nèi)涵郭德綱,徹底撕開遮羞布

軒逸阿II
2025-08-30 15:50:47
正式退出,徐昕發(fā)聲,做出選擇,名單公布,胡明軒祝福

正式退出,徐昕發(fā)聲,做出選擇,名單公布,胡明軒祝福

樂聊球
2025-10-27 10:08:21
2025年了,金茂還在玩“售罄”套路

2025年了,金茂還在玩“售罄”套路

財中社
2025-10-27 18:09:14
銀行的日子,越來越不好過了

銀行的日子,越來越不好過了

黑噪音
2025-10-27 10:53:46
鄭麗文第二波任命出爐!王金平罕見主動站臺,蕭旭岑入列亮兩岸牌

鄭麗文第二波任命出爐!王金平罕見主動站臺,蕭旭岑入列亮兩岸牌

娛樂的宅急便
2025-10-28 01:38:09
歷史驚人相似,賴清德當(dāng)局正在進入“明鄭氏政權(quán)”崩盤時的操作!

歷史驚人相似,賴清德當(dāng)局正在進入“明鄭氏政權(quán)”崩盤時的操作!

文史旺旺旺
2025-10-27 20:29:19
朝陽拆遷群炸鍋了!8 個村最新消息流出,速戳詳情!

朝陽拆遷群炸鍋了!8 個村最新消息流出,速戳詳情!

朝陽通
2025-10-27 19:00:19
虎父無犬子,卡洛斯-布澤爾兒子卡梅隆NCAA季前賽砍24分23板

虎父無犬子,卡洛斯-布澤爾兒子卡梅隆NCAA季前賽砍24分23板

懂球帝
2025-10-27 09:58:20
就差0.93!滬指周一幾乎站上4000點,如何理解?

就差0.93!滬指周一幾乎站上4000點,如何理解?

每經(jīng)牛眼
2025-10-27 15:27:42
留洋新希望!20歲中國小將鎖定荷乙主力后腰,首發(fā)硬剛聯(lián)賽榜首

留洋新希望!20歲中國小將鎖定荷乙主力后腰,首發(fā)硬剛聯(lián)賽榜首

小金體壇大視野
2025-10-27 17:33:34
“第一公子”顏值崩塌!19歲巴倫發(fā)福變油膩,為追女神封鎖整層樓

“第一公子”顏值崩塌!19歲巴倫發(fā)福變油膩,為追女神封鎖整層樓

小張帥
2025-10-18 13:36:44
2025-10-28 03:59:00
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
6957文章數(shù) 20699關(guān)注度
往期回顧 全部

科技要聞

最后一個沒有廣告的地圖,要消失了

頭條要聞

14歲男生嬉鬧時被女同學(xué)打中左胸心跳驟停 如今癱瘓

頭條要聞

14歲男生嬉鬧時被女同學(xué)打中左胸心跳驟停 如今癱瘓

體育要聞

尤文官宣!圖多爾下課,僅執(zhí)教218天,8戰(zhàn)不勝意甲僅排第8

娛樂要聞

“奪女”成功 章子怡成女兒唯一監(jiān)護人

財經(jīng)要聞

重磅!潘功勝、李云澤、吳清最新發(fā)聲

汽車要聞

對話蘇偉銘:絕地反擊,雷諾的一劑「中國良方」

態(tài)度原創(chuàng)

健康
教育
藝術(shù)
數(shù)碼
家居

骨頭"咔咔響"?肌骨超聲到底有何用

教育要聞

別相信“高三逆襲”,多數(shù)人連起跑線都沒踩穩(wěn)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

我們年中推薦的游戲本,現(xiàn)在變得更香了

家居要聞

和式原木 簡約設(shè)計美學(xué)

無障礙瀏覽 進入關(guān)懷版 亚洲熟女性爱视频| 波多野结衣超清无码专区| 久久久肥妇熟女| 欧美亚洲高清日韩成人| 日韩午夜免费观看| 婷婷五月天激情网| 开心婷婷五月| 精品久久久无码人| Japanese久久网| 少妇呻吟自拍| 亚洲第一福利网站在线观看| 超碰日本人妻| 你懂的视频在线播放| 韩国九七影院久久| 加勒比一区二区三区| 男人午夜视频| 亚洲精品三区| 国产黄色在线免费观看| 久久亚洲精品情侣| 成人无码看片在线观看免费| 76少妇精品导航| 久久av小说| 亚洲精品无码少妇30P| 亚洲AV永久无码榴莲| 人人操人人操妻| 激情的图片与小说| 国产精品乱码久久久不卡| 国产日韩欧美精品区性色| 亚洲精品无码成人网站| 福利一区二区视频在线| 无码人妻精品一区二区99AⅤ| 国产资源免费观看| 免费a级毛片又大又粗又黑| 麻豆1区2产品乱码芒果白狼在线 | 免费的成年私人影院网站| 成人专区你懂的| 人人操人人人人人| 老妇多毛一区二区三区va在线| www.无码专区| 久久人妻激情四射| 天天摸天天做天天爽2019|