夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

螞蟻開源 Ring-1T,成就推理、編程、通用智能三冠王

0
分享至



AIME 93.4分,開源模型首次逼近人類極限。

作者丨鄭佳美

編輯丨馬曉寧

AI 能不能真正“動(dòng)腦子”?這個(gè)問題有了新答案。

螞蟻開源團(tuán)隊(duì)推出的Ring-1T模型,為這個(gè)長期存在的疑問提供了最具說服力的實(shí)證。不同于以往依賴海量數(shù)據(jù)“記憶”答案的語言模型,Ring-1T 試圖讓 AI 在復(fù)雜問題中真正“推理”出答案。

它通過強(qiáng)化學(xué)習(xí)與多階段推理機(jī)制的結(jié)合,使模型能夠在反饋中不斷修正思路、優(yōu)化邏輯路徑,逐步形成更穩(wěn)定、更接近人類思維的推理模式。

正是這種從“模仿”到“思考”的轉(zhuǎn)變,讓 Ring-1T 成為開源 AI 領(lǐng)域的一次里程碑式突破。接下來,讓我們看看這項(xiàng)研究是如何實(shí)現(xiàn)的。


論文地址:

https://arxiv.org/pdf/2510.18855

01

通用智能的火花

實(shí)驗(yàn)中Ring-1T 模型在多個(gè)高難度推理與數(shù)學(xué)基準(zhǔn)上進(jìn)行了系統(tǒng)性評(píng)估,都取得了突破性的實(shí)驗(yàn)成果。作為一個(gè)開源的萬億參數(shù)思考型模型,Ring-1T 分別在推理、數(shù)學(xué)、編程及通用智能任務(wù)上均展現(xiàn)出卓越的綜合能力。

數(shù)學(xué)推理能力方面,Ring-1T 在 AIME-2025中取得 93.4 分的成績,接近人類頂尖選手水平;在 HMMT-2025 中得分 86.72,顯示其在跨領(lǐng)域數(shù)學(xué)推理與高復(fù)雜度邏輯演算中的強(qiáng)大能力;在 IMO-2025 模擬評(píng)測(cè)中達(dá)到銀牌水平,證明模型能夠在需要多步推理與創(chuàng)造性證明的問題中保持高準(zhǔn)確率和穩(wěn)定性。


編程與算法能力上,模型在 Codeforces 平臺(tái)測(cè)試中獲得 2088 分,達(dá)到人類程序員的高水平區(qū)間。這表明 Ring-1T 不僅能夠理解算法邏輯,還能在有限時(shí)間內(nèi)生成高效、可執(zhí)行的代碼,具備良好的算法復(fù)雜度控制與問題分解能力。


通用智能推理任務(wù)中,Ring-1T 在 ARC-AGI-v1 中取得 55.94 分,顯著超越此前開源模型的平均表現(xiàn)。該結(jié)果表明,模型在抽象模式識(shí)別、思維遷移與多步認(rèn)知推理方面具備接近通用人工智能的潛力。

總體而言,Ring-1T 在各項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)出優(yōu)異的穩(wěn)定性與一致性,尤其在復(fù)雜推理與多步邏輯任務(wù)中未出現(xiàn)顯著性能退化。與此前主要停留在百億或千億參數(shù)規(guī)模的開源模型相比,Ring-1T 在數(shù)學(xué)、推理與算法任務(wù)上全面刷新了開源模型的性能上限,成為新一代開源思考型模型的性能基準(zhǔn)。


實(shí)驗(yàn)結(jié)果還表明,該模型的高性能得益于論文提出的三項(xiàng)關(guān)鍵技術(shù)

IcePop旨在提升強(qiáng)化學(xué)習(xí)訓(xùn)練的穩(wěn)定性,解決訓(xùn)練與推理分布不一致的問題。它通過動(dòng)態(tài)約束與梯度剪切,限制高熵樣本的影響,并自適應(yīng)調(diào)整溫度參數(shù),使模型在保持探索性的同時(shí)更穩(wěn)定收斂,從而提高推理階段的可靠性。


C3PO++專注于提升長序列推理和大規(guī)模 rollout 的效率。該方法采用動(dòng)態(tài)分區(qū)和 token 預(yù)算機(jī)制,將推理過程劃分為多個(gè)小批次,并利用持久化緩沖區(qū)續(xù)傳未完成任務(wù),有效提升 GPU 利用率和整體訓(xùn)練吞吐量。


ASystem則是支撐萬億參數(shù)強(qiáng)化學(xué)習(xí)的分布式架構(gòu)。它整合統(tǒng)一的訓(xùn)練與推理運(yùn)行時(shí)、高效的顯存管理、快速的參數(shù)同步以及安全的隔離執(zhí)行環(huán)境,使大規(guī)模模型訓(xùn)練具備更高的并行性、穩(wěn)定性與容錯(cuò)性。

02

算法與系統(tǒng)的共振

論文中體現(xiàn)的實(shí)驗(yàn)過程,主要以Ring-1T 思考型模型為研究對(duì)象,研究人員設(shè)計(jì)了分階段的訓(xùn)練體系,包括監(jiān)督微調(diào)(SFT)、推理強(qiáng)化學(xué)習(xí)(Reasoning RL)通用強(qiáng)化學(xué)習(xí)(General RL)。研究的主要突破集中在后兩個(gè)階段,通過引入IcePop、C3PO++ASystem等方法,實(shí)現(xiàn)了在大規(guī)模強(qiáng)化學(xué)習(xí)中的穩(wěn)定訓(xùn)練與高效推理。


實(shí)驗(yàn)中,Ring-1T 模型的訓(xùn)練過程經(jīng)過精心設(shè)計(jì),以在萬億參數(shù)規(guī)模下同時(shí)保證穩(wěn)定性和效率。團(tuán)隊(duì)在訓(xùn)練時(shí)采用AdamW 優(yōu)化器,其超參數(shù)設(shè)定為 β?=0.9、β?=0.999,權(quán)重衰減為 0.01;同時(shí)固定了 MoE路由器的偏置項(xiàng),以保持參數(shù)更新的穩(wěn)定。推理與采樣階段的設(shè)置在兩個(gè)強(qiáng)化學(xué)習(xí)階段中保持一致,KL 系數(shù)設(shè)為 0.0,采樣溫度為 1.0,以減少訓(xùn)練階段與推理階段分布不一致帶來的偏差。

在強(qiáng)化學(xué)習(xí)階段,Ring-1T 的性能提升主要依賴兩項(xiàng)關(guān)鍵技術(shù):IcePopC3PO++。其中,IcePop的目標(biāo)是讓訓(xùn)練過程更加穩(wěn)定,避免模型在訓(xùn)練和推理階段出現(xiàn)表現(xiàn)不一致的情況。

簡單來說,它會(huì)在每次更新模型參數(shù)時(shí),對(duì)不穩(wěn)定或異常的樣本進(jìn)行“篩選”和“削弱”。具體做法是:計(jì)算訓(xùn)練階段與推理階段之間的概率差異,如果某個(gè) token 的概率偏離太大,就會(huì)被部分“掩蓋”或降低權(quán)重。這樣可以防止模型在訓(xùn)練中因?yàn)闃O端樣本而產(chǎn)生劇烈波動(dòng)。

除此之外,IcePop 采用了參數(shù) α=0.5、β=5.0 的范圍,也就是只讓概率比值處于 [0.5, 5.0] 的樣本參與優(yōu)化。研究人員還測(cè)試了不同范圍的配置(如 [0.5, 2.0]、[0.4, 5.0]),結(jié)果表明默認(rèn)參數(shù)在訓(xùn)練穩(wěn)定性與性能之間達(dá)到了平衡。


而之后的 C3PO++ 則負(fù)責(zé)優(yōu)化 rollout 過程,使訓(xùn)練在大規(guī)模分布式環(huán)境下更加高效,特別是在處理超長序列時(shí)。傳統(tǒng)方法在遇到很長的推理樣本時(shí)會(huì)拖慢整個(gè)訓(xùn)練進(jìn)程,而 C3PO++ 通過“分段訓(xùn)練”和“并行續(xù)傳”的方式解決了這個(gè)問題。

它設(shè)置了一個(gè)token 預(yù)算(Φ),當(dāng)生成的 token 數(shù)達(dá)到預(yù)算上限時(shí),就會(huì)立即觸發(fā)一次更新。系統(tǒng)分為兩個(gè)池子:推理池(P_infer)不斷生成新樣本,訓(xùn)練池(Q_train)收集已經(jīng)生成完成的樣本并進(jìn)行更新,這樣推理和訓(xùn)練就可以同時(shí)進(jìn)行。

為了防止某些特別長的序列占用資源,C3PO++ 還給每個(gè)樣本設(shè)定了一個(gè)保留期(σ),超時(shí)未完成的樣本會(huì)被清除。而那些還沒生成完的樣本則會(huì)在下一輪繼續(xù)生成(即“跨迭代續(xù)傳”)。通過這些機(jī)制,C3PO++ 能讓訓(xùn)練過程更加流暢高效,不會(huì)因?yàn)閭€(gè)別長樣本卡住整個(gè)系統(tǒng)。

總體來說,IcePop讓訓(xùn)練更穩(wěn),C3PO++讓訓(xùn)練更快,兩者結(jié)合,使 Ring-1T 能在萬億參數(shù)規(guī)模下保持高效、穩(wěn)定的強(qiáng)化學(xué)習(xí)表現(xiàn)。


除此之外,為了讓萬億參數(shù)的 Ring-1T 模型能夠高效穩(wěn)定地進(jìn)行訓(xùn)練,研究團(tuán)隊(duì)還專門設(shè)計(jì)了一個(gè)分布式強(qiáng)化學(xué)習(xí)系統(tǒng)——ASystem。它的核心目標(biāo)是:在海量 GPU 和超大模型的條件下,讓訓(xùn)練、推理和參數(shù)更新能夠同時(shí)、高效地進(jìn)行,而不會(huì)因?yàn)橄到y(tǒng)瓶頸導(dǎo)致中斷或效率下降。

ASystem 采用一種叫SingleController + SPMD的并行架構(gòu)。簡單來說,就是用一個(gè)中央控制器來統(tǒng)一調(diào)度成千上萬的計(jì)算節(jié)點(diǎn),讓每個(gè)節(jié)點(diǎn)都執(zhí)行相同的訓(xùn)練流程,從而保證全系統(tǒng)的同步與高效協(xié)作。

整個(gè)系統(tǒng)由四個(gè)主要模塊組成:

Hybrid Runtime:這是訓(xùn)練和推理的統(tǒng)一執(zhí)行環(huán)境,負(fù)責(zé)同時(shí)管理模型訓(xùn)練和模型測(cè)試的計(jì)算任務(wù),避免不同系統(tǒng)之間反復(fù)傳輸數(shù)據(jù)。

AMem:負(fù)責(zé) GPU 顯存的管理和數(shù)據(jù)傳輸。它可以在不同顯卡之間切換內(nèi)存、使用多條數(shù)據(jù)通道傳輸信息,并通過共享內(nèi)存池減少顯存占用,從而支持更大的批量訓(xùn)練而不會(huì)崩潰。

AState:負(fù)責(zé)在不同計(jì)算節(jié)點(diǎn)之間同步模型參數(shù)。它采用點(diǎn)對(duì)點(diǎn)(P2P)的高效傳輸方式,只同步必要的部分,能在大約 10 秒內(nèi)完成萬億級(jí)參數(shù)的同步。

ASandbox:相當(dāng)于一個(gè)安全的“實(shí)驗(yàn)沙盒”,用于執(zhí)行代碼生成、數(shù)學(xué)計(jì)算和邏輯驗(yàn)證等推理任務(wù)。它像“函數(shù)即服務(wù)”一樣,可以在隔離環(huán)境中同時(shí)運(yùn)行成千上萬個(gè)推理請(qǐng)求。

在系統(tǒng)設(shè)計(jì)上,ASystem 將控制邏輯和數(shù)據(jù)流分離,使訓(xùn)練、推理和獎(jiǎng)勵(lì)計(jì)算模塊都能獨(dú)立運(yùn)行。它還具有“快速失敗與自動(dòng)恢復(fù)”機(jī)制:如果某個(gè)節(jié)點(diǎn)出現(xiàn)問題,系統(tǒng)能自動(dòng)檢測(cè)并恢復(fù)運(yùn)行,而不會(huì)影響整體訓(xùn)練進(jìn)度。

通過這些設(shè)計(jì),ASystem 讓 Ring-1T 能夠在成千 GPU 的大規(guī)模環(huán)境中穩(wěn)定運(yùn)行,實(shí)現(xiàn)高吞吐、高可靠的強(qiáng)化學(xué)習(xí)訓(xùn)練。


03

開源智能的下一步

過去的模型大多依賴數(shù)據(jù)去模仿人類答案,但面對(duì)復(fù)雜推理或邏輯問題時(shí)容易出錯(cuò)。Ring-1T 的研究探索了一種新的思路 —— 通過強(qiáng)化學(xué)習(xí)讓模型在反饋中不斷調(diào)整自己的思考方式,逐步形成更穩(wěn)定、更清晰的推理能力。

它的另一個(gè)意義在于證明了超大規(guī)模強(qiáng)化學(xué)習(xí)是可以實(shí)現(xiàn)的。以前這種規(guī)模的模型常常訓(xùn)練不穩(wěn)、成本高、容易崩潰,而這項(xiàng)研究用新的算法和系統(tǒng)設(shè)計(jì),找到了一種讓萬億參數(shù)模型穩(wěn)定訓(xùn)練的方法。這為后續(xù)更復(fù)雜、更自主的模型研究提供了可操作的經(jīng)驗(yàn)。

從更長遠(yuǎn)的角度看,這項(xiàng)工作也讓開源模型有機(jī)會(huì)在高層次智能上追上閉源系統(tǒng)。它或許不只是一次技術(shù)升級(jí),而是讓智能研究變得更開放、更有延續(xù)性的一步。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
羅永浩、項(xiàng)立剛互撕,猛料越扒越多

羅永浩、項(xiàng)立剛互撕,猛料越扒越多

據(jù)說無據(jù)
2025-12-24 15:43:24
圣誕大戰(zhàn)場(chǎng)邊美女有多絕?2019年洛城德比 她讓霍華德目不轉(zhuǎn)睛

圣誕大戰(zhàn)場(chǎng)邊美女有多絕?2019年洛城德比 她讓霍華德目不轉(zhuǎn)睛

Emily說個(gè)球
2025-12-25 22:53:42
金價(jià)這么高,還能追漲嗎?世界黃金協(xié)會(huì):43%央行表示明年接著買

金價(jià)這么高,還能追漲嗎?世界黃金協(xié)會(huì):43%央行表示明年接著買

時(shí)代周報(bào)
2025-12-25 17:44:08
給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

與車同樂
2025-12-04 10:05:02
工信部:11月我國移動(dòng)電話用戶總數(shù)減少200萬戶

工信部:11月我國移動(dòng)電話用戶總數(shù)減少200萬戶

南方都市報(bào)
2025-12-24 20:05:21
0分0板0助0斷!遼寧隊(duì)重磅引援真離譜 球迷:引了一個(gè)寂寞

0分0板0助0斷!遼寧隊(duì)重磅引援真離譜 球迷:引了一個(gè)寂寞

體育哲人
2025-12-26 00:00:27
中央編辦批復(fù)同意組建新機(jī)構(gòu)后,省委書記調(diào)研

中央編辦批復(fù)同意組建新機(jī)構(gòu)后,省委書記調(diào)研

新京報(bào)政事兒
2025-12-25 09:11:12
“男子向女友發(fā)淫穢視頻被行拘”,沖上熱搜

“男子向女友發(fā)淫穢視頻被行拘”,沖上熱搜

揚(yáng)子晚報(bào)
2025-12-24 19:23:11
這個(gè)說法很火:中日若開戰(zhàn),除俄羅斯外,全世界各國都會(huì)暗自叫好

這個(gè)說法很火:中日若開戰(zhàn),除俄羅斯外,全世界各國都會(huì)暗自叫好

百態(tài)人間
2025-12-23 16:38:00
光刻機(jī)大消息!國產(chǎn)設(shè)備龍頭1.1億元中標(biāo),660億概念股直線拉升

光刻機(jī)大消息!國產(chǎn)設(shè)備龍頭1.1億元中標(biāo),660億概念股直線拉升

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-12-25 23:10:48
誰偷走了我們的圣誕節(jié)?誰偷走了我們的商業(yè)客流?

誰偷走了我們的圣誕節(jié)?誰偷走了我們的商業(yè)客流?

火星宏觀
2025-12-26 01:00:53
泰國太子提幫功探望傷兵,眼神清明卸下蠢笨氣質(zhì),詩妮娜優(yōu)雅跟隨

泰國太子提幫功探望傷兵,眼神清明卸下蠢笨氣質(zhì),詩妮娜優(yōu)雅跟隨

譯言
2025-12-25 23:32:48
比恒大還慘!中國第二大民企轟然倒塌,負(fù)債7500億,創(chuàng)始人被帶走

比恒大還慘!中國第二大民企轟然倒塌,負(fù)債7500億,創(chuàng)始人被帶走

甜檸聊史
2025-12-24 18:22:43
男女干部戴頭套開房后續(xù):女主高清照片流出,男主六月新婚

男女干部戴頭套開房后續(xù):女主高清照片流出,男主六月新婚

沒有偏旁的常慶
2025-12-25 06:58:51
甲鈷胺立大功!研究發(fā)現(xiàn):老人吃甲鈷胺,或能緩解5種癥狀

甲鈷胺立大功!研究發(fā)現(xiàn):老人吃甲鈷胺,或能緩解5種癥狀

小胡軍事愛好
2025-12-25 21:39:39
影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

徐幫陽
2025-12-23 18:33:38
太諷刺!龐家無償捐4700平米祖宅,院長雙謊被戳穿,省多部門介入

太諷刺!龐家無償捐4700平米祖宅,院長雙謊被戳穿,省多部門介入

好賢觀史記
2025-12-23 18:14:27
中金:預(yù)計(jì)2026年基建投資增速為4.5%

中金:預(yù)計(jì)2026年基建投資增速為4.5%

新浪財(cái)經(jīng)
2025-12-25 08:22:19
唐朝這四位皇帝,都被迫讓出了皇位,你了解嗎?

唐朝這四位皇帝,都被迫讓出了皇位,你了解嗎?

貓眼觀史
2025-12-24 19:40:16
泰國重拳打擊電詐、器官黑產(chǎn),駐華使館粉絲暴漲,有人捐款支持

泰國重拳打擊電詐、器官黑產(chǎn),駐華使館粉絲暴漲,有人捐款支持

胡嚴(yán)亂語
2025-12-24 15:18:20
2025-12-26 03:07:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7024文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

俄軍中將在汽車炸彈爆炸中身亡 俄軍報(bào)復(fù)

頭條要聞

俄軍中將在汽車炸彈爆炸中身亡 俄軍報(bào)復(fù)

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

新規(guī)來了,年化超24%的小貸被即刻叫停

汽車要聞

速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

旅游
本地
親子
數(shù)碼
教育

旅游要聞

市屬公園三大雪場(chǎng)今起全面開放

本地新聞

這輩子要積多少德,下輩子才能投胎到德國當(dāng)狗

親子要聞

心理專家:孩子失敗后的兩種反應(yīng)

數(shù)碼要聞

年終復(fù)盤不用愁,鴻蒙電腦讓高效貫穿每一刻

教育要聞

英國這兩年給我們的感覺是窮瘋了!

無障礙瀏覽 進(jìn)入關(guān)懷版 欧美一级成人免费观看苍井空| 免费一区二区三区视频狠狠| 亚洲AV无码乱码国产二区| 国产成人无码a区视频| 人妻超碰免费| 大屁股熟女后入一区二区| 欧美熟妇多毛XXXX欧美熟妇多毛图片| 欧美少妇影院| 日本少妇视频网站| 欧美熟妇乱子伦XX视频| 国产丶欧美丶日本不卡视频| 久久久中文幕av无码色戒孕妇| 麻豆久久婷婷国产| 18禁男女爽爽真人免费| 国产不卡精品视频男人的天堂| 牲欲强的熟妇农村老妇女视频| 夫妻精品一区| 国产女人喷水一区| 三个男人躁我一个爽公交车上 | 后入丰满白嫩少妇| 夜晚成人18禁区导航网站| 亚洲国产精品久久久久秋霞影院| 欧美熟妇另类久久久久久不卡| 亚洲一级电影在线观看| 天堂8在线新版官网| 国产精品久久久久无码AV按摩| 老色鬼无码激情综合久久| 亚洲成av人片高潮喷水| 神马久久久久久久久| 色丁香六月激情婷婷| 亚洲国产精品一区二区第一页 | 亚洲综合无码一区二区痴汉 | 国产男男做受69高| 加勒比日韩无码| 黄色激情小说网站| 国内综合精品午夜久久资源| 国产。色在线| 九九久热不卡| 一区二区三区在线 | 中国| 黄网站欧美内射| 国产人操人操操操人碰视频|