網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

螞蟻Ring-1T正式登場，萬億參數(shù)思考模型，數(shù)學(xué)能力對標(biāo)IMO銀牌

2025-10-14 14:03:28　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心原創(chuàng)

作者：吳昕、楊文

Ring-1T 已成長為可與閉源產(chǎn)業(yè)論壇的成員，也是開源體系下閉源級績效的又一個(gè)環(huán)節(jié)。

螞蟻，又雙叒叕開源萬億模型了！

短短十余天，接連三彈。

10 月 9 日凌晨，螞蟻官宣并開源通用語言大模型 Ling-1T——據(jù)了解他們參數(shù)規(guī)模最大的語言模型。上線 HuggingFace 僅四天，下載量便突破千次。

Ling-1T開源，x網(wǎng)友也對開源模型的體量感到震驚

reddit上也有討論。有分析認(rèn)為，螞蟻的設(shè)計(jì)確實(shí)有讓推理變強(qiáng)的合理機(jī)制，比如主動參數(shù)更多、前幾層全密集。

尚未等工廠緩過神來，10 月 14 日凌晨，萬億級思考模型Ring-1T又正式登場，這也是全球首個(gè)開源的萬億參數(shù)思考模型。

其實(shí)早在 9 月 30 日，螞蟻就已放出Ring-1T-preview彼時(shí)，它便在開源圖表上的六角露頭角，展示出的自然語言推理與思考能力，也率先把開源思考模型的「天花板」大幅推至萬億級。

Ring-1T-preview剛出來，就有蘋果工程師在自己的 M3 Ultra 上跑了。

此次正式發(fā)布，Ring-1T 完成了完整的訓(xùn)練流程，包括繼續(xù)通過大規(guī)模可驗(yàn)證強(qiáng)化強(qiáng)化學(xué)習(xí)（RLVR）進(jìn)一步增強(qiáng)推理能力，并結(jié)合人類反饋強(qiáng)化學(xué)習(xí)（RLHF）提升通用表現(xiàn)，模型整體能力更加均衡。

在高難度 IMO 測試中，Ring - 1T 接入多智能體框架 AWorld ，首次嘗試便解出第1、3、4、5題——4題全對，達(dá)到 IMO 銀牌水平，成為第一個(gè)在國際奧數(shù)賽題上取得獲獎(jiǎng)級成績的開源系統(tǒng)。

https://huggingface.co/inclusionAI/Ring-1T
https://modelscope.cn/models/inclusionAI/Ring-1T

引用的復(fù)雜推理能力，SOTA開源重新刷新

三連開源，頻率之高引人注目。那個(gè)問題來了——

此次正式版 Ring-1T，到底有多強(qiáng)？

從最新公布的成績單來看，得益于完整強(qiáng)化學(xué)習(xí)訓(xùn)練流程的加持，Ring-1T 在其預(yù)覽版的基礎(chǔ)上幾乎實(shí)現(xiàn)了全面、顯著的性能提升。

在、編程、邏輯推理、專業(yè)知識與創(chuàng)意寫作等多維基準(zhǔn)上全面開花，成績穩(wěn)居第一梯隊(duì)，成果測試直接數(shù)學(xué)達(dá)到開源 SOTA 水平，部分測試表現(xiàn)可比肩最強(qiáng)閉源模型。

為了模型模型是否能在最棘手又最實(shí)用的價(jià)值檢驗(yàn)的認(rèn)知任務(wù)上達(dá)到全球頂尖水平，團(tuán)隊(duì)提出了八個(gè)重要的基準(zhǔn)測試：數(shù)學(xué)競賽（AIME 25、HMMT 25）、代碼生成（LiveCodeBench、CodeForce-Elo）、邏輯推理（ARC-AGI-v1）、綜合排行榜（Arena-Hard-v2）、健康醫(yī)療（HealthBench ）以及創(chuàng)意寫作（CreativeWriting-v3）。

團(tuán)隊(duì)做了八個(gè)重要的基準(zhǔn)測試。參與對比的對手主流開源模型與閉源 API：

Ring-1T 預(yù)覽
雙子座-2.5-專業(yè)版
Deepseek-V3.1-終端-思考
Qwen-235B-A22B-思考-2507
GPT-5-思考（高級）

結(jié)果，顯示與自己的預(yù)覽版本（ Ring-1T-Preview ）相比，Ring-1T 的性能提升幾乎覆蓋所有維度，整體能力更加均衡。

在ARC-AGI-v1、Arena-Hard-v2.0、HealthBench等主題復(fù)雜推理與跨領(lǐng)域挑戰(zhàn)的高難度測試中，Ring-1T 表現(xiàn)極其突出，推理穩(wěn)定性與跨領(lǐng)域適應(yīng)力實(shí)現(xiàn)了顯著著躍升。（硬剛復(fù)雜問題，挺真實(shí)的。）

部分任務(wù)上（CodeForces、LiveCodeBench、CreativeWriting-v3），Ring-1T 與早期版本持平乃至未來回落，但整體波動極小，說明系統(tǒng)在追求更廣泛平衡的同時(shí)，依然保持高水位表現(xiàn)。

橫向來看，Ring-1T 在開源項(xiàng)目測試中不僅全面領(lǐng)跑開源模式，多個(gè)項(xiàng)目更是逼迫近閉源旗艦 GPT-5 表現(xiàn)，表現(xiàn)出強(qiáng)勁的綜合活躍度。

尤其在邏輯推理任務(wù) ARC-AGI-v1上，Ring-1T 不僅刷新開源 SOTA，還明顯著眼于領(lǐng)先 Gemini-2.5-Pro，表現(xiàn)出超越越來越嚴(yán)格閉源模型的力量推理；雖然距離當(dāng)前最強(qiáng)的 GPT-5-Thinking （高）差距，但 Ring-1T 的表現(xiàn)非常接近。

綜合能力測試 Arena-Hard-v2.0中，Ring-1T 僅支持GPT-5-Thinking（High）1分多，已占據(jù)行業(yè)最頂尖梯隊(duì)。

為了更仔細(xì)評估 Ring-1T 的深度思考能力，螞蟻道具去挑戰(zhàn)最新、尚無公開答案的頂級賽題——IMO2025ICPC世界總決賽2025（國際大學(xué)生程序設(shè)計(jì)競賽總得分）。結(jié)果，Ring-1T 在高強(qiáng)度與編程推理任務(wù)上，演習(xí)出接近嚴(yán)謹(jǐn)閉源模型的實(shí)力。

在 IMO 2025 中，6 道題中，它首輪就解出了第1、3、4、5 題，成績達(dá)到了人類銀牌水平。在極高的第 2題上，經(jīng)過三次推理后也給出了接近滿分的幾何證明。唯一未解的第 6 題，其最終答案與 Gemini 2.5 Pro 收斂一致。

在 ICPC世界總決賽2025 中，Ring-1T 在三次嘗試內(nèi)成功解出5題（DFJKL），表現(xiàn)超越 Gemini-2.5-Pro（3題），逼近 GPT-5-Thinking（6題）。

總體來看，Ring-1T 已成長為可與閉源產(chǎn)業(yè)對接的參賽選手，也是開源體系下閉源級績效的另一方。

一手實(shí)測

除了列出數(shù)據(jù)外，團(tuán)隊(duì)還展示了交互演示，讓幼兒得以多次聆聽感受 Ring-1T 的推理與生成力量。我們也在第一時(shí)間體驗(yàn)了 Ring-1T，感受這「萬億思考模型」在真實(shí)任務(wù)中的推理、創(chuàng)造與表達(dá)。

自從 Andrej Karpathy 帶上 Firevibe編碼概念后，開發(fā)者開始把更多的創(chuàng)意和直覺帶入AI編程過程中。這次，我們就先來測試一下 Ring-1T 的代碼能力

我們輸入提示詞「生成一款簡單可玩的 Flappy Bird 小游戲」，Ring-1T 迅速生成了完整的游戲代碼，雖然畫風(fēng)結(jié)構(gòu)抽象了點(diǎn)，但它成功實(shí)現(xiàn)了游戲的交互功能。

再比如讓 Ring-1T 生成一個(gè)簡單的貪吃蛇小游戲。

Ring-1T 能夠精準(zhǔn)理解和應(yīng)用復(fù)雜的邏輯要求，生成簡潔的游戲界面，貪吃蛇移動與生長的動畫絲滑，碰撞檢測、分?jǐn)?shù)系統(tǒng)、開始與暫停等功能乘客順利運(yùn)行。

提示詞：生成一個(gè)簡單的貪吃蛇小游戲，要求包含以下功能：一個(gè)固定大小的網(wǎng)格，顯示蛇和食物；蛇在網(wǎng)格上移動，玩家可以使用箭頭鍵控制蛇的方向（上、下、左、右）；每次蛇吃到食物后，蛇的長度增加，新的食物會出現(xiàn)在網(wǎng)格上的隨機(jī)位置；當(dāng)蛇撞到自己的身體或邊界時(shí)，游戲結(jié)束，并顯示最終得分；每吃到一個(gè)食物，分?jǐn)?shù)增加，并顯示當(dāng)前分?jǐn)?shù)；玩家可以開始和暫停游戲；蛇的移動應(yīng)平滑，并顯示蛇頭和身體的不同部分；使用HTML、CSS和JavaScript實(shí)現(xiàn)游戲邏輯、動畫效果，并保證游戲在桌面和移動設(shè)備上流暢運(yùn)行。

再比如編寫一個(gè) p5.js 腳本，模擬 25個(gè) 粒子在一個(gè)真空空間中的以色列容器內(nèi)彈跳。

提示詞：編寫一個(gè) p5.js 腳本，模擬圓柱形容器真空空間中的 25 個(gè)粒子在其邊界內(nèi)彈跳。為每個(gè)球體使用不同的顏色，并確保它們留下軌跡以顯示其運(yùn)動。添加容器的緩慢旋轉(zhuǎn)效果，以便更好地觀察場景中發(fā)生的情況。確保創(chuàng)建適當(dāng)?shù)呐鲎矙z測和物理規(guī)則，以確保粒子停留在容器內(nèi)。添加一個(gè)外部球形容器。為整個(gè)場景添加緩慢放大和縮小的效果。

接下來看看它的邏輯推理能力

提示詞：黑兔、灰兔和白兔三只兔子在賽跑。黑兔說：我跑的不是最快的，但比白兔快。請問誰跑得最快？誰跑得最慢？

這道推理題目相對簡單，Ring-1T 的回答也費(fèi)多大勁，整理題干信息、給出答案、驗(yàn)證答案，一氣呵成。

提示詞：地鐵站內(nèi)，一個(gè)女人大喊：“搶劫了！”椰子攜帶錢包跑得很快，保安追不到。經(jīng)過一系列的工作，找到了四個(gè)嫌疑人。探長過來時(shí)，甲在椅子上昏昏欲睡，乙冷得縮成一團(tuán)，丙不安的四周張望，丁在原地跑取暖，請問誰的嫌疑人最大？

Ring-1T準(zhǔn)確識別出不同嫌疑人的行為與威脅，并經(jīng)過一系列推理，最終給出了正確的答案。這種推理不僅依賴于對威脅的理解，還考慮到了行為模式和心理狀態(tài)的微妙差異。

提示詞：在一個(gè)俱樂部里，只有老實(shí)人騙子兩類成員，老實(shí)人說真話，騙子說假話。一天，該俱樂部的四名成員在聊天。

甲說：我是個(gè)老實(shí)人

乙說：我們有兩個(gè)人是騙子

丙說：我們只有一個(gè)是騙子

丁說：我們四個(gè)都是騙子

誰一定是騙子？

這道邏輯題曲里拐彎，Ring-1T 費(fèi)了一些工夫，逐一分析四名成員的發(fā)言，并以P表格的形式整理出所有信息，最終得出正確答案。

另外，既然 Ring-1T 模型在數(shù)學(xué)競賽方面達(dá)到了開源 SOTA 水平，我們就用2025 年全國中學(xué)生數(shù)學(xué)競賽(預(yù)賽)中的問題考考它。

根據(jù)其思路，我們發(fā)現(xiàn) Ring-1T 思路非常清晰，先回顧奇函數(shù)和偶函數(shù)的定義，然后根據(jù)這兩個(gè)條件方程，解出 f(x) 的表達(dá)式，最后準(zhǔn)確求出頂點(diǎn)。

創(chuàng)意寫作方面，Ring-1T 模型的發(fā)揮很穩(wěn)定，尤其是講故事的能力相當(dāng)能打。

正好最近在聽一些歷史方面的播客，我們特意寫一篇播客文案，介紹蘇軾和章惇恩怨始末，為防止其胡說八道，還要求其引用相關(guān)的史實(shí)記載。

Ring-1T 能夠靈活地把歷史人物和事件約瑟夫的敘述中，生成符合播客口語化風(fēng)格的文案，語言且具吸引力，甚至連都音效一一契約。

整體來說，Ring-1T是一款潛力很大的模型，在多個(gè)領(lǐng)域都表演出了強(qiáng)大的實(shí)際應(yīng)用價(jià)值。

在代碼生成上，模型能夠快速響應(yīng)任務(wù)需求，生成符合邏輯的游戲代碼，并保證交互性和功能完整；其推理能力精準(zhǔn)且，能夠高效理解復(fù)雜假設(shè)并給出合理解答；在創(chuàng)意寫作領(lǐng)域，模型能夠適應(yīng)不同風(fēng)格的需求，生成引人入勝的內(nèi)容。

當(dāng)然，Ring-1T仍存在一些不足，特別是在身份認(rèn)知、中英文混雜和重復(fù)等問題上。這些問題影響了模型的穩(wěn)定性和一致性，未來的版本更新機(jī)遇進(jìn)一步優(yōu)化。

小漏洞能沉船？

MoE大模型RL訓(xùn)練的「棒冰」救場

歸根到底，數(shù)據(jù)背后體現(xiàn)的是強(qiáng)化學(xué)習(xí)算法 IcePop（「棒冰」）與系統(tǒng)框架系統(tǒng) 的微妙合力。前期穩(wěn)定住長周期RL的基本盤，將保證大規(guī)模的工程落地。

研發(fā) Ring-1T 在后期訓(xùn)練階段的最大硬骨頭，尤其是大規(guī)模強(qiáng)化學(xué)習(xí)「調(diào)教」。教育部模型的常見「暗礁」，是訓(xùn)示推送不一致問題：

訓(xùn)練端與推理計(jì)算端在子精度或?qū)崿F(xiàn)上存在微小差異，但在梯度路由、長序列自回歸中被不斷放大。結(jié)果就是——啟動「訓(xùn)練」，實(shí)則已超出正常策略，獎(jiǎng)勵(lì)信號混亂，梯度崩壞，訓(xùn)練翻車。

于是，IcePop 登場。

百靈大模型團(tuán)隊(duì)直接「抬走」壞梯度。它通過「結(jié)構(gòu)截?cái)?+蒙蔽剪切」雙重篩選機(jī)制，實(shí)時(shí)監(jiān)控每個(gè) token 在訓(xùn)推末端的概率差異，當(dāng)信號「溫度」過高或過低時(shí)立即打掩碼——拒學(xué)壞信號，只更新穩(wěn)態(tài)瞬時(shí)。

盡管 TIS 的「調(diào)權(quán)繼續(xù)學(xué)」，IcePop 的策略是「寧可不學(xué)，也不能學(xué)錯(cuò)」。它讓模型只吸收「清晰相關(guān)」，拒絕損壞梯度輸入。

結(jié)果立竿見影。在長周期訓(xùn)練下，GRPO 的訓(xùn)令推著差異曲線一路高峰，而 IcePop 曲線穩(wěn)定、巔峰顯著下降——仿佛給過熱的系統(tǒng)喂了一根一根「棒冰」。

標(biāo)準(zhǔn)GRPO在短程還能穩(wěn)定住，但訓(xùn)練百步后很快「高燒」，獎(jiǎng)勵(lì)信號失真，梯度暴沖，訓(xùn)練直接翻車。圖1：GRPO訓(xùn)練推差隨著訓(xùn)練指數(shù)上升，Icepop處于平穩(wěn)；圖2：訓(xùn)練推差上升，GRPO隨著訓(xùn)練上升非常明顯，Icepop維持在較低水位。

IcePop 讓 MoE 模型在 AIME25 等復(fù)雜推理任務(wù)上成績更優(yōu)，還讓模型輸出更穩(wěn)定、更具多樣性，低概率 token 也有被探索的機(jī)會。

研究進(jìn)一步發(fā)現(xiàn)，被 IcePop 清晰除的往往是高熵、高糾錯(cuò)的令牌——這就是最容易被訓(xùn)推偏差污染的信號。IcePop徹底切斷了損壞的“鏈”，讓訓(xùn)練感染更加健康可靠。

幕后英雄：

自研RL框架，「拿捏」萬億規(guī)模訓(xùn)練

要讓「棒冰」算法在超大規(guī)模訓(xùn)練中穩(wěn)定、高速運(yùn)行，需要底層系統(tǒng)的支撐。為此，螞蟻?zhàn)匝辛藦?qiáng)化學(xué)習(xí)基礎(chǔ)框架A系統(tǒng)，解決硬件資源調(diào)度與效率瓶頸，為模型「自我調(diào)教」鋪平道路。

它采用單控制器+SPMD架構(gòu)：上層有「大腦」統(tǒng)一策略，下層海量執(zhí)行單元定量推進(jìn)，既保證訓(xùn)練一致性，又釋放最大吞吐力。

在萬億參數(shù)的 MoE 訓(xùn)練中，強(qiáng)化學(xué)習(xí)間隙切換「訓(xùn)練—推理」模式，顯存極易爆滿，權(quán)重交換又運(yùn)行。A系統(tǒng) 通過顯存透明卸載與跨節(jié)點(diǎn)顯存化技術(shù)，把零碎片池顯存整合成共享池，極大降低了 OOM 訓(xùn)練風(fēng)險(xiǎn)，讓穩(wěn)定性獲得根本提升。

在權(quán)重交換與同步上，它采用 GPU P2P直連 + 原地更新技術(shù)，繞過CPU中轉(zhuǎn)——就像兩艘船在海上直接交貨，不一定再靠岸，權(quán)重交換因此能實(shí)現(xiàn)秒級交換，真正實(shí)現(xiàn)「零噪音切換」。

強(qiáng)化學(xué)習(xí)的另一個(gè)瓶頸是獎(jiǎng)勵(lì)評估。模型要通過試錯(cuò)不斷學(xué)習(xí)，每次動作都要經(jīng)過評估與反饋。尤其是在涉及執(zhí)行代碼或復(fù)雜邏輯的場景里，這些獎(jiǎng)勵(lì)評估必須在安全沙箱環(huán)境中完成，而傳統(tǒng)沙箱啟動緩慢，往往成為訓(xùn)練提速的最大拖尾。

ASystem 把大規(guī)模 Serverless Sandbox直接接入強(qiáng)化學(xué)習(xí)回路，制作出混合獎(jiǎng)勵(lì)平臺。沙箱可以多層冷啟動，支持十余種語言環(huán)境即開即用，工具鏈隨取隨用。吞吐量能支撐到 10K/s，存款不再卡脖子。

AI 的競爭，從來不只是「誰的模型更強(qiáng)」，而是路線進(jìn)化之爭。

9 月，螞蟻用一場「風(fēng)暴開源」將防御題推向上限：百靈大模型團(tuán)隊(duì)密集上線 7 款新品，平均每 4 天一個(gè)新模型；進(jìn)入 10 月，又連發(fā)了兩個(gè)。

更關(guān)鍵的是，螞蟻的不止是模型，還有讓模型能持續(xù)進(jìn)化的基礎(chǔ)能力。例如，ASystem 的強(qiáng)化學(xué)習(xí)框架AreaL已于今年 3 月開源，讓社區(qū)能直接復(fù)用螞蟻在 RL 工程上的積累，加速強(qiáng)化學(xué)習(xí)訓(xùn)練研究與創(chuàng)新。

對螞蟻而言，開源不僅是開放代碼，更是一條讓 AI 普惠落地的現(xiàn)實(shí)路徑。當(dāng)這些能力被廣泛呼吁時(shí)，AI 才能像電力與支付那樣——無感，卻又暗示在。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.