機(jī)器之心原創(chuàng)
作者:吳昕、楊文
Ring-1T 已成長為可與閉源產(chǎn)業(yè)論壇的成員,也是開源體系下閉源級績效的又一個(gè)環(huán)節(jié)。
螞蟻,又雙叒叕開源萬億模型了!
短短十余天,接連三彈。
10 月 9 日凌晨,螞蟻官宣并開源通用語言大模型 Ling-1T——據(jù)了解他們參數(shù)規(guī)模最大的語言模型。上線 HuggingFace 僅四天,下載量便突破千次。
Ling-1T開源,x網(wǎng)友也對開源模型的體量感到震驚
reddit上也有討論。有分析認(rèn)為,螞蟻的設(shè)計(jì)確實(shí)有讓推理變強(qiáng)的合理機(jī)制,比如主動參數(shù)更多、前幾層全密集。
尚未等工廠緩過神來,10 月 14 日凌晨,萬億級思考模型Ring-1T又正式登場,這也是全球首個(gè)開源的萬億參數(shù)思考模型。
其實(shí)早在 9 月 30 日,螞蟻就已放出Ring-1T-preview彼時(shí),它便在開源圖表上的六角露頭角,展示出的自然語言推理與思考能力,也率先把開源思考模型的「天花板」大幅推至萬億級。
Ring-1T-preview剛出來,就有蘋果工程師在自己的 M3 Ultra 上跑了。
此次正式發(fā)布,Ring-1T 完成了完整的訓(xùn)練流程,包括繼續(xù)通過大規(guī)模可驗(yàn)證強(qiáng)化強(qiáng)化學(xué)習(xí)(RLVR)進(jìn)一步增強(qiáng)推理能力,并結(jié)合人類反饋強(qiáng)化學(xué)習(xí)(RLHF)提升通用表現(xiàn),模型整體能力更加均衡。
在高難度 IMO 測試中,Ring - 1T 接入多智能體框架 AWorld , 首次嘗試便解出第1、3、4、5題——4題全對 ,達(dá)到 IMO 銀牌水平,成為第一個(gè)在國際奧數(shù)賽題上取得獲獎(jiǎng)級成績的開源系統(tǒng)。
- https://huggingface.co/inclusionAI/Ring-1T
- https://modelscope.cn/models/inclusionAI/Ring-1T
引用的復(fù)雜推理能力,SOTA開源重新刷新
三連開源,頻率之高引人注目。那個(gè)問題來了——
此次正式版 Ring-1T,到底有多強(qiáng)?
從最新公布的成績單來看,得益于完整強(qiáng)化學(xué)習(xí)訓(xùn)練流程的加持,Ring-1T 在其預(yù)覽版的基礎(chǔ)上幾乎實(shí)現(xiàn)了全面、顯著的性能提升。
在、編程、邏輯推理、專業(yè)知識與創(chuàng)意寫作等多維基準(zhǔn)上全面開花,成績穩(wěn)居第一梯隊(duì),成果測試直接數(shù)學(xué)達(dá)到開源 SOTA 水平,部分測試表現(xiàn)可比肩最強(qiáng)閉源模型。
為了模型模型是否能在最棘手又最實(shí)用的價(jià)值檢驗(yàn)的認(rèn)知任務(wù)上達(dá)到全球頂尖水平,團(tuán)隊(duì)提出了八個(gè)重要的基準(zhǔn)測試:數(shù)學(xué)競賽(AIME 25、HMMT 25)、代碼生成(LiveCodeBench、CodeForce-Elo)、邏輯推理(ARC-AGI-v1)、綜合排行榜(Arena-Hard-v2)、健康醫(yī)療(HealthBench )以及創(chuàng)意寫作(CreativeWriting-v3)。
團(tuán)隊(duì)做了八個(gè)重要的基準(zhǔn)測試。參與對比的對手主流開源模型與閉源 API:
- Ring-1T 預(yù)覽
- 雙子座-2.5-專業(yè)版
- Deepseek-V3.1-終端-思考
- Qwen-235B-A22B-思考-2507
- GPT-5-思考(高級)
結(jié)果,顯示與自己的 預(yù)覽 版本( Ring-1T-Preview )相比,Ring-1T 的性能提升幾乎覆蓋所有維度,整體能力更加均衡。
在ARC-AGI-v1、Arena-Hard-v2.0、HealthBench等主題復(fù)雜推理與跨領(lǐng)域挑戰(zhàn)的高難度測試中,Ring-1T 表現(xiàn)極其突出,推理穩(wěn)定性與跨領(lǐng)域適應(yīng)力實(shí)現(xiàn)了顯著著躍升。(硬剛復(fù)雜問題,挺真實(shí)的。)
部分任務(wù)上(CodeForces、LiveCodeBench、CreativeWriting-v3),Ring-1T 與早期版本持平乃至未來回落,但整體波動極小,說明系統(tǒng)在追求更廣泛平衡的同時(shí),依然保持高水位表現(xiàn)。
橫向來看,Ring-1T 在開源項(xiàng)目測試中不僅全面領(lǐng)跑開源模式,多個(gè)項(xiàng)目更是逼迫近閉源旗艦 GPT-5 表現(xiàn),表現(xiàn)出強(qiáng)勁的綜合活躍度。
尤其在邏輯推理任務(wù) ARC-AGI-v1上,Ring-1T 不僅刷新開源 SOTA,還明顯著眼于領(lǐng)先 Gemini-2.5-Pro,表現(xiàn)出超越越來越嚴(yán)格閉源模型的力量推理;雖然距離當(dāng)前最強(qiáng)的 GPT-5-Thinking (高)差距,但 Ring-1T 的表現(xiàn)非常接近。
綜合能力測試 Arena-Hard-v2.0中,Ring-1T 僅支持GPT-5-Thinking(High)1分多,已占據(jù)行業(yè)最頂尖梯隊(duì)。
為了更仔細(xì)評估 Ring-1T 的深度思考能力,螞蟻道具去挑戰(zhàn)最新、尚無公開答案的頂級賽題——IMO2025ICPC世界總決賽2025(國際大學(xué)生程序設(shè)計(jì)競賽總得分)。結(jié)果,Ring-1T 在高強(qiáng)度與編程推理任務(wù)上,演習(xí)出接近嚴(yán)謹(jǐn)閉源模型的實(shí)力。
在 IMO 2025 中,6 道題中,它首輪就解 出了第1、3、4、5 題,成績達(dá)到了人類銀牌水平。在極高的第 2題上,經(jīng)過三次推理后也給出了接近滿分的幾何證明。唯一未解的第 6 題 ,其最終答案與 Gemini 2.5 Pro 收斂一致。
在 ICPC世界總決賽2025 中,Ring-1T 在三次嘗試內(nèi)成功解出5題(DFJKL),表現(xiàn)超越 Gemini-2.5-Pro(3題),逼近 GPT-5-Thinking(6題)。
總體來看,Ring-1T 已成長為可與閉源產(chǎn)業(yè)對接的參賽選手,也是開源體系下閉源級績效的另一方。
一手實(shí)測
除了列出數(shù)據(jù)外,團(tuán)隊(duì)還展示了交互 演示,讓幼兒得以多次聆聽感受 Ring-1T 的推理與生成力量。我們也在第一時(shí)間體驗(yàn)了 Ring-1T,感受這「萬億思考模型」在真實(shí)任務(wù)中的推理、創(chuàng)造與表達(dá)。
自從 Andrej Karpathy 帶上 Firevibe編碼 概念后,開發(fā)者開始把更多的創(chuàng)意和直覺帶入AI編程過程中。這次,我們就先來測試一下 Ring-1T 的代碼能力
我們輸入提示詞「生成一款簡單可玩的 Flappy Bird 小游戲」,Ring-1T 迅速生成了完整的游戲代碼,雖然畫風(fēng)結(jié)構(gòu)抽象了點(diǎn),但它成功實(shí)現(xiàn)了游戲的交互功能。
再比如讓 Ring-1T 生成一個(gè)簡單的貪吃蛇小游戲。
Ring-1T 能夠精準(zhǔn)理解和應(yīng)用復(fù)雜的邏輯要求,生成簡潔的游戲界面,貪吃蛇移動與生長的動畫絲滑,碰撞檢測、分?jǐn)?shù)系統(tǒng)、開始與暫停等功能乘客順利運(yùn)行。
提示詞:生成一個(gè)簡單的貪吃蛇小游戲,要求包含以下功能:一個(gè)固定大小的網(wǎng)格,顯示蛇和食物;蛇在網(wǎng)格上移動,玩家可以使用箭頭鍵控制蛇的方向(上、下、左、右);每次蛇吃到食物后,蛇的長度增加,新的食物會出現(xiàn)在網(wǎng)格上的隨機(jī)位置;當(dāng)蛇撞到自己的身體或邊界時(shí),游戲結(jié)束,并顯示最終得分;每吃到一個(gè)食物,分?jǐn)?shù)增加,并顯示當(dāng)前分?jǐn)?shù);玩家可以開始和暫停游戲;蛇的移動應(yīng)平滑,并顯示蛇頭和身體的不同部分;使用HTML、CSS和JavaScript實(shí)現(xiàn)游戲邏輯、動畫效果,并保證游戲在桌面和移動設(shè)備上流暢運(yùn)行。
再比如編寫一個(gè) p5.js 腳本,模擬 25個(gè) 粒子在一個(gè)真空空間中的以色列容器內(nèi)彈跳。
提示詞:編寫一個(gè) p5.js 腳本,模擬圓柱形容器真空空間中的 25 個(gè)粒子在其邊界內(nèi)彈跳。為每個(gè)球體使用不同的顏色,并確保它們留下軌跡以顯示其運(yùn)動。添加容器的緩慢旋轉(zhuǎn)效果,以便更好地觀察場景中發(fā)生的情況。確保創(chuàng)建適當(dāng)?shù)呐鲎矙z測和物理規(guī)則,以確保粒子停留在容器內(nèi)。添加一個(gè)外部球形容器。為整個(gè)場景添加緩慢放大和縮小的效果。
接下來看看它的邏輯推理能力
提示詞:黑兔、灰兔和白兔三只兔子在賽跑。黑兔說:我跑的不是最快的,但比白兔快。請問誰跑得最快?誰跑得最慢?
這道推理題目相對簡單,Ring-1T 的回答也費(fèi)多大勁,整理題干信息、給出答案、驗(yàn)證答案,一氣呵成。
提示詞:地鐵站內(nèi),一個(gè)女人大喊:“搶劫了!”椰子攜帶錢包跑得很快,保安追不到。經(jīng)過一系列的工作,找到了四個(gè)嫌疑人。探長過來時(shí),甲在椅子上昏昏欲睡,乙冷得縮成一團(tuán),丙不安的四周張望,丁在原地跑取暖,請問誰的嫌疑人最大?
Ring-1T準(zhǔn)確識別出不同嫌疑人的行為與威脅,并經(jīng)過一系列推理,最終給出了正確的答案。這種推理不僅依賴于對威脅的理解,還考慮到了行為模式和心理狀態(tài)的微妙差異。
提示詞:在一個(gè)俱樂部里,只有老實(shí)人騙子兩類成員,老實(shí)人說真話,騙子說假話。一天,該俱樂部的四名成員在聊天。
甲說:我是個(gè)老實(shí)人
乙說:我們有兩個(gè)人是騙子
丙說:我們只有一個(gè)是騙子
丁說:我們四個(gè)都是騙子
誰一定是騙子?
這道邏輯題曲里拐彎,Ring-1T 費(fèi)了一些工夫,逐一分析四名成員的發(fā)言,并以P表格的形式整理出所有信息,最終得出正確答案。
另外,既然 Ring-1T 模型在數(shù)學(xué)競賽方面達(dá)到了開源 SOTA 水平,我們就用2025 年全國中學(xué)生數(shù)學(xué)競賽(預(yù)賽)中的問題考考它。
根據(jù)其思路,我們發(fā)現(xiàn) Ring-1T 思路非常清晰,先回顧奇函數(shù)和偶函數(shù)的定義,然后根據(jù)這兩個(gè)條件方程,解出 f(x) 的表達(dá)式,最后準(zhǔn)確求出頂點(diǎn)。
創(chuàng)意寫作方面,Ring-1T 模型的發(fā)揮很穩(wěn)定,尤其是講故事的能力相當(dāng)能打。
正好最近在聽一些歷史方面的播客,我們特意寫一篇播客文案,介紹蘇軾和章惇恩怨始末,為防止其胡說八道,還要求其引用相關(guān)的史實(shí)記載。
Ring-1T 能夠靈活地把歷史人物和事件約瑟夫的敘述中,生成符合播客口語化風(fēng)格的文案,語言且具吸引力,甚至連都音效一一契約。
整體來說,Ring-1T是一款潛力很大的模型,在多個(gè)領(lǐng)域都表演出了強(qiáng)大的實(shí)際應(yīng)用價(jià)值。
在代碼生成上,模型能夠快速響應(yīng)任務(wù)需求,生成符合邏輯的游戲代碼,并保證交互性和功能完整;其推理能力精準(zhǔn)且,能夠高效理解復(fù)雜假設(shè)并給出合理解答;在創(chuàng)意寫作領(lǐng)域,模型能夠適應(yīng)不同風(fēng)格的需求,生成引人入勝的內(nèi)容。
當(dāng)然,Ring-1T仍存在一些不足,特別是在身份認(rèn)知、中英文混雜和重復(fù)等問題上。這些問題影響了模型的穩(wěn)定性和一致性,未來的版本更新機(jī)遇進(jìn)一步優(yōu)化。
小漏洞能沉船?
MoE大模型RL訓(xùn)練的「棒冰」救場
歸根到底,數(shù)據(jù)背后體現(xiàn)的是強(qiáng)化學(xué)習(xí)算法 IcePop(「棒冰」)與系統(tǒng)框架 系統(tǒng) 的微妙合力。前期穩(wěn)定住長周期RL的基本盤,將保證大規(guī)模的工程落地。
研發(fā) Ring-1T 在后期訓(xùn)練階段的最大硬骨頭,尤其是大規(guī)模強(qiáng)化學(xué)習(xí)「調(diào)教」。教育部 模型的常見「暗礁」,是訓(xùn)示推送不一致問題:
訓(xùn)練端與推理計(jì)算端在子精度或?qū)崿F(xiàn)上存在微小差異,但在梯度路由、長序列自回歸中被不斷放大。結(jié)果就是——啟動「訓(xùn)練」,實(shí)則已超出正常策略,獎(jiǎng)勵(lì)信號混亂,梯度崩壞,訓(xùn)練翻車。
于是,IcePop 登場。
百靈大模型團(tuán)隊(duì)直接「抬走」壞梯度。它通過「結(jié)構(gòu)截?cái)?+蒙蔽剪切」雙重篩選機(jī)制,實(shí)時(shí)監(jiān)控每個(gè) token 在訓(xùn)推末端的概率差異,當(dāng)信號「溫度」過高或過低時(shí)立即打掩碼——拒學(xué)壞信號,只更新穩(wěn)態(tài)瞬時(shí)。
盡管 TIS 的「調(diào)權(quán)繼續(xù)學(xué)」,IcePop 的策略是「寧可不學(xué),也不能學(xué)錯(cuò)」。它讓模型只吸收「清晰相關(guān)」,拒絕損壞梯度輸入。
結(jié)果立竿見影。在長周期訓(xùn)練下,GRPO 的訓(xùn)令推著差異曲線一路高峰,而 IcePop 曲線穩(wěn)定、巔峰顯著下降——仿佛給過熱的系統(tǒng)喂了一根一根「棒冰」。
標(biāo)準(zhǔn)GRPO在短程還能穩(wěn)定住,但訓(xùn)練百步后很快「高燒」,獎(jiǎng)勵(lì)信號失真,梯度暴沖,訓(xùn)練直接翻車。圖1:GRPO訓(xùn)練推差隨著訓(xùn)練指數(shù)上升,Icepop處于平穩(wěn);圖2:訓(xùn)練推差上升,GRPO隨著訓(xùn)練上升非常明顯,Icepop維持在較低水位。
IcePop 讓 MoE 模型在 AIME25 等復(fù)雜推理任務(wù)上成績更優(yōu),還讓模型輸出更穩(wěn)定、更具多樣性,低概率 token 也有被探索的機(jī)會。
研究進(jìn)一步發(fā)現(xiàn),被 IcePop 清晰除的往往是高熵、高糾錯(cuò)的 令牌——這 就是最容易被訓(xùn)推偏差污染的信號。IcePop徹底切斷了損壞的“鏈”,讓訓(xùn)練感染更加健康可靠。
幕后英雄:
自研RL框架,「拿捏」萬億規(guī)模訓(xùn)練
要讓「棒冰」算法在超大規(guī)模訓(xùn)練中穩(wěn)定、高速運(yùn)行,需要底層系統(tǒng)的支撐。為此,螞蟻?zhàn)匝辛藦?qiáng)化學(xué)習(xí)基礎(chǔ)框架A系統(tǒng),解決硬件資源調(diào)度與效率瓶頸,為模型「自我調(diào)教」鋪平道路。
它采用單控制器+SPMD架構(gòu):上層有「大腦」統(tǒng)一策略,下層海量執(zhí)行單元定量推進(jìn),既保證訓(xùn)練一致性,又釋放最大吞吐力。
在萬億參數(shù)的 MoE 訓(xùn)練中,強(qiáng)化學(xué)習(xí)間隙切換「訓(xùn)練—推理」模式,顯存極易爆滿,權(quán)重交換又運(yùn)行。A系統(tǒng) 通過顯存透明卸載與跨節(jié)點(diǎn)顯存化技術(shù),把零碎片池顯存整合成共享池,極大降低了 OOM 訓(xùn)練風(fēng)險(xiǎn),讓穩(wěn)定性獲得根本提升。
在權(quán)重交換與同步上,它采用 GPU P2P直連 + 原地更新技術(shù),繞過CPU中轉(zhuǎn)——就像兩艘船在海上直接交貨,不一定再靠岸,權(quán)重交換因此能實(shí)現(xiàn)秒級交換,真正實(shí)現(xiàn)「零噪音切換」。
強(qiáng)化學(xué)習(xí)的另一個(gè)瓶頸是獎(jiǎng)勵(lì)評估。模型要通過試錯(cuò)不斷學(xué)習(xí),每次動作都要經(jīng)過評估與反饋。尤其是在涉及執(zhí)行代碼或復(fù)雜邏輯的場景里,這些獎(jiǎng)勵(lì)評估必須在安全沙箱環(huán)境中完成,而傳統(tǒng)沙箱啟動緩慢,往往成為訓(xùn)練提速的最大拖尾。
ASystem 把大規(guī)模 Serverless Sandbox直接接入強(qiáng)化學(xué)習(xí)回路,制作出混合獎(jiǎng)勵(lì)平臺。沙箱可以多層冷啟動,支持十余種語言環(huán)境即開即用,工具鏈隨取隨用。吞吐量能支撐到 10K/s,存款不再卡脖子。
AI 的競爭,從來不只是「誰的模型更強(qiáng)」,而是路線進(jìn)化之爭。
9 月,螞蟻用一場「風(fēng)暴開源」將防御題推向上限:百靈大模型團(tuán)隊(duì)密集上線 7 款新品,平均每 4 天一個(gè)新模型;進(jìn)入 10 月,又連發(fā)了兩個(gè)。
更關(guān)鍵的是,螞蟻的不止是模型,還有讓模型能持續(xù)進(jìn)化的基礎(chǔ)能力。例如,ASystem 的強(qiáng)化學(xué)習(xí)框架AreaL已于今年 3 月開源,讓社區(qū)能直接復(fù)用螞蟻在 RL 工程上的積累,加速強(qiáng)化學(xué)習(xí)訓(xùn)練研究與創(chuàng)新。
對螞蟻而言,開源不僅是開放代碼,更是一條讓 AI 普惠落地的現(xiàn)實(shí)路徑。當(dāng)這些能力被廣泛呼吁時(shí),AI 才能像電力與支付那樣——無感,卻又暗示在。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.