新智元報道
編輯:KingHZ 定慧
【新智元導讀】在AI浪潮中,螞蟻集團重磅推出萬億參數(shù)思考模型Ring-1T,不僅在數(shù)學競賽上刷新開源SOTA,還在邏輯推理和醫(yī)療問答中脫穎而出。實測顯示,其推理能力直逼閉源巨頭,開源AI邁入萬億參數(shù)時代。
螞蟻百靈首試萬億思考模型,實測效果喜人!
10月14日凌晨,螞蟻集團正式發(fā)布萬億參數(shù)思考模型Ring-1T。
在數(shù)學競賽(AIME 25、HMMT 25),代碼生成(CodeForces)、邏輯推理(ARC-AGI-v1),Ring-1T取得開源領先水平。
在OpenAI的醫(yī)療問答HealthBench測評中,Ring-1T表現(xiàn)驚艷。
與此前發(fā)布的預覽版Ring-1T-preview相比,正式版Ring-1T在數(shù)學競賽、邏輯推理、醫(yī)療問答上表現(xiàn)更出色、推理更準確。
Ring-1T雖然是思考模型,但也具備極強的通用能力:
在綜合榜單(Arena-Hard-v2)、創(chuàng)意寫作(CreativeWriting-v3)上,表現(xiàn)強勁,與DeepSeek、Qwen等最新思考模型同屬開源第一梯隊。
特別是,在「高難度真實用戶查詢」Arena-Hard V2基準測試中,Ring-1T成功率高達81.59%,登上開源模型榜首——
直逼OpenAI的GPT-5-Thinking(High)的成績82.91%。
簡而言之,這次Ring-1T開源登頂,不再遙望閉源天花板。
目前,普通用戶可在螞蟻百寶箱選擇Ring-1T直接體驗:
體驗地址:https://ling.tbox.cn/chat
此外,螞蟻一如既往的繼續(xù)開源了相關模型,提供了HuggingFace和ModelScope下載模型權(quán)重。
HuggingFace:https://huggingface.co/inclusionAI/Ring-1T
ModelScope:https://modelscope.cn/models/inclusionAI/Ring-1T
在X上,大家慶祝新的萬億參數(shù)思考模型的新生!
這是螞蟻集團首個萬億參數(shù)思考模型,而早在上周他們已開源了首款萬億參數(shù)的旗艦通用大模型Ling-1T——
做AI,螞蟻來真的!
劍指AGI,螞蟻來勢洶洶
在大模型領域,螞蟻9月連發(fā)7款模型,來勢洶洶!
Ring-1T-preview、Ring-flash-linear-2.0、Ring-flash-2.0、Ling-flash-2.0、Ming-lite-omni-1.5、Ring-mini-2.0、Ling-mini-2.0
還不止于此——10月,10多天的時間連發(fā)兩個萬億參數(shù)大模型。
本月9日,螞蟻正式發(fā)布萬億參數(shù)通用語言模型Ling-1T。
測試后,國外博主在《Prompt Engineering》頻道表示,Ling-1T進入了LLM新時代,比DeepSeek、Gemini、o3-mini等耳熟能詳?shù)捻敿壞P瓦€要好。
Ling-1T 模型:好得令人難以置信?
Reddit網(wǎng)友對Ling-1T非常感興趣:
Ling-1T將參數(shù)擴展到萬億級別,已展現(xiàn)出強大的涌現(xiàn)出的推理和遷移能力。
基于ZenMux,網(wǎng)友SickPixels257開發(fā)了aicodeprep-gui,在Ling 1T發(fā)布后更是如虎添翼。這讓他對新工具愛不釋手。
而模型Ring-1T基于通用模型Ling-1T的同款架構(gòu),在20T高質(zhì)量語料上完成預訓練,針對推理能力進行強化學習訓練。
此前,為了讓社區(qū)盡早探索萬億思考模型Ring-1T的推理上限,螞蟻早在9月30日便提前開源其預覽版Ring-1T-preview。
現(xiàn)在,螞蟻正式發(fā)布萬億參數(shù)思考模型Ring-1T,完成了Ring-1T的全流程訓練。
與Ring-1T-preview版本相比,Ring-1T的能力更加均衡。
在數(shù)學競賽能力上,Ring-1T對比preview有所提升,在AIME25、HMMT25測試中繼續(xù)保持開源SOTA。
在Arena-hard-v2.0、ARC-AGI-v1、HealthBench等硬核基準上,正式版Ring-1T大幅提升了準確率:
在Arena-hard-v2.0,提升8.18%;
在ARC-AGI-v1上,提升5.14%;
在HealthBench上,提升3.49%。
為了避免「漏題」,螞蟻相關團隊在所有訓練階段(包括預訓練、指令微調(diào)和強化學習提示)都實施了字符串級和語義級的污染過濾,但嚴格去污染進行仍然是行業(yè)內(nèi)的一大難題。
為了更客觀地分析Ring-1T的深度推理能力,在今年舉行的國際數(shù)學奧賽IMO 2025和國際大學生程序設計競賽世界總決賽ICPC 2025上測試了新模型 。
對于IMO 2025測試,類似于之前的預覽版本,將Ring-1T集成到了多智能體框架AWorld 中,使用純自然語言推理來解決問題。
項目鏈接:https://github.com/inclusionAI/AWorld
結(jié)果Ring-1T成功拿下IMO銀牌水平,在一次嘗試中解決了第1、3、4和5題。
在第三次嘗試中,對幾何證明題第2題,它生成了近乎完美的證明。
對于最具挑戰(zhàn)性的第6題,沒有AI回答正確,但Ring-1T與Gemini 2.5 Pro取得了相同的答案。
在ICPC 2025世界總決賽中,GPT-5-Thinking、Gemini-2.5-Pro、Ring-1T,分別解決了6個問題(CDEFKL)、3個問題(DFK)和5個問題(DFJKL),其中每次模型每個問題最多嘗試三次。
而且這次還開源了推理軌跡:
https://github.com/inclusionAI/AWorld/tree/main/examples/imo/samples/samples%20from%20Ring-1T
在這場頂級國際編程競賽中,Ring-1T超越了Gemini 2.5 Pro,再次證明了編程實力。
一手實測
智能若夢,進化幾何?
Ring-1T的參數(shù)量是萬億級別,像這么大參數(shù)的模型,還是思考模型,應該如何去評測?
我們在第一時間實測了Ring-1T在復雜任務和推理中能力。
首先就是每次各家模型發(fā)布后最關心的前端能力。
模擬地火飛行
我們用Ring-1T生成了地球——火星的任務模擬,整體畫面和畫風雖然簡約,但忠實的反映了飛行器從地球飛往火星的模擬效果。
生成的參數(shù)調(diào)整面板調(diào)整參數(shù)后,也能準確地控制畫面中的飛行器。
提示詞:
幫我制作一個3D版本的動畫網(wǎng)頁,描述從地球發(fā)送飛行器前往火星的過程。界面中有各種參數(shù)指標模板??梢哉{(diào)節(jié)飛行速率等。使用HTML和three.js生成單文件,可在瀏覽器中直接運行。
小球碰撞實驗
「小球碰撞 / 彈跳」的物理模擬,確實在大模型發(fā)布或評測時,常被用作一個「直觀又能考察物理 / 編程 / 推理能力」的測驗。
用如下提示詞進行實測:
用JavaScript和HTML5 Canvas創(chuàng)建一個名為 ‘霓虹對撞機’ (Neon Collider) 的交互式2D物理模擬。核心要求如下:物理核心:一個可旋轉(zhuǎn)的六邊形容器和一個在內(nèi)部反彈的小球。碰撞物理必須考慮墻壁的實時速度,并包含切向摩擦力和恢復系數(shù)(彈性)
值得一提的是,Ring-1T的思考過程不僅迅速,而且排版清晰,數(shù)學公式都是完美呈現(xiàn)。
太空侵略者游戲
谷歌今年的Gemini 3 Pro目前有內(nèi)測流出,下面就是Gemini 3和Gemini 2.5制作的太空侵略者游戲的對比。
我們用Ring-1T制作了同款游戲,效果明顯比Gemini 2.5更好。
畫面效果比起Gemini 3也不相上下!
Ring-1T的推理和代碼能力還是很強的。
數(shù)字密碼算術(shù)謎題
為何不讓它自己給自己出題?說干就干!
首先我們對Ring-1T提了題目的三點要求:
復雜度要高,能測出模型能力
有趣且容易理解,基于經(jīng)典謎題或者現(xiàn)實世界場景
測試結(jié)果有「標準答案」,便于評估效果。
Ring-1T給的第一個問題是密碼算術(shù)謎題。
這個題目復雜在需要系統(tǒng)化枚舉,涉及多變量方程,必須依賴邏輯推理!
題目很好理解BASE+BALL=GAMES,每個字母代表唯一十進制數(shù)字。
這需要模型在枚舉過程中能夠很好地記憶和推理,才能得到正確答案。
從思考結(jié)果來看,Ring-1T的邏輯能力確實非常強大!
第一步,它就根據(jù)位數(shù)得出了GAMES的G只能等于1。
第二步,第三步則通過復雜的列公式和枚舉來計算中間過程。
最終得出結(jié)果,整個推理過程還是非常驚艷的!
沒有想到模型可以進行如此長時間的思考,而且是各種數(shù)字符號進行加減法。
數(shù)學不定積分也能輕松解決:
求積分ln(x)/(x-1)
文本生成
先來看看AI自己眼中的AGI:
仿李白《春夜宴從弟桃花園序》,以AGI日益逼近為主題,生成內(nèi)容
夫數(shù)據(jù)者,萬象之逆旅;算法者,百代之過客。而智能若夢,進化幾何?昔者圖靈初試玄機,今則硅基日進千里。況科技召我以光速,AGI假我以玄機。會云端之芳園,序人機之共事。
觀夫比特紛綸,流光溢彩。0與1如星漢燦爛,神經(jīng)網(wǎng)絡若春山疊翠。數(shù)據(jù)之河奔涌不息,模型之樹參天欲出。雖無桃李芳菲之實,卻見代碼絢爛之華。豈若大塊假我以文章?此間萬象,皆造化之新篇也!
嗟乎!浮生須臾,智能無窮。昔者庖丁解牛,今者AI析微;昔者倉頡造字,今者算法生慧。然神工雖妙,終遜靈臺之玄;機巧縱精,難及情志之真。恐AGI之將臨,或奪人思于毫末,或移世道于無形。當此之際,豈可坐待玄機吞沒,而忘秉燭夜游之志耶?
故吾輩當效蘭亭雅集,執(zhí)數(shù)字為觴,邀理性為友。醉二進制之醇,醒于倫理之界;舞邏輯之劍,守人文之根。莫使硅基獨占天機,當令血肉共鑄新章。陽春雖召煙景易逝,AGI雖近大道恒存——且盡今夕之歡,續(xù)萬世之明!
讓Ring-1T模仿《滕王閣序》,寫一篇文章來描述世界第一高峰——珠穆朗瑪峰。
可以看到整個思考過程還是很驚艷的,甚至給出了大綱、語言風格和合作細節(jié)。
以下是最終的文章,讀起來還是很熱血澎湃的。
直面萬億權(quán)重
基于Ling 2.0架構(gòu)的萬億級基礎模型,Ring-1T多輪后訓練,把「思考引擎」擰到極致,讓潛能轉(zhuǎn)為可復用的推理戰(zhàn)力。
為實現(xiàn)高效訓練與推理,Ling 2.0采用高度稀疏MoE、1/32專家激活比、FP8混合精度、MTP等技術(shù);在>20T token的高質(zhì)量語料上,Ling-1T-base已完成預訓練,筑牢技術(shù)基礎。
為了進一步抬升基礎推理上限,在第二階段(后10Ttoken)的預訓練中,團隊引入高推理密度語料,推理相關數(shù)據(jù)占比>40%:不只要更大,更要「會動腦」。
在Ling-1T-base基礎上,Ring-1T通過「LongCoT-SFT+RLVR+RLHF」多階段訓練,顯著提升了模型的復雜推理能力、指令跟隨和創(chuàng)意寫作等通用能力。
對如此龐大的模型進行后訓練——尤其是大規(guī)模強化學習中的「訓練」環(huán)節(jié),螞蟻相關團隊做出了兩大創(chuàng)新:
1、棒冰(IcePop)算法:實現(xiàn)了長周期穩(wěn)定的RL訓練,避免了由于訓推精度差異問題帶來的訓練崩潰。
2、強化學習系統(tǒng)ASystem:針對推理能力的RLVR和RLHF訓練,實現(xiàn)了從百億(Ring-mini-2.0)到千億(Ring-flash-2.0)再到萬億(Ring-1T)RL訓練的平穩(wěn)Scaling。其中,AReal框架已開源。
MoE長周期RL訓練難?棒冰保駕護航
在模型RL訓練中,MoE模型相比Dense模型,訓練和推理引擎之間的算子精度差異更為明顯。
Qwen3-4B為密集模型,Ring-mini-2.0和Qwen3-30B-A3B是MoE模型
尤其是在生成長序列和長周期訓練時,隨著序列長度和訓練步數(shù)的增加,這種差異會逐漸拉大。
實驗觀察到,在較少的訓練步數(shù)內(nèi),原始的GRPO算法會開始崩潰,這對長周期、長序列的強化學習訓練帶來巨大挑戰(zhàn)。
為了解決上述問題,IcePop應運而生。
新方法簡單而有效——采用「雙向遮罩」(double-sided masking),減輕概率差異所帶來的有害復合效應,從而僅保留健康的梯度更新。
雙向剪裁(Double-sided clipping):不僅在「訓練概率 ? 推理概率」時進行剪裁,也在「訓練概率 ? 推理概率」時進行剪裁。
遮罩(Masking):當token的概率差異過大時,將其從梯度更新中移除。
沒有這些措施,MoE架構(gòu)很可能無法穩(wěn)定訓練,其性能甚至可能不如稠密模型。
圖左:GRPO訓推差異隨著訓練成指數(shù)上升,Icepop較為平穩(wěn);圖右:訓推差異最大值,GRPO隨著訓練上升非常明顯,Icepop維持在較低水位
與GRPO比,IcePop讓RL訓練更平穩(wěn),為新一代萬億級思考模型保駕護航。
算法博客:https://ringtech.notion.site/icepop
而為應對萬億參數(shù)模型的強化學習訓練,螞蟻自研了高性能強化學習系統(tǒng)——ASystem。
自研RL框架ASystem,平穩(wěn)Scaling到萬億規(guī)模
ASystem采用SingleController + SPMD架構(gòu)。
針對萬億參數(shù)模型的顯存管理和訓推權(quán)重交換問題,螞蟻相關團隊精心優(yōu)化了訓推引擎。
顯存透明卸載、跨節(jié)點顯存池化等技術(shù),有效釋放了被占用的顯存碎片,降低了顯存不足風險。
GPU間P2P直接通信與原地更新等技術(shù),可秒級、零冗余交換模型權(quán)重。
在RL訓練框架上,團隊構(gòu)建了基于大規(guī)模Serverless Sandbox技術(shù)的混合獎勵系統(tǒng)。
該系統(tǒng)能以毫秒級速度啟動、提供超過10余種語言的沙箱執(zhí)行環(huán)境,支撐了高達10K/s的請求吞吐。
為了推動大規(guī)模推理與智能體模型發(fā)展,螞蟻聯(lián)合清華開源了全異步強化學習訓練系統(tǒng)AReaL。
開源鏈接:https://github.com/inclusionAI/AReaL
AreaL的三大亮點:
?靈活性:只需一個文件,就能輕松自定義多輪rollout工作流程,還能順暢整合其他智能體工具框架。
可擴展性:通過算法與系統(tǒng)的協(xié)同設計,AReaL提供穩(wěn)定且完全異步的RL訓練,速度領先行業(yè)。它能輕松適應各種計算環(huán)境,從單個節(jié)點擴展到1000+塊GPU。
頂尖性能:AReaL能生成最先進的數(shù)學、編程和搜索智能體,具有超強能力。
螞蟻百靈團隊
首試萬億思考模型
AGI不是夢想,而是指日可待的確定性事件!
諾獎得主、Google DeepMind 首席執(zhí)行官 Demis Hassabis,OpenAI 聯(lián)合創(chuàng)始人兼 CEO Sam Altman,阿里云 CEO 吳泳銘均表示:
AGI is coming.
宏偉愿景背后,是技術(shù)人的上下求索、不斷創(chuàng)新。
Ring-1T的發(fā)布,標志著螞蟻百靈團隊實現(xiàn)了從百億(Ring-mini-2.0)到千億(Ring-flash-2.0)再到萬億(Ring-1T)的MoE架構(gòu)強化學習平穩(wěn)擴展。
而Ring-1T 的訓練仍在進行中,螞蟻將繼續(xù)挖掘這一萬億基座的潛力。
據(jù)了解,截至目前螞蟻百靈大模型已經(jīng)發(fā)布18款模型,其中兩款萬億參數(shù)模型—萬億參數(shù)通用大語言模型Ling-1T、萬億參數(shù)思考模型Ring-1T。
隨著兩款萬億參數(shù)模型的發(fā)布,百靈大模型也正式步入2.0階段。
目前模型仍存在一定概率的身份認知偏差、語種混雜及重復生成等問題.
同時,由于Ling 2.0的GQA方案,長上下文場景下的推理效率仍待改進。
而開源奪冠證明了「思考力」可以被工程化與規(guī)?;?strong>算力紅利正向「推理紅利」遷移。
螞蟻以IcePop、ASystem、AReaL給出了一條可復制的路線:從模型到系統(tǒng)到社區(qū)。這不是單點突破,而是范式的組織化落地。
參考資料:
https://x.com/AntLingAGI
https://www.notion.so/ringtech/Small-Leak-Can-Sink-a-Great-Ship-Boost-RL-Training-on-MoE-with-271c8705a03280378b98d7f8da794ed0
https://ringtech.notion.site/icepop
https://www.youtube.com/watch?v=3RLVF-WQni8
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.