時(shí)令 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
又一個(gè)萬億參數(shù)級國產(chǎn)模型開源了!
就在剛剛,螞蟻正式發(fā)布百靈大模型的第一款旗艦?zāi)P?/strong>——
擁有萬億參數(shù)的通用語言模型Ling-1T。
剛一登場,不僅超越開源模型DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905,還超越了閉源模型GPT-5-main、Gemini-2.5-Pro。
在有限輸出token的條件下,于代碼生成、軟件開發(fā)、競賽數(shù)學(xué)、專業(yè)數(shù)學(xué)、邏輯推理等多項(xiàng)復(fù)雜推理基準(zhǔn)中取得SOTA表現(xiàn)。
不僅如此,Ling-1T還展現(xiàn)出高效思考與精準(zhǔn)推理的優(yōu)勢。例如,在競賽數(shù)學(xué)榜單AIME 25上,Ling-1T就超越了一眾模型獲得最優(yōu)表現(xiàn)。
更重要的是,Ling-1T在推理速度上的表現(xiàn)堪稱驚艷,輸入剛落下,模型立刻就啟動思考進(jìn)程。無論是復(fù)雜的邏輯推演,還是生成多輪長文本,它都能快速響應(yīng)保持流暢輸出。
Ling-1T參數(shù)夠多,但它到底有多強(qiáng)、有多快?還是得通過實(shí)測才能見真章。
推理高效,前端有驚喜
不妨先用經(jīng)典推理題目來小試一下身手。
- 讓7米長的甘蔗通過2米高1米寬的門。
只見Ling-1T先將其判斷為一個(gè)典型的空間幾何優(yōu)化問題,并進(jìn)行了關(guān)鍵障礙分析。
隨后,共提出了4種解決方案,每種方案都有具體的操作步驟和適用場景說明。
更關(guān)鍵的是,Ling-1T還能嚴(yán)謹(jǐn)?shù)貙γ糠N方法進(jìn)行物理可行性驗(yàn)證,詳細(xì)分析其所需條件和潛在風(fēng)險(xiǎn)。
可以說是有理有據(jù)了(doge)。
既然如此,咱可就給Ling-1T上難度了,用一道“外星人分裂”問題測試一下其數(shù)學(xué)能力。
- 一個(gè)外星人來到地球后等可能選擇以下四件事中的一件完成:
1、自我毀滅;
2、分裂成兩個(gè)外星人;
3、分裂成三個(gè)外星人;
4、什么都不做。
此后每天,每個(gè)外星人均會做一次選擇,且彼此之間相互獨(dú)立。
求地球上最終沒有外星人的概率。
Ling-1T反應(yīng)非???,幾乎是一看到問題就迅速開始分析與推理。
它首先確定了題目的類型,并對題目進(jìn)行了建模,接著一步步求解最后得到正確答案:√2-1。
推理能力測試完畢,接下來輪到代碼能力上場了。
正值諾貝爾獎揭曉之際,咱用它生成一個(gè)介紹諾貝爾獎的網(wǎng)站如何?
新模型kuku就是干啊,效果如下所示:
很直觀,無需特意提醒,Ling-1T就將內(nèi)容分成概覽、獎項(xiàng)類別、歷史時(shí)間線等模塊,讓用戶可以快速定位感興趣的信息。
無論是想了解整體概況、深入某個(gè)獎項(xiàng)類別,還是回顧諾貝爾物理學(xué)獎的歷史演變,都能獲得清晰、系統(tǒng)的呈現(xiàn),使用體驗(yàn)更加直觀高效。
雙節(jié)假期剛結(jié)束,旅游攻略是不是做得頭都大了。嘗試用Ling-1T規(guī)劃出行路線,它不僅把景點(diǎn)按特色分類,還貼心規(guī)劃好一日游的時(shí)間安排和費(fèi)用,連適合的交通工具、地道美食都一并推薦。所有選項(xiàng)都打上了清晰標(biāo)簽,讓你輕松選擇。
值得一提的是,基于Ling-1T強(qiáng)大的推理能力,研究團(tuán)隊(duì)還進(jìn)一步提出了“語法–功能–美學(xué)”混合獎勵機(jī)制,這意味著其生成的代碼不僅正確、功能完整,還兼顧了界面和視覺美感。
例如,在ArtifactsBench前端能力基準(zhǔn)上,Ling-1T就以明顯優(yōu)勢成為開源模型中的第一名。
“中訓(xùn)練+后訓(xùn)練”,讓模型真正“學(xué)會思考”
模型開源之外,這一次螞蟻也完整公布了Ling-1T背后的技術(shù)思考。
總結(jié)起來,最值得關(guān)注的就是研究團(tuán)隊(duì)在擴(kuò)展模型尺寸和強(qiáng)化推理能力兩方面的探索。
參數(shù)數(shù)量決定了模型能存儲和表達(dá)的信息量,就像大腦的神經(jīng)元越多,記憶和思考的能力越強(qiáng)。
參數(shù)不足時(shí),模型可能只能記住簡單規(guī)律,面對復(fù)雜或長下文問題時(shí)容易出錯(cuò)。
當(dāng)參數(shù)充足時(shí),模型可以在更大數(shù)據(jù)量和更復(fù)雜任務(wù)中實(shí)現(xiàn)更準(zhǔn)確的推理和更好的泛化能力。
基于上述原因,Ling-1T沿用了Ling 2.0的架構(gòu)設(shè)計(jì),并在此基礎(chǔ)上將總參數(shù)量擴(kuò)展至1萬億,其中每個(gè)token激活約50B參數(shù)。
其基礎(chǔ)版本(Ling-1T-base)首先在超過20T token的高質(zhì)量、強(qiáng)推理語料上完成了預(yù)訓(xùn)練,并支持最長128K的上下文窗口。
隨后,團(tuán)隊(duì)通過采用“中訓(xùn)練+后訓(xùn)練”相結(jié)合的演進(jìn)式思維鏈(Evo-CoT)方法,這一改進(jìn)讓模型不僅擁有海量知識,更能像人一樣逐步推理,極大提升了模型的高效思考和精準(zhǔn)推理能力。
在研發(fā)Ling-1T萬億級模型的過程中,研究團(tuán)隊(duì)發(fā)現(xiàn),擴(kuò)展模型規(guī)模和強(qiáng)化推理能力會帶來一定的性能提升。
在預(yù)訓(xùn)練階段,他們先搭建了一個(gè)統(tǒng)一的數(shù)據(jù)管理系統(tǒng),這套系統(tǒng)能追蹤每一條數(shù)據(jù)的來源和流向。
然后,他們整理了超過40萬億token的高質(zhì)量語料,并挑選出最優(yōu)部分,用于Ling-flash-2.0的20萬億token預(yù)訓(xùn)練計(jì)劃。
畢竟模型的推理能力就像大腦思考問題,先打基礎(chǔ)知識,再訓(xùn)練邏輯推理,基礎(chǔ)打得扎實(shí),思考才能快而準(zhǔn)確。
為了讓模型既能積累豐富知識,又能提高推理能力,團(tuán)隊(duì)將預(yù)訓(xùn)練分成3個(gè)階段:
第一階段先用10T token高知識密度語料訓(xùn)練,讓模型先全面掌握事實(shí)、概念和常識,為后續(xù)推理打下堅(jiān)實(shí)基礎(chǔ)。
第二階段用10T token高推理密度語料訓(xùn)練,讓模型學(xué)會邏輯推理、多步思考和問題解決技巧,讓模型不僅知道答案,還能分析思路,提高解決復(fù)雜問題的能力。
中間訓(xùn)練階段(Midtrain)則擴(kuò)展上下文窗口到32K token,同時(shí)提高推理類語料的質(zhì)量和比例,并加入思維鏈推理內(nèi)容,為模型進(jìn)入后訓(xùn)練做好熱身準(zhǔn)備,保證邏輯連貫性和推理效率。
整個(gè)訓(xùn)練過程中,團(tuán)隊(duì)根據(jù)Ling Scaling Laws設(shè)置學(xué)習(xí)率和批量大小,并用自研的WSM(Warmup-Stable and Merge)替代傳統(tǒng)的WSD(Warmup-Stable-Decay)學(xué)習(xí)率策略。
要知道,在訓(xùn)練大模型時(shí)需要控制學(xué)習(xí)率(學(xué)習(xí)速度),就像學(xué)習(xí)彈琴或開車一樣,速度太快容易出錯(cuò),太慢又不夠高效。
為此,WSM框架可實(shí)現(xiàn)無衰減學(xué)習(xí)率卻能提升模型性能,核心思路可以概括為以下3步:
Warmup(預(yù)熱):訓(xùn)練一開始慢慢來,讓模型穩(wěn)定起來,不出大錯(cuò)。
Stable(穩(wěn)定):訓(xùn)練中期保持穩(wěn)定的學(xué)習(xí)速度,讓模型慢慢學(xué)到規(guī)律。
Merge(合并):把訓(xùn)練過程中不同階段保存下來的模型“融合”在一起,相當(dāng)于把每一階段的優(yōu)點(diǎn)結(jié)合起來,既保留早期探索的優(yōu)勢,又強(qiáng)化后期收斂的效果,讓模型最終表現(xiàn)更好。
Ling-1T通過中訓(xùn)練檢查點(diǎn)合并技術(shù)表明,即使不采用傳統(tǒng)的學(xué)習(xí)率衰減策略,模型仍能在絕大多數(shù)下游任務(wù)中取得更優(yōu)性能。
實(shí)驗(yàn)結(jié)果顯示,影響模型表現(xiàn)最關(guān)鍵的不是合并次數(shù),而是合并時(shí)的訓(xùn)練窗口,即何時(shí)進(jìn)行合并以及合并持續(xù)的時(shí)間長度,對性能的影響遠(yuǎn)超其他因素。
在后訓(xùn)練階段,由于當(dāng)前主流的強(qiáng)化學(xué)習(xí)算法(如GRPO和GSPO)各有局限。
- GRPO:將每個(gè)詞元(token)視為獨(dú)立動作進(jìn)行優(yōu)化,雖精細(xì),但容易導(dǎo)致語義的過度碎片化。
- GSPO:將整個(gè)生成序列視為單一動作進(jìn)行優(yōu)化,在全局序列級別執(zhí)行策略更新,雖穩(wěn)定,但又可能造成獎勵信號的過度平滑。
螞蟻發(fā)現(xiàn),對于推理任務(wù)來說,句子比單個(gè)詞元或整個(gè)序列更符合語義邏輯,它不僅能保持語義完整,又能讓模型在局部邏輯上進(jìn)行有效訓(xùn)練,從而更精準(zhǔn)地捕捉語言中的推理和邏輯關(guān)系,因此更適合作為策略優(yōu)化的基本單位。
于是,研究團(tuán)隊(duì)創(chuàng)新性地提出了LPO方法(Linguistics-Unit Policy Optimization,LingPO),首次將句子作為中間粒度進(jìn)行策略優(yōu)化,在語義與邏輯之間找到最佳平衡,并在這一層面上執(zhí)行重要性采樣和裁剪,從而幫助萬億參數(shù)模型更穩(wěn)健地訓(xùn)練。
這種設(shè)計(jì)既避免了詞元級別的碎片化問題,又克服了序列級別過于籠統(tǒng)的局限,使獎勵信號與模型行為在語義層面上更加精準(zhǔn)地對齊。
實(shí)驗(yàn)結(jié)果顯示,與GRPO和GSPO相比,LPO在訓(xùn)練穩(wěn)定性和模型泛化能力方面都具有明顯優(yōu)勢。
中國大模型“王炸”連發(fā)
今年以來,中國開源力量不斷給予大模型圈驚喜。從DeepSeek這尾鯰魚攪亂基礎(chǔ)大模型格局,到Qwen家族以全面覆蓋、快速迭代的姿態(tài)撼動Llama系列王座……國產(chǎn)開源模型不僅在全球榜單上站到C位,更重要的是,每一次“開源大禮包”,都能從不同的角度給模型研究、應(yīng)用帶來新的思考。
此番螞蟻開源Ling-1T,亦是如此。
在技術(shù)范式上,Ling-1T在架構(gòu)設(shè)計(jì)和訓(xùn)練方法上實(shí)現(xiàn)了多重創(chuàng)新,以演進(jìn)式思維鏈的新方法,使得模型在每一階段中生成的思路或結(jié)論,都可以被復(fù)查、修正或擴(kuò)展,從而不斷迭代優(yōu)化。
同時(shí),前一階段的推理成果會被累積并傳遞至后續(xù)階段,形成知識的持續(xù)演進(jìn)。這種漸進(jìn)式的推理機(jī)制,不僅增強(qiáng)了思維過程的穩(wěn)定性和結(jié)果準(zhǔn)確性,也使得推理路徑清晰可循,顯著提升了復(fù)雜任務(wù)的可解釋性。
在效果體驗(yàn)上,Ling-1T展現(xiàn)出令人印象深刻的快速響應(yīng)能力,即刻可完成復(fù)雜任務(wù)的推理與生成。
無論是面對抽象的數(shù)學(xué)問題、多步驟的邏輯推演,還是編程任務(wù)與科學(xué)背景的深度解析,該模型均能迅速構(gòu)建出條理清晰、邏輯嚴(yán)謹(jǐn)?shù)慕獯稹?/p>
總結(jié)起來,一方面,Ling-1T讓螞蟻正式加入 “萬億參數(shù)開源俱樂部”,與Qwen、Kimi并肩站在開源生態(tài)的第一梯隊(duì);另一方面,其創(chuàng)新的非思考模型架構(gòu)與高效推理優(yōu)化設(shè)計(jì),為業(yè)界探索高性能思維模型提供了新的技術(shù)范式。
更加值得關(guān)注的是,盡管2025年只剩下最后的83天,但螞蟻的最新開源動作,也意味著中國大模型廠商們的開源節(jié)奏并沒有放緩。
就在國慶節(jié)前,Qwen接連推出多模態(tài)模型Qwen3-Next、Qwen3-VL以及圖像編輯模型Qwen-Image-Edit-2509;DeepSeek也在短期內(nèi)連續(xù)開源DeepSeek-V3.1-Terminus和DeepSeek-V3.2-Exp兩個(gè)重要版本,還被爆料年底會有更重磅模型進(jìn)展……現(xiàn)在,假期剛結(jié)束,螞蟻再次把這種開源勢頭續(xù)住了。
可以預(yù)見的是,大模型領(lǐng)域的精彩還將繼續(xù)。而下一個(gè)驚喜,大概率還是來自中國。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.