機器之心原創(chuàng)
作者:吳昕
Ling-1T給效率革命交了一份更貼近場景的答卷——萬億級儲備,百億級開銷,產(chǎn)業(yè)級落地。規(guī)模、速度與推理精度,其實可以兼顧。
完全測不過來了。
僅僅一個 9 月,全球就有十余家主流玩家扎堆開源大模型—— BAT、螞蟻集團、深度求索、Meta FAIR、Mistral AI 等輪番登場,開源數(shù)量較8月直接翻倍還不止,態(tài)勢堪稱井噴。
其中,中國力量格外亮眼。螞蟻集團幾乎以一場「開源風(fēng)暴」刷屏整月:旗下百靈大模型密集上線 7 款新品,平均每四天就有一個新模型問世,在性能、效率與功能維度持續(xù)突破。
9 月 30 日開源的思考模型 Ring-1T-preview( Ring-1T 早期版本),首次把開源推理模型的「天花板」推到萬億參數(shù)級,連深度學(xué)習(xí)「三巨頭」之一 Yann LeCun 都點贊,稱「Impressive.」
這股勢能還在高漲。10 月 9 日凌晨,百靈大模型再度出手,正式發(fā)布并開源通用語言大模型 Ling-1T ——螞蟻迄今為止開源的參數(shù)規(guī)模最大的語言模型。至此,繼月之暗面Kimi K2、阿里 Qwen3-Max 之后,又一位重量級選手邁入萬億參數(shù)LLM 「開源俱樂部」。
- 開源地址:
- https://huggingface.co/inclusionAI/Ling-1T
- 在線體驗:ling.tbox.cn
大象起舞:
萬億參數(shù),也能輕盈推理
Ling-1T 自百靈大模型 「Ling 2.0 系列」,延續(xù)了螞蟻自研的高效 MoE( Mixture of Experts )架構(gòu),它也是該系列的首款旗艦產(chǎn)品。而1T( Trillion,萬億)級的總參數(shù)規(guī)模,讓人再次直觀感受到開源模型的「體量戰(zhàn)爭」還在加速升級。
提到「萬億參數(shù)」,不少人的第一反應(yīng)往往是:「堆料取勝」、「花費高昂」。模型越大,推理越冗長;算得快又省,又怕不夠準?!妇_」和「效率」,永遠像在玩蹺蹺板,此消彼長。而 Ling-1T 正通過帕累托改進( Pareto Improvement ),改寫這一刻板印象——
既不犧牲推理能力,又能顯著提升思考效率,持續(xù)逼近幾乎不可再改進的平衡點(帕累托最優(yōu))。
那么,Ling-1T 的「高質(zhì)量輸出」到底強在哪?官方曬出的成績單顯示,在多維基準測試中表現(xiàn)亮眼。
Ling-1T(最右列)與幾款具有代表性的旗艦?zāi)P偷谋容^,包括大參數(shù)量的開源模型(DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905)與閉源 API(GPT-5-main、Gemini-2.5-Pro)。
最引人注目的是編程與數(shù)學(xué)推理( Coding & Math )兩大核心維度的表現(xiàn)。這些被稱為高推理密度的任務(wù),是大模型能力的天花板所在,而 Ling-1T 仍穩(wěn)居第一梯隊。
例如,在 LiveCodeBench(真實編程推理任務(wù)) 上,Ling-1T 得分最高,顯著高于 DeepSeek;在 ArtifactsBench(復(fù)雜軟件邏輯建模) 中,得分59.31,僅次于Gemini-2.5-Pro。
數(shù)學(xué)方面,在綜合測試中,Omni-Math 與 UGMathBench 雙雙突破 74 分大關(guān),穩(wěn)居領(lǐng)先位置;在 FinanceReasoning(金融推理)中表現(xiàn)更穩(wěn),達到 87.45,展現(xiàn)出強大的邏輯一致性與跨領(lǐng)域推理能力。
知識理解( Knowledge )維度同樣出色。Ling-1T在多個關(guān)鍵數(shù)據(jù)集上均處于領(lǐng)先或并列領(lǐng)先位置:
C-Eval(92.19)、MMLU-Redux(92.25)、MMLU-Pro(82.04)、MMLU-Pro-STEM(88.5)、OlympiadBench(91.3)。
這些分數(shù)整體比 DeepSeek、Kimi、GPT-5 主干模型普遍高出1~3 個百分點,部分指標甚至逼近Gemini-2.5-Pro 的上限。
這表明它不僅知識密度高、泛化能力強,更具備深度思考與邏輯推理的內(nèi)在一致性。
在 Agent 推理與多輪對話( Multi-turn Reasoning )場景中,Ling-1T 的表現(xiàn)同樣亮眼。尤其在 BFCL-v3 與 Creative-Writing 等具備開放思維特征的任務(wù)中,展現(xiàn)出自然語言表達與思維連貫性的平衡能力——不僅「會答題」,還「懂思考」。
有意思的是,智商拉滿并不等于很燒錢。
在 AIME-25(美國數(shù)學(xué)邀請賽 2025) 推理測試中,研究人員比較了各大模型的表現(xiàn):
推理準確率 vs. 平均輸出長度(即思考消耗的 token 數(shù)量)。
藍色點代表Ling-1T,準確率高達 70.42%,與Gemini-2.5-Pro(70.1%)并列最高精度,但后者用了更長的輸出(更多 token)。
與 Gemini-2.5-Pro 相比,Ling-1T 在更短的思考路徑中,達到了同等甚至更高的推理正確率。
相比之下,GPT-5、DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905、Claude-4.1-Opus-250B 等模型的準確率明顯更低,要么輸出冗長,要么思考效率不高,普遍落在右下方或中間區(qū)域。
親自試一試
寫到這里,不少人或許會問:聽起來確實令人印象深刻,但這和普通人又有什么關(guān)系?也許你從未調(diào)用過 API,也不會去跑模型。但這些模型的能力,正在悄然滲透進你的日常生活。
在支付軟件中,它讓智能助理更懂你的「吃穿用度」;理財助手會幫你盯盤、診基;身體不適時,健康助手知道如何給出初步建議,甚至協(xié)助對接醫(yī)療資源。而在寫作、編程、設(shè)計等場景里,你常用的工具,也因為它而變得更聰明。
剛上手 Ling-1T,最直觀的感受就是:和傳統(tǒng)推理模型不一樣。不話癆,既不會把冗長的思考過程全展示出來,回答也言簡意賅,反應(yīng)迅速。
先讓它寫一個前端界面,設(shè)計一張用戶卡片。完成度極高,幾乎完美實現(xiàn)了所有關(guān)鍵指令:字體樣式(斜體)、頭像形狀、布局居中都毫無問題,甚至對「主色調(diào)石板藍、輔助色白」的抽象視覺要求,也精準拿捏。
提示詞:請生成一個藍紫色主題(主色調(diào)為 #6A5ACD,輔助色為白色)的現(xiàn)代用戶卡片組件??ㄆ瑑?nèi)必須包含:1. 用戶頭像(圓形占位符);2. 用戶名;3. 一句簽名(使用斜體字);4. 一個藍色關(guān)注按鈕;5. 整體布局居中。
接著,又讓它設(shè)計一個漂亮的倒計時網(wǎng)頁。漸變背景讓人眼前一亮,意外地漂亮,也顯得很有設(shè)計感。得益于「語法–功能–美學(xué)」混合獎勵機制,Ling-1T不僅懂代碼邏輯,也開始學(xué)會了審美。
提示詞:設(shè)計一個好看的倒計時網(wǎng)頁。
因為上面的倒計時功能有 bug,我們又抽了一次卡。下面這個雖然色彩不如前一稿驚艷,但它的「巧思」藏在底部文案里,比如「時間晶體」、「量子糾纏倒計時」。倒數(shù)功能也完全正常。
提示詞:請給前沿科技媒體機器之心設(shè)計一個前沿風(fēng)格網(wǎng)頁,要求置頂部分滾動播出實時AI新聞。這一次意外驚喜來自鼠標軌跡,有粒子浮動效果,科幻又浪漫。
除了編程設(shè)計,Ling-1T 還能發(fā)揮科學(xué)與邏輯推理能力,化身大眾的學(xué)習(xí)助手——答疑解惑,甚至能幫人撰寫報告。
我們先用 2025 年數(shù)學(xué)新課標 I 卷 的第15 題(解答題)試水,結(jié)果輕松過關(guān)。
那它能不能把復(fù)雜的東西也講得通俗易懂?今年,2025 年諾貝爾物理學(xué)獎頒給了三位美國科學(xué)家,表彰他們通過實驗驗證了量子隧穿效應(yīng)。
我們請 Ling-1T來講講:什么是量子隧穿效應(yīng)?結(jié)果,它用「穿墻術(shù)」的比喻,把粒子「借力」穿透勢壘的概念講得直觀又準確,沒有跑偏,還有效地降低了理解門檻。
邏輯也很清晰:先對比經(jīng)典世界與量子世界的差異,再解釋原理、舉例印證,最后總結(jié)關(guān)鍵點。
對《星際穿越》里的「蟲洞」科普也同樣出彩。沒有令人頭疼的公式,只有想象力:蘋果、折紙、牙簽的比喻,瞬間構(gòu)建出一個直觀的幾何模型,把「彎曲宇宙的捷徑」講得入木三分。表格、問答、總結(jié),層次分明、言簡意賅。
緊接著,我們測試它的創(chuàng)意寫作能力,關(guān)鍵不只是「會寫」,而是「寫得有意思」。無論是內(nèi)容營銷、廣告文案、劇本創(chuàng)作,還是創(chuàng)意輔助,這項能力都能派上用場。
這是 Ling-1T 為一期介紹諾貝爾物理學(xué)獎的播客節(jié)目所寫的開場白。按要求,它必須以《星際穿越》中那首詩為靈感。
結(jié)果令人驚喜:它不僅準確鎖定了狄蘭·托馬斯的名作,語言富有張力,連背景音效都契合主題。
下面這篇 800 字的「諾獎物理學(xué)獎小紅薯文案」,幾乎可以直接發(fā)布。信息精準、結(jié)構(gòu)清晰、有節(jié)奏感,一點都不晦澀。
最后,看看它的執(zhí)行能力。任務(wù)很具體——「介紹武漢附近私藏、小眾徒步路線,自駕不超過 2 小時,適合周末短期出行?!?/p>
現(xiàn)實中,無論個人還是企業(yè),往往都需要模型去執(zhí)行更復(fù)雜的任務(wù):聯(lián)網(wǎng)搜索、數(shù)據(jù)庫查詢、代碼計算,甚至對接內(nèi)部系統(tǒng)。擁有「工具調(diào)用」能力,意味著 Ling-1T 不只是「回答問題」,而是真正能調(diào)動外部資源、完成任務(wù)的執(zhí)行者。
從結(jié)果來看,表現(xiàn)穩(wěn)健。推薦的地點真實存在(沒有幻覺),甚至不少地方連本地人都沒去過,確實「小眾」。
更有意思的是,排在第一的選項略超兩小時車程,模型不僅自知,還說明理由——「雖然超時,但景觀稀缺,值得破例」——這種自洽判斷頗有人味。
整份結(jié)果不僅提供地理與交通信息,還涵蓋季節(jié)性建議、專業(yè)貼士,落地性極強。
螞蟻的帕累托改進:
萬億模型,如何更強又更省?
「堆大」不再是答案。Ling-1T 再次釋放同一個信號:2025 年的大模型競爭,正在轉(zhuǎn)向效率范式,如何在「大」的基礎(chǔ)上實現(xiàn)效率革命。畢竟,真正要讓 AI 像掃碼支付一樣無處不在,關(guān)鍵在于更快、更省、更穩(wěn)的日常表現(xiàn)。
于是,「大參數(shù)儲備 + 小參數(shù)激活」范式迅速成為突破口,用萬億級能力兜底,用百億級開銷響應(yīng)。它既不犧牲推理力,也直面算力/成本的長期矛盾,讓超大規(guī)模模型從實驗室真正走入生活。
Ling-1T正是這一路線的樣板。手握萬億參數(shù),但每次調(diào)用只需百億級計算資源——復(fù)雜問題能扛,響應(yīng)速度不掉,成本曲線可控。一次漂亮的帕累托式改進,這才是面向產(chǎn)業(yè)的正確形態(tài)。
那么,「想得快」又能「想得準」,這種平衡從何而來?先說兩個關(guān)鍵點:數(shù)據(jù)和架構(gòu)。
一方面,提高「攝入知識」質(zhì)量,超過 20T+ token 的高質(zhì)量、高推理濃度語料,使得 Ling-1T 從數(shù)據(jù)層面就具備了更強的邏輯密度與思維深度。
另一方面,它還學(xué)會了「按需思考」。雖然每個 MoE 層 擁有 256 位專才,但在推理時僅激活約 50B 參數(shù):每次接到問題,系統(tǒng)只會挑出最合適的 8 位專家參與思考,再由共享專家整合結(jié)果。
結(jié)果是,萬億級智商背書,百億級能耗落地,能效比顯著抬升。
Ling-1T模型結(jié)構(gòu)示意圖,一款擁有 1 萬億參數(shù)的 MoE(Mixture of Experts)架構(gòu)大模型,旨在保證強推理能力的同時,實現(xiàn)高效計算與低成本推理。
這套「按需思考」的路徑,也帶來了實際使用層面的質(zhì)變。
支持128K 上下文,接近「長記憶」體驗——一本書級別內(nèi)容一口氣讀完,不丟線索,這對法律、金融、科研等長文檔業(yè)務(wù)尤其關(guān)鍵。
分組查詢注意力( Grouped-Query Attention )疊加高效 MoE,使深度理解與敏捷響應(yīng)兼得,推理速度不再被長上下文拖累。
帕累托改進之二:
巨獸如何更聰明地學(xué)習(xí)?
除了數(shù)據(jù)和架構(gòu),Ling-1T 的另一個關(guān)鍵創(chuàng)新是把「學(xué)得更聰明」落到工程與訓(xùn)練范式上:不是多喂而是精喂,不是「猛灌」而是善練。
為了讓模型「吃進去」的每一口,都是高推理密度的知識精華,螞蟻自建 infra ,提升養(yǎng)分密度。
首先,打造了原生 FP8 混合精度訓(xùn)練平臺,為萬億參數(shù)模型提供高吞吐、低能耗的算力底座。隨后,又構(gòu)建了基于 統(tǒng)一數(shù)據(jù)湖寬表(Unified Wide Table on Data Lake) 的 AI Data System,實現(xiàn)樣本級血緣追蹤,確保每一個 token 都「來源可追、質(zhì)量可控」。
通過這套基礎(chǔ)設(shè)施,螞蟻在 40T+ 語料中提煉出 20T+ 的高推理密度數(shù)據(jù),成為 Ling-1T 的核心「思考養(yǎng)料」。
在訓(xùn)練路徑上,這套系統(tǒng)并非單一階段的「猛灌」,而是以三階段精英教育精細推進:
先用 10T 高知識密度語料打牢通識底座,再以 10T 高推理密度語料強化邏輯鏈條。中期的 Midtrain 是關(guān)鍵:不僅把「記憶力」擴展到 32K 上下文,更提前注入演進式思維鏈(Evo-CoT),為后訓(xùn)練階段預(yù)熱推理通路,讓模型從「會背」過渡到「會想」。
為了讓收斂更穩(wěn)更快,訓(xùn)練節(jié)奏控制同樣被精細化。
通過 Ling Scaling Laws 自動計算最優(yōu)參數(shù)配置(學(xué)習(xí)速度、批量大小等),不再靠「手感」;
自研 WSM 調(diào)度器(Warmup–Stable–Merge) 替代傳統(tǒng)策略,在中期合并多輪訓(xùn)練成果,模擬自然收斂。最終,大模型在綜合能力、常識、語言理解、專業(yè)知識、數(shù)學(xué)與代碼等多賽道上普遍跑贏舊策略。
這六個子圖代表模型在不同類型任務(wù)上的表現(xiàn)變化,比如綜合能力、常識推理、語言理解、專業(yè)知識、數(shù)學(xué)和代碼能力。螞蟻在訓(xùn)練調(diào)度器上的一個關(guān)鍵突破 WSM(Warmup–Stable–Merge) 相比傳統(tǒng)的 WSD(Warmup–Stable–Decay),在幾乎所有任務(wù)上都帶來了明顯的性能提升。
進入后訓(xùn)練(強化學(xué)習(xí))階段,關(guān)鍵在于把反饋顆粒度與人類語義對齊。傳統(tǒng) GRPO(詞元級)像逐像素修圖,細卻碎,難以理解整體語義;GSPO(序列級)又太粗,穩(wěn)定但反饋模糊。
而螞蟻自研的「錦囊」LPO( Language-unit Policy Optimization ),以「句子」為優(yōu)化單元,直接在人類最小完備語義單位上對齊獎勵與約束,既避免詞元級的碎裂,也克服序列級的模糊,把訓(xùn)練目標從「對的詞」升級為「對的理」,讓模型生成邏輯完整、思維連貫的語言流。Ling-1T 也在高智商與穩(wěn)健性之間找到新的平衡點。
開源,讓「AI 普惠」
行業(yè)認為,AI 競爭,真正的分野不在于誰的模型更強,而在于開源與閉源的路線之爭。越來越多的中國力量,正在選擇前者。
一方面,這是階段性必然。身處追趕者的位置,開源就像「眾人抬車」,能讓技術(shù)以更低成本、更高速度迭代前行。對于 Ling-1T 這樣重工程型的大模型系統(tǒng),開源社區(qū)本身就是一個去中心化的「質(zhì)量與安全紅隊」,能顯著降低邊際改進成本,加快版本演進。
另一方面,中國的優(yōu)勢從不在單一模型本身,而在豐富的落地場景。尤其是金融、醫(yī)療等高合規(guī)行業(yè),開源的透明性讓企業(yè)有機會真正「看懂」模型:可以審計決策路徑,植入自有知識,在可控的安全邊界內(nèi)釋放智能價值。當(dāng)信任可以被復(fù)制,智能才可能被普及。
更重要的是,開源降低了參與門檻。從開發(fā)者到中小企業(yè),每一個個體都能以最低摩擦的方式「布點」入場,共建生態(tài)。
在開源 Ling-1T 之前,螞蟻已經(jīng)用高效的 MoE 架構(gòu) 與 分層模型設(shè)計,將「萬億級能力」拆解成可落地的多種形態(tài)——
你可以在手機上運行 Ling-mini,在中小企業(yè)服務(wù)器上部署 Ling-flash,也可以在云端調(diào)用完整體 Ling-1T。
更進一步,螞蟻不僅開源了模型本身,還開放了讓模型持續(xù)進化的「底層能力」:從 ATorch 框架到強化學(xué)習(xí)工具鏈,讓模型研發(fā)像 DevOps 一樣實現(xiàn)「流水線化」。
這些決定,也更像是一種普惠哲學(xué)的踐行。當(dāng)有人用它理財,有人用它寫文案,還把它嵌入風(fēng)控系統(tǒng)、零售網(wǎng)絡(luò)、金融終端、診療系統(tǒng),當(dāng)這些能力被頻繁調(diào)用時,AI 才成為一種日常,像電力與支付那樣,無感卻又無處不在。
HuggingFace:https://huggingface.co/inclusionAI/Ling-1T
ModelScope:https://modelscope.cn/models/inclusionAI/Ling-1T
GitHub:https://github.com/inclusionAI/Ling-V2
Ling chat(國內(nèi)用戶):https://ling.tbox.cn/chat
ZenMux(海外開發(fā)者,提供 Chat 測試與 API 等能力):
https://zenmux.ai/inclusionai/ling-1t
文中視頻鏈接:
https://mp.weixin.qq.com/s/ccGLfIe9CSspVWc3TVf6fA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.