網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

更大,更快,更準!螞蟻開源萬億參數(shù)語言模型Ling-1T,刷新多項SOTA

2025-10-09 10:32:10　來源: 機器之心Pro

北京舉報

分享至

機器之心原創(chuàng)

作者：吳昕

Ling-1T給效率革命交了一份更貼近場景的答卷——萬億級儲備，百億級開銷，產(chǎn)業(yè)級落地。規(guī)模、速度與推理精度，其實可以兼顧。

完全測不過來了。

僅僅一個 9 月，全球就有十余家主流玩家扎堆開源大模型—— BAT、螞蟻集團、深度求索、Meta FAIR、Mistral AI 等輪番登場，開源數(shù)量較8月直接翻倍還不止，態(tài)勢堪稱井噴。

其中，中國力量格外亮眼。螞蟻集團幾乎以一場「開源風(fēng)暴」刷屏整月：旗下百靈大模型密集上線 7 款新品，平均每四天就有一個新模型問世，在性能、效率與功能維度持續(xù)突破。

9 月 30 日開源的思考模型 Ring-1T-preview（ Ring-1T 早期版本），首次把開源推理模型的「天花板」推到萬億參數(shù)級，連深度學(xué)習(xí)「三巨頭」之一 Yann LeCun 都點贊，稱「Impressive.」

這股勢能還在高漲。10 月 9 日凌晨，百靈大模型再度出手，正式發(fā)布并開源通用語言大模型 Ling-1T ——螞蟻迄今為止開源的參數(shù)規(guī)模最大的語言模型。至此，繼月之暗面Kimi K2、阿里 Qwen3-Max 之后，又一位重量級選手邁入萬億參數(shù)LLM 「開源俱樂部」。

開源地址：
https://huggingface.co/inclusionAI/Ling-1T
在線體驗：ling.tbox.cn

大象起舞：

萬億參數(shù)，也能輕盈推理

Ling-1T 自百靈大模型「Ling 2.0 系列」，延續(xù)了螞蟻自研的高效 MoE（ Mixture of Experts ）架構(gòu)，它也是該系列的首款旗艦產(chǎn)品。而1T（ Trillion，萬億）級的總參數(shù)規(guī)模，讓人再次直觀感受到開源模型的「體量戰(zhàn)爭」還在加速升級。

提到「萬億參數(shù)」，不少人的第一反應(yīng)往往是：「堆料取勝」、「花費高昂」。模型越大，推理越冗長；算得快又省，又怕不夠準?！妇_」和「效率」，永遠像在玩蹺蹺板，此消彼長。而 Ling-1T 正通過帕累托改進（ Pareto Improvement ），改寫這一刻板印象——

既不犧牲推理能力，又能顯著提升思考效率，持續(xù)逼近幾乎不可再改進的平衡點（帕累托最優(yōu)）。

那么，Ling-1T 的「高質(zhì)量輸出」到底強在哪？官方曬出的成績單顯示，在多維基準測試中表現(xiàn)亮眼。

Ling-1T（最右列）與幾款具有代表性的旗艦?zāi)Ｐ偷谋容^，包括大參數(shù)量的開源模型（DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905）與閉源 API（GPT-5-main、Gemini-2.5-Pro）。

最引人注目的是編程與數(shù)學(xué)推理（ Coding & Math ）兩大核心維度的表現(xiàn)。這些被稱為高推理密度的任務(wù)，是大模型能力的天花板所在，而 Ling-1T 仍穩(wěn)居第一梯隊。

例如，在 LiveCodeBench（真實編程推理任務(wù)）上，Ling-1T 得分最高，顯著高于 DeepSeek；在 ArtifactsBench（復(fù)雜軟件邏輯建模）中，得分59.31，僅次于Gemini-2.5-Pro。

數(shù)學(xué)方面，在綜合測試中，Omni-Math 與 UGMathBench 雙雙突破 74 分大關(guān)，穩(wěn)居領(lǐng)先位置；在 FinanceReasoning（金融推理）中表現(xiàn)更穩(wěn)，達到 87.45，展現(xiàn)出強大的邏輯一致性與跨領(lǐng)域推理能力。

知識理解（ Knowledge ）維度同樣出色。Ling-1T在多個關(guān)鍵數(shù)據(jù)集上均處于領(lǐng)先或并列領(lǐng)先位置：

C-Eval（92.19）、MMLU-Redux（92.25）、MMLU-Pro（82.04）、MMLU-Pro-STEM（88.5）、OlympiadBench（91.3）。

這些分數(shù)整體比 DeepSeek、Kimi、GPT-5 主干模型普遍高出1～3 個百分點，部分指標甚至逼近Gemini-2.5-Pro 的上限。

這表明它不僅知識密度高、泛化能力強，更具備深度思考與邏輯推理的內(nèi)在一致性。

在 Agent 推理與多輪對話（ Multi-turn Reasoning ）場景中，Ling-1T 的表現(xiàn)同樣亮眼。尤其在 BFCL-v3 與 Creative-Writing 等具備開放思維特征的任務(wù)中，展現(xiàn)出自然語言表達與思維連貫性的平衡能力——不僅「會答題」，還「懂思考」。

有意思的是，智商拉滿并不等于很燒錢。

在 AIME-25（美國數(shù)學(xué)邀請賽 2025）推理測試中，研究人員比較了各大模型的表現(xiàn)：

推理準確率 vs. 平均輸出長度（即思考消耗的 token 數(shù)量）。

藍色點代表Ling-1T，準確率高達 70.42%，與Gemini-2.5-Pro（70.1%）并列最高精度，但后者用了更長的輸出（更多 token）。

與 Gemini-2.5-Pro 相比，Ling-1T 在更短的思考路徑中，達到了同等甚至更高的推理正確率。

相比之下，GPT-5、DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905、Claude-4.1-Opus-250B 等模型的準確率明顯更低，要么輸出冗長，要么思考效率不高，普遍落在右下方或中間區(qū)域。

親自試一試

寫到這里，不少人或許會問：聽起來確實令人印象深刻，但這和普通人又有什么關(guān)系？也許你從未調(diào)用過 API，也不會去跑模型。但這些模型的能力，正在悄然滲透進你的日常生活。

在支付軟件中，它讓智能助理更懂你的「吃穿用度」；理財助手會幫你盯盤、診基；身體不適時，健康助手知道如何給出初步建議，甚至協(xié)助對接醫(yī)療資源。而在寫作、編程、設(shè)計等場景里，你常用的工具，也因為它而變得更聰明。

剛上手 Ling-1T，最直觀的感受就是：和傳統(tǒng)推理模型不一樣。不話癆，既不會把冗長的思考過程全展示出來，回答也言簡意賅，反應(yīng)迅速。

先讓它寫一個前端界面，設(shè)計一張用戶卡片。完成度極高，幾乎完美實現(xiàn)了所有關(guān)鍵指令：字體樣式（斜體）、頭像形狀、布局居中都毫無問題，甚至對「主色調(diào)石板藍、輔助色白」的抽象視覺要求，也精準拿捏。

提示詞：請生成一個藍紫色主題（主色調(diào)為 #6A5ACD，輔助色為白色）的現(xiàn)代用戶卡片組件?？ㄆ瑑?nèi)必須包含：1. 用戶頭像（圓形占位符）；2. 用戶名；3. 一句簽名（使用斜體字）；4. 一個藍色關(guān)注按鈕；5. 整體布局居中。

接著，又讓它設(shè)計一個漂亮的倒計時網(wǎng)頁。漸變背景讓人眼前一亮，意外地漂亮，也顯得很有設(shè)計感。得益于「語法–功能–美學(xué)」混合獎勵機制，Ling-1T不僅懂代碼邏輯，也開始學(xué)會了審美。

提示詞：設(shè)計一個好看的倒計時網(wǎng)頁。

因為上面的倒計時功能有 bug，我們又抽了一次卡。下面這個雖然色彩不如前一稿驚艷，但它的「巧思」藏在底部文案里，比如「時間晶體」、「量子糾纏倒計時」。倒數(shù)功能也完全正常。

提示詞：請給前沿科技媒體機器之心設(shè)計一個前沿風(fēng)格網(wǎng)頁，要求置頂部分滾動播出實時AI新聞。這一次意外驚喜來自鼠標軌跡，有粒子浮動效果，科幻又浪漫。

除了編程設(shè)計，Ling-1T 還能發(fā)揮科學(xué)與邏輯推理能力，化身大眾的學(xué)習(xí)助手——答疑解惑，甚至能幫人撰寫報告。

我們先用 2025 年數(shù)學(xué)新課標 I 卷的第15 題（解答題）試水，結(jié)果輕松過關(guān)。

那它能不能把復(fù)雜的東西也講得通俗易懂？今年，2025 年諾貝爾物理學(xué)獎頒給了三位美國科學(xué)家，表彰他們通過實驗驗證了量子隧穿效應(yīng)。

我們請 Ling-1T來講講：什么是量子隧穿效應(yīng)？結(jié)果，它用「穿墻術(shù)」的比喻，把粒子「借力」穿透勢壘的概念講得直觀又準確，沒有跑偏，還有效地降低了理解門檻。

邏輯也很清晰：先對比經(jīng)典世界與量子世界的差異，再解釋原理、舉例印證，最后總結(jié)關(guān)鍵點。

對《星際穿越》里的「蟲洞」科普也同樣出彩。沒有令人頭疼的公式，只有想象力：蘋果、折紙、牙簽的比喻，瞬間構(gòu)建出一個直觀的幾何模型，把「彎曲宇宙的捷徑」講得入木三分。表格、問答、總結(jié)，層次分明、言簡意賅。

緊接著，我們測試它的創(chuàng)意寫作能力，關(guān)鍵不只是「會寫」，而是「寫得有意思」。無論是內(nèi)容營銷、廣告文案、劇本創(chuàng)作，還是創(chuàng)意輔助，這項能力都能派上用場。

這是 Ling-1T 為一期介紹諾貝爾物理學(xué)獎的播客節(jié)目所寫的開場白。按要求，它必須以《星際穿越》中那首詩為靈感。

結(jié)果令人驚喜：它不僅準確鎖定了狄蘭·托馬斯的名作，語言富有張力，連背景音效都契合主題。

下面這篇 800 字的「諾獎物理學(xué)獎小紅薯文案」，幾乎可以直接發(fā)布。信息精準、結(jié)構(gòu)清晰、有節(jié)奏感，一點都不晦澀。

最后，看看它的執(zhí)行能力。任務(wù)很具體——「介紹武漢附近私藏、小眾徒步路線，自駕不超過 2 小時，適合周末短期出行?！?/p>

現(xiàn)實中，無論個人還是企業(yè)，往往都需要模型去執(zhí)行更復(fù)雜的任務(wù)：聯(lián)網(wǎng)搜索、數(shù)據(jù)庫查詢、代碼計算，甚至對接內(nèi)部系統(tǒng)。擁有「工具調(diào)用」能力，意味著 Ling-1T 不只是「回答問題」，而是真正能調(diào)動外部資源、完成任務(wù)的執(zhí)行者。

從結(jié)果來看，表現(xiàn)穩(wěn)健。推薦的地點真實存在（沒有幻覺），甚至不少地方連本地人都沒去過，確實「小眾」。

更有意思的是，排在第一的選項略超兩小時車程，模型不僅自知，還說明理由——「雖然超時，但景觀稀缺，值得破例」——這種自洽判斷頗有人味。

整份結(jié)果不僅提供地理與交通信息，還涵蓋季節(jié)性建議、專業(yè)貼士，落地性極強。

螞蟻的帕累托改進：

萬億模型，如何更強又更省？

「堆大」不再是答案。Ling-1T 再次釋放同一個信號：2025 年的大模型競爭，正在轉(zhuǎn)向效率范式，如何在「大」的基礎(chǔ)上實現(xiàn)效率革命。畢竟，真正要讓 AI 像掃碼支付一樣無處不在，關(guān)鍵在于更快、更省、更穩(wěn)的日常表現(xiàn)。

于是，「大參數(shù)儲備 + 小參數(shù)激活」范式迅速成為突破口，用萬億級能力兜底，用百億級開銷響應(yīng)。它既不犧牲推理力，也直面算力/成本的長期矛盾，讓超大規(guī)模模型從實驗室真正走入生活。

Ling-1T正是這一路線的樣板。手握萬億參數(shù)，但每次調(diào)用只需百億級計算資源——復(fù)雜問題能扛，響應(yīng)速度不掉，成本曲線可控。一次漂亮的帕累托式改進，這才是面向產(chǎn)業(yè)的正確形態(tài)。

那么，「想得快」又能「想得準」，這種平衡從何而來？先說兩個關(guān)鍵點：數(shù)據(jù)和架構(gòu)。

一方面，提高「攝入知識」質(zhì)量，超過 20T+ token 的高質(zhì)量、高推理濃度語料，使得 Ling-1T 從數(shù)據(jù)層面就具備了更強的邏輯密度與思維深度。

另一方面，它還學(xué)會了「按需思考」。雖然每個 MoE 層擁有 256 位專才，但在推理時僅激活約 50B 參數(shù)：每次接到問題，系統(tǒng)只會挑出最合適的 8 位專家參與思考，再由共享專家整合結(jié)果。

結(jié)果是，萬億級智商背書，百億級能耗落地，能效比顯著抬升。

Ling-1T模型結(jié)構(gòu)示意圖，一款擁有 1 萬億參數(shù)的 MoE（Mixture of Experts）架構(gòu)大模型，旨在保證強推理能力的同時，實現(xiàn)高效計算與低成本推理。

這套「按需思考」的路徑，也帶來了實際使用層面的質(zhì)變。

支持128K 上下文，接近「長記憶」體驗——一本書級別內(nèi)容一口氣讀完，不丟線索，這對法律、金融、科研等長文檔業(yè)務(wù)尤其關(guān)鍵。

分組查詢注意力（ Grouped-Query Attention ）疊加高效 MoE，使深度理解與敏捷響應(yīng)兼得，推理速度不再被長上下文拖累。

帕累托改進之二：

巨獸如何更聰明地學(xué)習(xí)？

除了數(shù)據(jù)和架構(gòu)，Ling-1T 的另一個關(guān)鍵創(chuàng)新是把「學(xué)得更聰明」落到工程與訓(xùn)練范式上：不是多喂而是精喂，不是「猛灌」而是善練。

為了讓模型「吃進去」的每一口，都是高推理密度的知識精華，螞蟻自建 infra ，提升養(yǎng)分密度。

首先，打造了原生 FP8 混合精度訓(xùn)練平臺，為萬億參數(shù)模型提供高吞吐、低能耗的算力底座。隨后，又構(gòu)建了基于統(tǒng)一數(shù)據(jù)湖寬表（Unified Wide Table on Data Lake）的 AI Data System，實現(xiàn)樣本級血緣追蹤，確保每一個 token 都「來源可追、質(zhì)量可控」。

通過這套基礎(chǔ)設(shè)施，螞蟻在 40T+ 語料中提煉出 20T+ 的高推理密度數(shù)據(jù)，成為 Ling-1T 的核心「思考養(yǎng)料」。

在訓(xùn)練路徑上，這套系統(tǒng)并非單一階段的「猛灌」，而是以三階段精英教育精細推進：

先用 10T 高知識密度語料打牢通識底座，再以 10T 高推理密度語料強化邏輯鏈條。中期的 Midtrain 是關(guān)鍵：不僅把「記憶力」擴展到 32K 上下文，更提前注入演進式思維鏈（Evo-CoT），為后訓(xùn)練階段預(yù)熱推理通路，讓模型從「會背」過渡到「會想」。

為了讓收斂更穩(wěn)更快，訓(xùn)練節(jié)奏控制同樣被精細化。

通過 Ling Scaling Laws 自動計算最優(yōu)參數(shù)配置（學(xué)習(xí)速度、批量大小等），不再靠「手感」；

自研 WSM 調(diào)度器（Warmup–Stable–Merge）替代傳統(tǒng)策略，在中期合并多輪訓(xùn)練成果，模擬自然收斂。最終，大模型在綜合能力、常識、語言理解、專業(yè)知識、數(shù)學(xué)與代碼等多賽道上普遍跑贏舊策略。

這六個子圖代表模型在不同類型任務(wù)上的表現(xiàn)變化，比如綜合能力、常識推理、語言理解、專業(yè)知識、數(shù)學(xué)和代碼能力。螞蟻在訓(xùn)練調(diào)度器上的一個關(guān)鍵突破 WSM（Warmup–Stable–Merge）相比傳統(tǒng)的 WSD（Warmup–Stable–Decay），在幾乎所有任務(wù)上都帶來了明顯的性能提升。

進入后訓(xùn)練（強化學(xué)習(xí)）階段，關(guān)鍵在于把反饋顆粒度與人類語義對齊。傳統(tǒng) GRPO（詞元級）像逐像素修圖，細卻碎，難以理解整體語義；GSPO（序列級）又太粗，穩(wěn)定但反饋模糊。

而螞蟻自研的「錦囊」LPO（ Language-unit Policy Optimization ），以「句子」為優(yōu)化單元，直接在人類最小完備語義單位上對齊獎勵與約束，既避免詞元級的碎裂，也克服序列級的模糊，把訓(xùn)練目標從「對的詞」升級為「對的理」，讓模型生成邏輯完整、思維連貫的語言流。Ling-1T 也在高智商與穩(wěn)健性之間找到新的平衡點。

開源，讓「AI 普惠」

行業(yè)認為，AI 競爭，真正的分野不在于誰的模型更強，而在于開源與閉源的路線之爭。越來越多的中國力量，正在選擇前者。

一方面，這是階段性必然。身處追趕者的位置，開源就像「眾人抬車」，能讓技術(shù)以更低成本、更高速度迭代前行。對于 Ling-1T 這樣重工程型的大模型系統(tǒng)，開源社區(qū)本身就是一個去中心化的「質(zhì)量與安全紅隊」，能顯著降低邊際改進成本，加快版本演進。

另一方面，中國的優(yōu)勢從不在單一模型本身，而在豐富的落地場景。尤其是金融、醫(yī)療等高合規(guī)行業(yè)，開源的透明性讓企業(yè)有機會真正「看懂」模型：可以審計決策路徑，植入自有知識，在可控的安全邊界內(nèi)釋放智能價值。當(dāng)信任可以被復(fù)制，智能才可能被普及。

更重要的是，開源降低了參與門檻。從開發(fā)者到中小企業(yè)，每一個個體都能以最低摩擦的方式「布點」入場，共建生態(tài)。

在開源 Ling-1T 之前，螞蟻已經(jīng)用高效的 MoE 架構(gòu) 與分層模型設(shè)計，將「萬億級能力」拆解成可落地的多種形態(tài)——

你可以在手機上運行 Ling-mini，在中小企業(yè)服務(wù)器上部署 Ling-flash，也可以在云端調(diào)用完整體 Ling-1T。

更進一步，螞蟻不僅開源了模型本身，還開放了讓模型持續(xù)進化的「底層能力」：從 ATorch 框架到強化學(xué)習(xí)工具鏈，讓模型研發(fā)像 DevOps 一樣實現(xiàn)「流水線化」。

這些決定，也更像是一種普惠哲學(xué)的踐行。當(dāng)有人用它理財，有人用它寫文案，還把它嵌入風(fēng)控系統(tǒng)、零售網(wǎng)絡(luò)、金融終端、診療系統(tǒng)，當(dāng)這些能力被頻繁調(diào)用時，AI 才成為一種日常，像電力與支付那樣，無感卻又無處不在。

HuggingFace：https://huggingface.co/inclusionAI/Ling-1T

ModelScope：https://modelscope.cn/models/inclusionAI/Ling-1T

GitHub：https://github.com/inclusionAI/Ling-V2

Ling chat（國內(nèi)用戶）：https://ling.tbox.cn/chat

ZenMux（海外開發(fā)者，提供 Chat 測試與 API 等能力）：

https://zenmux.ai/inclusionai/ling-1t

文中視頻鏈接：
https://mp.weixin.qq.com/s/ccGLfIe9CSspVWc3TVf6fA

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.