智東西
作者 李水青
編輯 漠影
智東西9月30日報(bào)道,國慶前夕,全球AI競賽迎來一波小高潮,國產(chǎn)大模型紛紛放大招。
今天下午,智譜AI正式發(fā)布新一代大模型GLM-4.6,就在昨晚,DeepSeek也宣布推出DeepSeek-V3.2-Exp實(shí)驗(yàn)版模型。兩家國產(chǎn)大模型領(lǐng)軍企業(yè)在國慶假期毫不放松,加班加點(diǎn)推進(jìn)技術(shù)迭代。而在大洋彼岸,Claude Sonnet 4.5同期發(fā)布,谷歌Gemini 3.0也預(yù)計(jì)將在10月迎戰(zhàn),全球大模型競爭進(jìn)入白熱化階段。
作為智譜GLM系列的最新版本,GLM-4.6在真實(shí)編程、長上下文處理、推理能力、信息搜索、寫作能力與智能體應(yīng)用等多個(gè)方面實(shí)現(xiàn)全面提升,整體性能超越DeepSeek-V3.2-Exp。這也是新晉“國內(nèi)最強(qiáng)Coding模型”,據(jù)稱能使用戶僅用1/7的價(jià)格即享受到接近Claude Sonnet 4的代碼能力。
智東西第一時(shí)間對GLM-4.6進(jìn)行了實(shí)測體驗(yàn),發(fā)現(xiàn)其編程能力表現(xiàn)驚艷,在代碼質(zhì)量和實(shí)現(xiàn)效果上相比GLM-4.5大幅提升,并可與Claude Sonnet 4.5、GPT-5媲美;同時(shí)在文本理解、邏輯、記憶、檢索、智能體調(diào)用等方面都有明顯體驗(yàn)提升。
目前,GLM-4.6已上線智譜MaaS平臺bigmodel.cn,即將在Hugging Face、ModelScope同步開源。寒武紀(jì)、摩爾線程等國產(chǎn)AI芯片廠商在第一時(shí)間完成適配,標(biāo)志著國產(chǎn)大模型與國產(chǎn)芯片的協(xié)同發(fā)展正在加速推進(jìn)。
體驗(yàn)地址:
https://chat.z.ai
技術(shù)報(bào)告地址:
https://z.ai/blog/glm-4.6
一、GLM-4.6橫掃八大權(quán)威測評,編程能力創(chuàng)新高,token消耗節(jié)省三成
按照慣例,我們先來看看GLM-4.6的測評成績。
在AIME 25、GPQA、LCB v6、HLE、SWE-Bench Verified等8大權(quán)威基準(zhǔn)測試中,GLM-4.6在大部分權(quán)威榜單表現(xiàn)趕超了DeepSeek-V3.2-Exp、Claude Sonnet 4等頂尖模型,穩(wěn)居國產(chǎn)模型首位。
這些成績來之不易。GLM-4.6的上一代模型GLM-4.5最初發(fā)布于7月28日,首次在單個(gè)模型中實(shí)現(xiàn)將推理、編碼和智能體能力原生融合。GLM-4.5在代碼能力上的突出表現(xiàn),讓智譜MaaS平臺的API商業(yè)化實(shí)現(xiàn)了10倍以上增長。
GLM-4.6在這一基礎(chǔ)上實(shí)現(xiàn)全面躍升,不僅在代碼能力上創(chuàng)新高,在長上下文處理、推理能力、信息檢索、文本生成及智能體應(yīng)用等方面均實(shí)現(xiàn)顯著升級,整體性能已超越DeepSeek昨日發(fā)布的DeepSeek-V3.2-Exp。
這些提升也體現(xiàn)在真實(shí)編程評測中,GLM-4.6同樣實(shí)現(xiàn)了全面超越。
為了測試模型在實(shí)際編程任務(wù)中的能力,智譜在Claude Code環(huán)境下進(jìn)行了74個(gè)真實(shí)場景編程任務(wù)測試。結(jié)果顯示,GLM-4.6實(shí)測超過Claude Sonnet 4,也優(yōu)于其他國產(chǎn)模型。
在平均token消耗上,GLM-4.6比GLM-4.5節(jié)省30%以上,為同類模型最低。
為確保透明性與可信度,智譜已公開全部測試題目與Agent軌跡,供業(yè)界驗(yàn)證與復(fù)現(xiàn)。
鏈接:
https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
二、實(shí)測編程驚艷,勝任復(fù)雜交互任務(wù),媲美Claude、GPT-5
智東西著重對GLM-4.6的編程能力進(jìn)行了體驗(yàn),發(fā)現(xiàn)其不僅相比GLM-4.5大幅提升,能夠實(shí)現(xiàn)更加復(fù)雜的編程任務(wù),完成度更高,且在多個(gè)任務(wù)中的代碼生成質(zhì)量及預(yù)覽效果達(dá)到與Claude Sonnet 4.5、GPT-5媲美的水準(zhǔn)。
首先我們還是嘗試了“旋轉(zhuǎn)六邊形彈跳球模擬”。體驗(yàn)發(fā)現(xiàn),GLM-4.6能夠較準(zhǔn)確模擬旋轉(zhuǎn)容器的作用、質(zhì)量對碰撞的影響、能量守恒現(xiàn)象及動量傳遞效果,并且提供了調(diào)整旋轉(zhuǎn)速度、控制重力和摩擦力等控制選項(xiàng)。
輸入:模擬一個(gè)旋轉(zhuǎn)六邊形內(nèi)彈跳球,有兩個(gè)球體積相同,球a的質(zhì)量是球b的2倍。
GLM-4.6輸出:
當(dāng)我們將同一提示詞發(fā)送給GLM-4.5,輸出效果如下,彈球彈出了六邊形邊界,模擬效果不如GLM-4.6,且沒有更多的控制選項(xiàng)。從這一例子我們可以直觀看到GLM-4.6相比于GLM-4.5的代際提升。
GLM-4.6與今日最新發(fā)布Claude Sonnet 4.5相比如何呢?如下圖所示,這是X平臺用戶“提示詞”展示的一個(gè)讓他“驚嘆”的例子——一次性創(chuàng)建交互式太陽系。這位用戶稱,在GPT-5嘗試相同的提示沒有得到有效代碼,GLM-4.6是否能勝任?
如下圖所示,即便輸入非常簡單的提示詞,GLM-4.6也能理解抽象詞“交互式”和天文概念“太陽系”的含義,并進(jìn)行比較準(zhǔn)確的模擬。該控制臺模擬了太陽系行星的位置和運(yùn)轉(zhuǎn),支持拖動查看3D模型,并且支持調(diào)整運(yùn)行速度和行星大小等變量,看起來絲毫不遜色于Claude Sonnet 4.5。
輸入:創(chuàng)建一個(gè)交互式太陽系的模擬。
GLM-4.6輸出:
GLM-4.6在SVG動畫生成的例題中,也實(shí)現(xiàn)了超過GPT-5的理解和編程能力。如下圖所示,一位X平臺用戶用GPT-5去生成“水豚騎自行車”的SVG動畫,然而動畫中卻沒有準(zhǔn)確生成出水豚,令這位用戶懷疑:GPT-5好像只會生成訓(xùn)練數(shù)據(jù)中出現(xiàn)過的內(nèi)容,或許因?yàn)樗鄾]出現(xiàn)過所以不能生成。
我們讓GLM-4.6嘗試做了同一道題,發(fā)現(xiàn)其快速生成了一個(gè)準(zhǔn)確逼真的動畫——?jiǎng)赢嫲嫠嗟男螒B(tài)接近真實(shí)世界的水豚,且水豚是坐在自行車座位上手扶著車把騎行的,生成較準(zhǔn)確。
輸入:SVG,水豚騎自行車的動畫。
GLM-4.6輸出:
交互式游戲更加考驗(yàn)大模型的編程能力。當(dāng)我們讓GLM-4.6生成一個(gè)簡單的3D射擊游戲,GLM-4.6快速生成了一個(gè)736行代碼的程序,預(yù)覽就是一個(gè)具備三維立體感的空間,點(diǎn)擊鼠標(biāo)就可以射擊移動物體,并且具有擊中獎(jiǎng)勵(lì)效果和計(jì)分機(jī)制。
輸入:用Three.JS做一個(gè)簡單的3D射擊游戲。
GLM-4.6輸出:
GLM-4.6在全棧開發(fā)方面實(shí)現(xiàn)了增強(qiáng)的前端設(shè)計(jì)、GitHub集成、更長的上下文等升級,我們也嘗試了一下。我們要求GLM-4.6生成“速度型集群和力量型相互作用演化”的模擬,這將考察GLM-4.6在前端開發(fā)、物理模擬、狀態(tài)管理、系統(tǒng)架構(gòu)、抽象建模、簡化復(fù)雜度、工具鏈?zhǔn)褂?/strong>等多重能力。
如下圖所示,GLM-4.6完成了一步實(shí)現(xiàn),不僅模擬出速度型種群快速被力量型種群消滅的物理規(guī)律,還通過模塊化的控制板,給出了模擬控制、參數(shù)設(shè)置、種群A和B的動態(tài)指標(biāo)等發(fā)展情況,前端視覺效果已經(jīng)非常美觀,可以說“內(nèi)外兼修”。
輸入:有兩個(gè)種群,種群a注重力量的發(fā)展,種群b注重速度的發(fā)展,請模擬一下兩個(gè)種群之間的相互作用并給出說明。需要以“小球”的形態(tài)模擬出可視化的狀態(tài)。
輸出:
除了體驗(yàn)GLM-4.6的代碼能力,我們還通過AI PPT制作這一功能,驗(yàn)證了GLM-4.6在文本理解、智能體調(diào)用、檢索及多模態(tài)方面的能力。
通過多輪對話,我們直觀感受到GLM-4.6的“手眼并用”能力更靈了。其不僅準(zhǔn)確理解了生成需求,并圍繞主題進(jìn)行了準(zhǔn)確的檢索和信息提煉,文本和圖片內(nèi)容都緊扣主題,同時(shí)多輪對話指令遵循準(zhǔn)確。
輸入:
第一輪:制作一份關(guān)于 “當(dāng)代年輕人新型社交方式” 的PPT。請生成一個(gè)4頁的PPT大綱,涵蓋“搭子社交”、“MBTI社交”、“全職兒女”和“追星社交”四個(gè)話題。
第二輪:全職兒女更偏向家庭關(guān)系,請將這一頁替換為關(guān)于“City Walk中的社交屬性”的內(nèi)容,并保持與其他頁面相同的格式和深度。
第三輪:畫面有點(diǎn)單調(diào),增加一些時(shí)尚視覺元素。在4張PPT中分別添加一些相關(guān)的配圖。
輸出:
總的來說,我們發(fā)現(xiàn)GLM-4.6相比于GLM-4.5雖然在名稱上僅僅迭代了0.1代,但實(shí)測效果卻有非常直觀的提升,并且在一些案例中比GPT-5、Claude Sonnet 4.5效果更好。國產(chǎn)大模型的迭代速度十分驚人,這與我們昨日實(shí)測DeepSeek新模型時(shí)的感受是一致的。
三、國產(chǎn)芯片立刻適配,國產(chǎn)之光降價(jià)提質(zhì),AI惠及更多人
GLM-4.6發(fā)布的同時(shí),國產(chǎn)AI芯片廠商迅速響應(yīng)。寒武紀(jì)與摩爾線程幾乎在第一時(shí)間完成對GLM-4.6的適配,國產(chǎn)大模型與國產(chǎn)芯片協(xié)同效率正超出我們的想象。
GLM-4.6已在寒武紀(jì)領(lǐng)先的國產(chǎn)芯片上實(shí)現(xiàn)FP8+Int4混合量化部署,這是首次在國產(chǎn)芯片投產(chǎn)的FP8+Int4模型芯片一體解決方案,在保持精度不變的前提下,大幅降低推理成本,為國產(chǎn)芯片在大模型本地化運(yùn)行上開創(chuàng)了可行路徑。
與此同時(shí),摩爾線程基于vLLM推理框架完成了對GLM-4.6的適配,新一代GPU可在原生FP8精度下穩(wěn)定運(yùn)行模型,充分驗(yàn)證了MUSA架構(gòu)及全功能GPU在生態(tài)兼容性和快速適配能力方面的優(yōu)勢。
GLM-4.6和寒武紀(jì)、摩爾線程國產(chǎn)芯片的組合,即將通過智譜MaaS平臺正式面向大眾和企業(yè)提供服務(wù)。未來,國產(chǎn)原創(chuàng)GLM大模型與國產(chǎn)芯片將聯(lián)合推動在模型訓(xùn)練和推理環(huán)節(jié)的性能與效率優(yōu)化。
這一協(xié)同效應(yīng)不僅體現(xiàn)在技術(shù)層面,更直接惠及終端用戶。
隨著GLM-4.6發(fā)布,智譜同步升級GLM Coding Plan,推出最低20元包月暢玩套餐,讓用戶以1/7價(jià)格享受到Claude的9/10智商。同時(shí)其推出GLM Coding Plan企業(yè)版套餐,為企業(yè)級用戶提供兼具安全、成本效益與國際頂尖性能的編碼解決方案。
此前訂閱GLM Coding Plan包月套餐的用戶自動升級至GLM-4.6,新增圖像識別與搜索能力,支持Claude Code、Roo Code、Kilo Code、Cline等10+主流編程工具。智譜還面向高頻重度開發(fā)者提供GLM Coding Max,是Claude Max (20x) plan三倍用量。
可以看到,國產(chǎn)大模型“提質(zhì)降價(jià)”趨勢更加明顯,有望推動大模型技術(shù)更快普及,讓更多開發(fā)者和企業(yè)能夠以更低成本享受到頂尖的AI能力。
結(jié)語:模型提質(zhì)降價(jià)背后,架構(gòu)升級與國產(chǎn)芯協(xié)同加速
從GLM-4.5到GLM-4.6,智譜AI在短短兩個(gè)月內(nèi)實(shí)現(xiàn)顯著躍進(jìn),展現(xiàn)出強(qiáng)勁的技術(shù)迭代能力。在模型提質(zhì)的同時(shí),價(jià)格持續(xù)下探,讓大模型成為廣大開發(fā)者和企業(yè)觸手可及的工具。這不僅是單純的性能提升,更是國產(chǎn)大模型整體技術(shù)架構(gòu)加速升級的縮影。
國產(chǎn)大模型與國產(chǎn)芯片的深度協(xié)同正在構(gòu)建更加自主可控的AI技術(shù)生態(tài)。寒武紀(jì)與摩爾線程完成對GLM-4.6的適配,以及DeepSeek與華為、寒武紀(jì)等AI芯片的適配,標(biāo)志著國產(chǎn)AI芯片與前沿大模型已具備協(xié)同迭代的能力,為構(gòu)建自主AI基礎(chǔ)設(shè)施奠定堅(jiān)實(shí)基礎(chǔ)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.