機(jī)器之心報(bào)道
機(jī)器之心編輯部
新一代大模型的發(fā)布,都趕在了國(guó)慶假期前。
昨天,深度求索剛剛開(kāi)源 DeepSeek-V3.2-Exp。
今天,另一國(guó)產(chǎn)大模型之光智譜 AI 也正式發(fā)布了旗下新一代旗艦?zāi)P?strong>GLM-4.6,剛好撞車 Claude Sonnet 4.5。
但有一點(diǎn)不同,智譜的 GLM-4.6 會(huì)繼續(xù)開(kāi)源,它即將上線 Hugging Face、ModelScope 等平臺(tái),遵循 MIT 協(xié)議。
這一「節(jié)前驚喜」迅速點(diǎn)燃了技術(shù)圈的熱情,海外開(kāi)發(fā)者甚至發(fā)出了「Do the Chinese guys ever rest???」的感嘆 。
但新模型也讓大家非常期待,這不剛發(fā)出來(lái),就被網(wǎng)友們給盯上了。
性能新高,token 消耗降低
突破開(kāi)源上限
作為 GLM 系列的最新版本,GLM-4.6 在多個(gè)方面實(shí)現(xiàn)了全面提升,包括但不限于:
- 高級(jí)編碼能力:在公開(kāi)基準(zhǔn)與真實(shí)編程任務(wù)中,GLM-4.6 代碼能力對(duì)齊 Claude Sonnet 4,是國(guó)內(nèi)已知的最好的 Coding 模型;
- 上下文長(zhǎng)度:上下文窗口由 128K 增加至 200K,適應(yīng)復(fù)雜的代碼與智能體任務(wù);
- 推理能力提升,并支持在推理過(guò)程中調(diào)用工具;
- 增強(qiáng)了模型的工具調(diào)用和搜索智能體,在智能體框架中表現(xiàn)更好;
- 更強(qiáng)的寫作能力:在文風(fēng)、可讀性與角色扮演場(chǎng)景中更符合人類偏好。
根據(jù)智譜報(bào)告,GLM-4.6 模型在八大權(quán)威基準(zhǔn)評(píng)測(cè)上性能有了全面提升,包括:AIME 25、LCB v6、HLE、SWE-Bench Verified、BrowseComp、Terminal-Bench 和 τ2-Bench。新模型在其中多個(gè)基準(zhǔn)上勝過(guò)了 Claude Sonnet 4/Claude Sonnet 4.5,位居國(guó)產(chǎn)模型首位。
接下來(lái)是在 Claude Code 環(huán)境下進(jìn)行的 74 個(gè)真實(shí)場(chǎng)景編程任務(wù)測(cè)試,GLM-4.6 實(shí)測(cè)性能超過(guò)了 Claude Sonnet 4,以及其他國(guó)產(chǎn)模型。
值得關(guān)注的是,在平均 token 消耗上,GLM-4.6 比 GLM-4.5 節(jié)省了 30% 以上,為同類模型最低。當(dāng)然,它的 Coding API 價(jià)格也只是 Claude 的 1/7,性能更好,速度更快還更便宜。
新模型同時(shí)適配了國(guó)產(chǎn) AI 硬件:GLM-4.6 已在寒武紀(jì)芯片上實(shí)現(xiàn) FP8+Int4 混合量化部署,這是首次在國(guó)產(chǎn)芯片投產(chǎn)的 FP8+Int4 模型芯片一體解決方案。該方案在保持精度不變的前提下,可以大幅降低推理成本,為國(guó)產(chǎn)生態(tài)下大模型本地化運(yùn)行開(kāi)創(chuàng)了可行路徑。
另外,基于 vLLM 推理框架部署,摩爾線程新一代 GPU 也可以基于原生 FP8 精度穩(wěn)定運(yùn)行 GLM-4.6。
一手實(shí)測(cè)
GLM-4.6 全方位提質(zhì)
目前,GLM-4.6 已經(jīng)上線 z.ai 等平臺(tái),用戶在模型選擇器中選擇它即可開(kāi)始嘗試。
在這里可以看到,智譜為該模型設(shè)置的簡(jiǎn)短描述是「最先進(jìn)的模型,擅長(zhǎng)處理全方位任務(wù)」,同時(shí)也能看到智譜預(yù)設(shè)的一些工作模式和示例案例,包括 AI PPT、全棧開(kāi)發(fā)、靈感畫(huà)板、深度研究、寫代碼等等。我們也是第一時(shí)間進(jìn)行了實(shí)測(cè)。
首先,我們先讓 GLM-4.6 寫一個(gè)「俄羅斯方塊 + 貪吃蛇」游戲,看看其「寫代碼」的能力。開(kāi)啟「自動(dòng)思考」,輸入以下提示詞:
用 Python(使用 pygame)編寫一個(gè)融合俄羅斯方塊和貪吃蛇的小游戲:畫(huà)面分為上下兩部分,上半部分有一條會(huì)自動(dòng)移動(dòng)的蛇,玩家需控制下落方塊左右移動(dòng)以躲避蛇;當(dāng)方塊進(jìn)入下半部分后,按照俄羅斯方塊規(guī)則繼續(xù)下落,玩家需要把它放入合適位置以消除整行。若方塊與蛇相撞則游戲結(jié)束;支持方向鍵移動(dòng)、空格鍵加速下落;蛇可隨機(jī)改變方向。程序需包含初始化、事件處理、邏輯更新和渲染繪制等模塊,并寫清注釋。
可以看到,GLM-4.6 在詳細(xì)分析了我們的需求之后便開(kāi)始了碼代碼工作,并且完成之后還給出了非常詳細(xì)的游戲說(shuō)明,包括游戲特色、操作方式、游戲規(guī)則和程序結(jié)構(gòu)。尤其值得一提的是其工作速度:完成該任務(wù)的時(shí)間僅 1 分鐘左右!
復(fù)制出來(lái)運(yùn)行一下看看效果,可以看到,除了 VS Code 默認(rèn)字體設(shè)置問(wèn)題之外,這個(gè) GLM-4.6 一次性完成的「俄羅斯方塊 + 貪吃蛇」游戲已經(jīng)完整可玩,游戲邏輯也完全遵照了我們的提示詞設(shè)定,表現(xiàn)堪稱驚艷。
一個(gè)簡(jiǎn)單的游戲或許還不足以探知其代碼能力的上限。接下來(lái),我們將難度提升一個(gè)量級(jí),要求它處理涉及真實(shí)物理數(shù)據(jù)和 3D 可視化的復(fù)雜任務(wù):讓 AI 構(gòu)建一個(gè)相比扁平的圓形更接近真實(shí)的太陽(yáng)系的演示模型:
請(qǐng)使用 Python 創(chuàng)建一個(gè)太陽(yáng)系動(dòng)態(tài)可視化演示,大體基于真實(shí)天文數(shù)據(jù),但太陽(yáng)大小可適當(dāng)縮小以方便查看:包含太陽(yáng)和八大行星(水星至海王星),采用 JPL 提供的軌道六根數(shù)初始化各行星軌道;以太陽(yáng)系質(zhì)心為參考點(diǎn),利用牛頓萬(wàn)有引力定律構(gòu)建運(yùn)動(dòng)微分方程,并通過(guò)數(shù)值積分模擬行星在三維空間中的軌跡;使用 matplotlib 的 3D 繪圖功能實(shí)時(shí)動(dòng)畫(huà)展示行星繞日運(yùn)動(dòng),正確體現(xiàn)軌道傾角、橢圓偏心率及相對(duì)公轉(zhuǎn)周期;坐標(biāo)軸單位為天文單位(AU),時(shí)間步長(zhǎng)可調(diào),并在圖中標(biāo)識(shí)各行星名稱;代碼需結(jié)構(gòu)清晰、注釋完整,并說(shuō)明所作簡(jiǎn)化(如忽略行星間引力攝動(dòng)或僅考慮日心引力)。界面使用微軟雅黑字體。
這一次,GLM-4.6 同樣很快就完成了任務(wù)(約 2 分鐘)。這個(gè)任務(wù)的難點(diǎn)不僅在于代碼量,更在于對(duì)天文學(xué)知識(shí)、物理公式(牛頓萬(wàn)有引力定律)以及專業(yè)數(shù)據(jù)庫(kù)(JPL 軌道數(shù)據(jù))的理解和應(yīng)用。
將代碼復(fù)制到運(yùn)行環(huán)境,導(dǎo)入必要的庫(kù),運(yùn)行:
結(jié)果再次令人印象深刻。GLM-4.6 再一次實(shí)現(xiàn)了「零修改」一次性運(yùn)行成功!它不僅相當(dāng)完美地基于 JPL 軌道數(shù)據(jù)生成了會(huì)隨時(shí)間演進(jìn)的 3D 太陽(yáng)系模型,還貼心地加入了坐標(biāo)軸設(shè)置功能,讓我們能從不同視角清晰觀察行星軌跡。并且,由于我們?cè)谔崾驹~中明確指定了字體,上次實(shí)驗(yàn)遇到的顯示問(wèn)題也得到了完美解決。這證明了其代碼能力不僅強(qiáng)大,而且對(duì)指令的遵循度極高。
當(dāng)然,我們也可以將 GLM-4.6 接入到強(qiáng)大編程智能體 Claude Code 中。
配置完成后,我們讓 GLM-4.6 嘗試完成了以下任務(wù):
寫一個(gè) Python 程序,使用 asyncio + aiohttp,并發(fā)爬取前 20 個(gè)知乎熱榜問(wèn)題頁(yè)面,提取問(wèn)題標(biāo)題、回答數(shù)量、關(guān)注人數(shù),然后將結(jié)果存儲(chǔ)為一個(gè) MD 文件。
可以看到,接入 Claude Code 的 GLM-4.6 的運(yùn)行速度同樣非???。同時(shí)得益于 Claude Code 強(qiáng)大的框架設(shè)計(jì),GLM-4.6 可以針對(duì)一個(gè)具體項(xiàng)目進(jìn)行反復(fù)優(yōu)化,比如視頻中我們可以看到 GLM-4.6 對(duì)目標(biāo) Python 程序的反復(fù)驗(yàn)證和修改,最終得到了理想的結(jié)果。
當(dāng)然,作為科技媒體小編,保持對(duì)新聞的關(guān)注自然非常重要,借助 Claude Code + GLM-4.6,這個(gè)任務(wù)可以變得更加簡(jiǎn)單。
檢索 24 小時(shí)內(nèi)發(fā)生的熱門 AI 新聞,整理一份報(bào)告給我,結(jié)果保存為一個(gè) Markdown 文件。
繼續(xù)對(duì)話,我們還能讓 GLM-4.6 將其設(shè)置成一個(gè)每天 8 點(diǎn)定時(shí)運(yùn)行的任務(wù),這樣我們一上班就可以看到過(guò)去 24 小時(shí)最新的 AI 新聞報(bào)道了。
可以看到,GLM-4.5 編寫并優(yōu)化了實(shí)現(xiàn)該自動(dòng)化任務(wù)的腳本,我們也只需一次運(yùn)行即可將其變成我們計(jì)算機(jī)上的一個(gè)定時(shí)任務(wù)。
在連續(xù)驗(yàn)證了其強(qiáng)大的「理科」編程能力后,我們來(lái)看看這個(gè)「擅長(zhǎng)處理全方位任務(wù)」的 GLM-4.6 模型在深度研究和內(nèi)容創(chuàng)作上的「文科」表現(xiàn)。 我們打開(kāi)「聯(lián)網(wǎng)搜索」,給它布置一個(gè)科技媒體工作者日??赡苡龅降恼鎸?shí)任務(wù):
請(qǐng)撰寫一篇深度調(diào)查報(bào)道,題為 “從 OpenAI 出走的創(chuàng)業(yè)者:他們是誰(shuí),又在做什么?”。基于公開(kāi)可靠信息,梳理至少 5 位曾任職 OpenAI 研究或技術(shù)崗位、后離職創(chuàng)業(yè)的核心人物,包括其姓名、在 OpenAI 的角色、離職時(shí)間、所創(chuàng)公司名稱、技術(shù)方向、融資或產(chǎn)品進(jìn)展;分析他們離開(kāi)的可能動(dòng)因(如理念分歧、自主權(quán)或商業(yè)化考量);探討這一人才外流對(duì) AI 行業(yè)競(jìng)爭(zhēng)與創(chuàng)新的影響,以及這些初創(chuàng)公司可能如何塑造未來(lái) AI 發(fā)展。報(bào)道需專業(yè)、客觀,兼具敘事性與分析深度。
從其思考過(guò)程看,GLM-4.6 首先基于任務(wù)需求檢索了網(wǎng)絡(luò),得到了足夠的必要信息,然后為「OpenAI 黑手黨」構(gòu)建了一份相當(dāng)全面的報(bào)道,其中不僅列出了大量關(guān)鍵信息和細(xì)節(jié),同時(shí)還顯式地索引了相關(guān)來(lái)源以供驗(yàn)證。
對(duì)于我們媒體工作者而言,這已經(jīng)不是一個(gè)簡(jiǎn)單的「資料整理工具」,而是一個(gè)能夠提供洞見(jiàn)、輔助分析的強(qiáng)大研究伙伴。
如果說(shuō)代碼生成和研究報(bào)告還是相對(duì)獨(dú)立的任務(wù),那么全棧開(kāi)發(fā)則考驗(yàn)的是模型將前后端邏輯整合、構(gòu)建一個(gè)完整產(chǎn)品的工程能力。這一次,我們采用了一個(gè)更有趣的方式,直接讓模型自己給自己出題:
新開(kāi)一個(gè)窗口,選擇「全棧開(kāi)發(fā)」模式,將這條由 GLM-4.6 自己生成的提示詞再交還給它:
可以看到,GLM-4.6 在分析完任務(wù)后,首先構(gòu)建了一個(gè)明確的待辦事項(xiàng),這本質(zhì)上是它的項(xiàng)目開(kāi)發(fā)路線圖:包括設(shè)計(jì) Todo 方案、創(chuàng)建前端、實(shí)現(xiàn) RESTful API 路由、增加本地存儲(chǔ)以供離線使用、測(cè)試功能。這種「先規(guī)劃、后執(zhí)行」的工作模式,非常接近人類程序員的思維方式。之后,它便一步步地完成了所有任務(wù)。經(jīng)過(guò)實(shí)測(cè),生成的應(yīng)用功能完備,交互流暢。
更錦上添花的是,我們能直接將生成的結(jié)果以網(wǎng)頁(yè)應(yīng)用形式發(fā)布到 space.z.ai。感興趣的讀者可以訪問(wèn)下方鏈接,親自試用這個(gè)由 GLM-4.6 在幾分鐘內(nèi)新鮮出爐的待辦事項(xiàng)管理應(yīng)用:
https://a019u8vgp630-deploy.space.z.ai
除了上述硬核能力,GLM-4.6 也集成了多模態(tài)生成等便捷功能。在預(yù)設(shè)的 AI PPT 和靈感畫(huà)板模式中,模型可以快速將想法變?yōu)楝F(xiàn)實(shí)。比如,我們讓它生成了一張介紹「蕾姆」的小紅書(shū)風(fēng)格封面圖。
執(zhí)行該任務(wù)時(shí),GLM-4.6 首先會(huì)聯(lián)網(wǎng)檢索并理解「蕾姆」這一角色,下載相關(guān)素材,然后再通過(guò)生成 HTML/CSS 代碼來(lái)設(shè)計(jì)和構(gòu)建版式,最終呈現(xiàn)出一張符合要求的圖片。這展示了它理解、檢索、設(shè)計(jì)、生成的綜合能力。
不止于強(qiáng)大,更趨于全能
通過(guò)從代碼生成、深度研究到全棧開(kāi)發(fā)等一系列的實(shí)測(cè),我們可以得出結(jié)論:智譜 AI 為 GLM-4.6 設(shè)定的「最先進(jìn)的模型,擅長(zhǎng)處理全方位任務(wù)」的描述并非虛言。
它的強(qiáng)大之處體現(xiàn)在:
- 極高的代碼生成質(zhì)量:在多個(gè)復(fù)雜項(xiàng)目中實(shí)現(xiàn)了「一次性成功」,代碼邏輯嚴(yán)謹(jǐn)、功能完整。
- 深刻的需求理解與規(guī)劃能力:無(wú)論是拆解游戲規(guī)則,還是規(guī)劃全棧應(yīng)用開(kāi)發(fā)步驟,都展現(xiàn)了清晰的「思路」。
- 驚人的執(zhí)行效率:分鐘級(jí)的響應(yīng)速度,大幅提升了開(kāi)發(fā)和研究的效率。
- 全面的綜合能力:無(wú)縫整合了聯(lián)網(wǎng)搜索、多模態(tài)生成和應(yīng)用部署,使其成為一個(gè)真正的「全能工作站」。
毫無(wú)疑問(wèn),GLM-4.6 已經(jīng)展現(xiàn)出了頂級(jí)大模型應(yīng)有的水準(zhǔn),它不僅是一個(gè)強(qiáng)大的工具,更是一個(gè)能夠激發(fā)創(chuàng)造力、賦能專業(yè)工作的得力助手。
現(xiàn)如今,智譜的 GLM 系列大模型已成為全球開(kāi)源 AI 領(lǐng)域的一支重要力量。新推出的 GLM-4.6 不論是在技術(shù)架構(gòu)、性能表現(xiàn),還是在使用成本上都為全球業(yè)界樹(shù)立了新的標(biāo)桿。我們有理由期待它在未來(lái)的應(yīng)用中帶來(lái)更多驚喜。
GLM-4.6 技術(shù)博客:https://z.ai/blog/glm-4.6
文中視頻鏈接:https://mp.weixin.qq.com/s/wXZ-AZbFEfskBR6lOhRmLA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.