始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開(kāi)放的AI開(kāi)源社區(qū)。正在,歡迎加入共同成長(zhǎng)。A800/H20等算力6.25元/卡時(shí),支持在線微調(diào)訓(xùn)練,及線部署和。
大語(yǔ)言模型 的目標(biāo)是在廣泛領(lǐng)域達(dá)到人類(lèi)認(rèn)知水平,而非針對(duì)特定任務(wù)而設(shè)計(jì)專家模型。一個(gè)優(yōu)秀的大語(yǔ)言模型必須具備通用問(wèn)題解決、泛化能力、 常識(shí)推理和自我改進(jìn)等核心能力。過(guò)去五年里,OpenAI 的 GPT-3 學(xué)會(huì)了常識(shí)知識(shí),而 o1 模型則通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了“先思考后回答”,在編程、數(shù)據(jù)分析和復(fù)雜數(shù)學(xué)問(wèn)題上的推理能力得到了顯著提升。
然而,現(xiàn)有模型仍 然算不上真正的通用模型:有些擅長(zhǎng)編程,有些精于數(shù)學(xué),有些在推理方面表現(xiàn)出色,但沒(méi)有一個(gè)能在所有任務(wù)上都達(dá)到最佳表現(xiàn)。GLM-4.5力求將推理、編碼和智能體能力統(tǒng)一到一個(gè)模型中,以滿足快速增長(zhǎng)的智能體應(yīng)用日益復(fù)雜的需求。
GLM-4.5 和 GLM-4.5-Air 都是混合推理模型,提供用于復(fù)雜推理和工具使用的 思考 模式,以及用于即時(shí)響應(yīng)的 非思考 模式。 GLM-4.5 擁有3550億總參數(shù)和 320 億激活參數(shù),而 GLM-4.5-Air 擁有 1060 億總參數(shù)和 120 億激活參數(shù)。 GLM-4.5系列 已上線始智AI-wisemodel開(kāi)源社區(qū),歡迎體驗(yàn)。
模型地址
https://wisemodel.cn/organization/ZhipuAI
01.
三大技術(shù)解讀
模型架構(gòu)和預(yù)訓(xùn)練
在 GLM-4.5 系列模型中,團(tuán)隊(duì)采用了 MoE(專家混合)架構(gòu),這種架構(gòu)能夠顯著提升訓(xùn)練和推理時(shí)的計(jì)算效率。在 MoE 層采用了 loss-free balance 路由和 sigmoid gate 機(jī)制。
與 DeepSeek-V3 和 Kimi K2 的設(shè)計(jì)思路不同,團(tuán)隊(duì)選擇了"瘦高"的模型結(jié)構(gòu)——減少模型的寬度(包括隱藏維度和路由專家的數(shù)量),同時(shí)增加模型的深度(層數(shù))。團(tuán)隊(duì)發(fā)現(xiàn),更深的模型在推理能力上表現(xiàn)更加出色。在自注意力機(jī)制方面,團(tuán)隊(duì)采用了 partal RoPE 的分組查詢注意力(Grouped-Query Attention)。
另外,團(tuán)隊(duì)將注意力頭的數(shù)量增加到了 2.5 倍(在 5120 的隱藏維度下使用 96 個(gè)注意力頭)。有意思的是,雖然增加注意力頭的數(shù)量并沒(méi)有讓訓(xùn)練 loss 更低,但在 MMLU 和 BBH 等推理基準(zhǔn)測(cè)試中,模型的表現(xiàn)卻得到了穩(wěn)定提升。
GLM-4.5 使用了 Muon 優(yōu)化器,這個(gè)優(yōu)化器不僅能加快模型收斂速度,還能在更大的 Batch Size 下相比 AdamW 保持更好的收斂效果,從而提升訓(xùn)練效率。團(tuán)隊(duì)還引入了 QK-Norm 技術(shù)來(lái)提升注意力 logits 的數(shù)值穩(wěn)定性。GLM-4.5 和 GLM-4.5-Air 都加入了 MTP(Multi Token Predition)層,用于在推理階段實(shí)現(xiàn)推測(cè)解碼,進(jìn)一步提升推理效率。
基礎(chǔ)模型經(jīng)歷了幾個(gè)訓(xùn)練階段。在預(yù)訓(xùn)練期間,模型首先在 15T token 的通用預(yù)訓(xùn)練語(yǔ)料庫(kù)上訓(xùn)練,然后在 7T token 的代碼和推理語(yǔ)料庫(kù)上訓(xùn)練。預(yù)訓(xùn)練后,團(tuán)隊(duì)引入了 Mid-Training 階段來(lái)進(jìn)一步提升模型在專有領(lǐng)域上的性能。
基于 slime 的大模型強(qiáng)化學(xué)習(xí)
為了支持 GLM-4.5 這樣的大模型進(jìn)行高效的強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,團(tuán)隊(duì)設(shè)計(jì)、開(kāi)發(fā)并開(kāi)源了slime。這是一個(gè)在靈活性、效率和可擴(kuò)展性方面都表現(xiàn)卓越的 RL 框架,歡迎社區(qū)使用并參與貢獻(xiàn)。
slime 旨在解決強(qiáng)化學(xué)習(xí)中的常見(jiàn)瓶頸,并針對(duì)復(fù)雜的智能體任務(wù)做了優(yōu)化。
靈活的混合訓(xùn)練架構(gòu):slime 的核心優(yōu)勢(shì)在于其多功能的混合架構(gòu)。它既支持同步、集中式訓(xùn)練(適合推理和通用強(qiáng)化學(xué)習(xí)訓(xùn)練),也支持分布式、異步訓(xùn)練模式。這種異步模式對(duì)于Agentic RL 至關(guān)重要,因?yàn)樵谶@類(lèi)場(chǎng)景中,數(shù)據(jù)生成往往是一個(gè)緩慢的外部過(guò)程。通過(guò)將訓(xùn)練與數(shù)據(jù)收集解耦,團(tuán)隊(duì)可以確保訓(xùn)練 GPU 始終保持滿負(fù)荷運(yùn)行,最大化硬件利用率。
面向智能體的解耦設(shè)計(jì):Agentic RL 經(jīng)常面臨環(huán)境交互時(shí)延遲高且分布長(zhǎng)尾的問(wèn)題,這嚴(yán)重限制了訓(xùn)練吞吐量。為此,slime 實(shí)現(xiàn)了完全解耦的基礎(chǔ)架構(gòu),將環(huán)境交互引擎與訓(xùn)練引擎分離。這兩個(gè)組件在不同的硬件上獨(dú)立運(yùn)行,將數(shù)據(jù)生成的瓶頸轉(zhuǎn)化為可并行化的非阻塞過(guò)程。這種設(shè)計(jì)是加速長(zhǎng)序列智能體任務(wù)的關(guān)鍵。
混合精度加速數(shù)據(jù)生成:為了進(jìn)一步提升吞吐量,slime 采用混合精度推理來(lái)加速環(huán)境交互。它使用 FP8 格式進(jìn)行數(shù)據(jù)生成 (Rollout) ,同時(shí)在模型訓(xùn)練中保留 BF16 以確保 訓(xùn)練 穩(wěn)定性。這種技術(shù)在不影響訓(xùn)練質(zhì)量的前提下,大幅提升了數(shù)據(jù)生成速度。
這種整體化的設(shè)計(jì)使得 slime 能夠無(wú)縫集成多個(gè)智能體框架,支持各種任務(wù)類(lèi)型,并通過(guò)統(tǒng)一而強(qiáng)大的接口高效管理長(zhǎng)序列環(huán)境交互。
增強(qiáng)智能體能力的后訓(xùn)練
后訓(xùn)練對(duì)大語(yǔ)言模型至關(guān)重要,模型通過(guò)自主探索和積累經(jīng)驗(yàn)來(lái)不斷優(yōu)化策略。強(qiáng)化學(xué)習(xí)(RL)是突破模型能力邊界的關(guān)鍵步驟。GLM-4.5 不僅整合了 GLM-4-0414 的通用能力和 GLM-Z1 的推理能力,還重點(diǎn)提升了智能體能力,包括智能體編程、深度搜索和通用工具使用。
訓(xùn)練過(guò)程首先在精選的推理數(shù)據(jù)和合成的智能體場(chǎng)景上進(jìn)行監(jiān)督微調(diào),然后通過(guò)專門(mén)的強(qiáng)化學(xué)習(xí)階段分別訓(xùn)練專家模型。
雖然強(qiáng)化學(xué)習(xí)訓(xùn)練只針對(duì)有限的可驗(yàn)證任務(wù),但獲得的能力提升可以遷移到相關(guān)領(lǐng)域,比如通用工具使用能力。最后,團(tuán)隊(duì)通過(guò)專家蒸餾將這些專門(mén)技能整合起來(lái),使 GLM-4.5 在各項(xiàng)任務(wù)上都具備全面的能力。
推理能力訓(xùn)練:團(tuán)隊(duì) 在完整的 64K 上下文長(zhǎng)度上進(jìn)行單階段強(qiáng)化學(xué)習(xí),采用基于難度的課程 學(xué)習(xí)來(lái)進(jìn)行多階段 RL 。為了確保訓(xùn)練穩(wěn)定性,團(tuán)隊(duì)引入了改進(jìn)的技術(shù):使用動(dòng)態(tài)采樣溫度來(lái)平衡探索與利用。
智能體任務(wù)訓(xùn)練: 訓(xùn)練聚焦于兩個(gè)可驗(yàn)證的任務(wù):基于信息檢索的問(wèn)答和軟件工程任務(wù)。團(tuán)隊(duì)開(kāi)發(fā)了可擴(kuò)展的策略來(lái)合成基于搜索的問(wèn)答對(duì),方法是通過(guò)人工參與的內(nèi)容提取和選擇性地模糊網(wǎng)頁(yè)內(nèi)容。編程任務(wù)則通過(guò)在真實(shí)軟件工程任務(wù)上基于執(zhí)行結(jié)果的反饋來(lái)驅(qū)動(dòng)。
02.
整體性能測(cè)試
團(tuán)隊(duì)在涵蓋智能體(3項(xiàng))、推理(7項(xiàng))和編程(2項(xiàng))的12個(gè)基準(zhǔn)測(cè)試上將GLM-4.5 與來(lái)自O(shè)penAI、Anthropic、Google DeepMind、xAI、阿里巴巴、月之暗面和深度求索的各種模型進(jìn)行了比較??傮w而言,GLM-4.5 排名第3,GLM-4.5 Air 排名第6。
智能體任務(wù)
GLM-4.5 是一個(gè)為智能體任務(wù)優(yōu)化的基礎(chǔ)模型。它提供 128k 的上下文長(zhǎng)度和原生函數(shù)調(diào)用能力。智譜在 τ-bench 和 BFCL-v3(Berkeley Function Calling Leaderboard v3)上測(cè)量了其智能體能力。在這兩個(gè)基準(zhǔn)測(cè)試上,GLM-4.5 與 Claude 4 Sonnet 的性能相匹配。
網(wǎng)頁(yè)瀏覽是一個(gè)流行的智能體應(yīng)用,需要復(fù)雜的推理和多輪工具使用。團(tuán)隊(duì)在 BrowseComp 基準(zhǔn)測(cè)試上評(píng)估了 GLM-4.5,這是一個(gè)具有挑戰(zhàn)性的網(wǎng)頁(yè)瀏覽基準(zhǔn)測(cè)試,包含需要簡(jiǎn)短回答的復(fù)雜問(wèn)題。借助網(wǎng)頁(yè)瀏覽工具,GLM-4.5 對(duì) 26.4% 的問(wèn)題給出了正確回答,明顯優(yōu)于 Claude-4-Opus(18.8%),接近 o4-mini-high(28.3%)。下圖顯示了 GLM-4.5 在 BrowseComp 上隨測(cè)試時(shí)擴(kuò)展的準(zhǔn)確性提升。
推理
在思考模式下,GLM-4.5 和 GLM-4.5-Air 可以解決復(fù)雜的推理問(wèn)題,包括數(shù)學(xué)、科學(xué)和邏輯問(wèn)題。
對(duì)于 AIME 和 GPQA 基準(zhǔn)測(cè)試,智譜分別報(bào)告了 32 個(gè)和 8 個(gè)樣本的平均準(zhǔn)確率(Avg@32,Avg@8)以減輕結(jié)果方差。使用 LLM 進(jìn)行自動(dòng)答案驗(yàn)證。對(duì)于 HLE 基準(zhǔn)測(cè)試,僅評(píng)估基于文本的問(wèn)題,正確性由 gpt-4o 判斷。
編程
GLM-4.5 擅長(zhǎng)編程,包括從頭開(kāi)始構(gòu)建編程項(xiàng)目和在現(xiàn)有項(xiàng)目中作為智能體解決編程任務(wù)。
它可與現(xiàn)有編程工具無(wú)縫結(jié)合,如Claude Code、Roo Code 和CodeGeex。為了評(píng)估編程能力,團(tuán)隊(duì)在 SWE-bench Verified 和 Terminal-Bench 上比較了不同模型。下表展示了結(jié)果。
1 對(duì)于 SWE-bench Verified,團(tuán)隊(duì)使用 OpenHands v0.34.0,運(yùn)行限制為 100 次迭代,并截?cái)鄽v史記錄以防止超過(guò) 128K 上下文限制,配置為 temperature=0.6,top_p=1.0。
2 對(duì)于 Terminal-Bench,團(tuán)隊(duì)使用 Terminus 框架進(jìn)行評(píng)估。團(tuán)隊(duì)使用標(biāo)準(zhǔn)函數(shù)調(diào)用而不是直接提示進(jìn)行評(píng)估。
團(tuán)隊(duì)對(duì)所有比較模型進(jìn)行了帕累托前沿分析(如下圖所示)。GLM-4.5 和 GLM-4.5-Air 相對(duì)于相似規(guī)模的模型表現(xiàn)出優(yōu)越的性能,在性能-參數(shù)量權(quán)衡上實(shí)現(xiàn)了最佳效率。
為了評(píng)估 GLM-4.5 的智能體編程能力,團(tuán)隊(duì)使用 Claude Code 作為評(píng)測(cè)工具,將其與 Claude 4 Sonnet、Kimi K2 和 Qwen3-Coder 進(jìn)行對(duì)比。測(cè)試涵蓋了 52 個(gè)編程任務(wù),包括前端開(kāi)發(fā)、工具開(kāi)發(fā)、數(shù)據(jù)分析、測(cè)試和算法實(shí)現(xiàn)等多個(gè)領(lǐng)域。
所有評(píng)測(cè)都在獨(dú)立的 Docker 容器中進(jìn)行,并通過(guò)多輪人機(jī)交互并采用標(biāo)準(zhǔn)化的評(píng)估準(zhǔn)則確保測(cè)試的一致性和可重復(fù)性。實(shí)驗(yàn)結(jié)果顯示,GLM-4.5 對(duì) Kimi K2 的勝率達(dá)到 53.9%,對(duì) Qwen3-Coder 更是取得了 80.8% 的壓倒性優(yōu)勢(shì)。盡管 GLM-4.5 展現(xiàn)出了不錯(cuò)的競(jìng)爭(zhēng)力,但與 Claude-4-Sonnet 相比,仍有進(jìn)一步優(yōu)化的空間。
值得注意的是,GLM-4.5 的平均工具調(diào)用成功率最高(90.6%),優(yōu)于 Claude-4-Sonnet(89.5%)、Kimi-K2(86.2%)和 Qwen3-Coder(77.1%),展示了在智能體編程任務(wù)中的可靠性。所有 52 個(gè)編程任務(wù)的軌跡公開(kāi)在此處供社區(qū)進(jìn)一步研究。
03.
體驗(yàn)示例演示
Artifacts
GLM-4.5 增強(qiáng)了 GLM-4-0414 的復(fù)雜代碼生成能力。GLM-4.5 可以創(chuàng)建復(fù)雜的 Artifacts,包括小游戲、小工具、物理模擬動(dòng)畫(huà)等,支持 HTML、SVG、Python 等多種語(yǔ)言。
Flappy Bird游戲:
3D 第一人稱迷宮奔跑者:
帶有拖拽和搜索功能的 TODO 看板:
幻燈片創(chuàng)建
在 GLM-4.5 工具使用和 HTML 編碼能力的基礎(chǔ)上,團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)模型原生的 PPT/ Poster 智能體。無(wú)論用戶需要簡(jiǎn)單還是復(fù)雜的設(shè)計(jì),或是上傳文檔資料,GLM-4.5 Agent 都能自動(dòng)搜索網(wǎng)絡(luò)資源、獲取相關(guān)圖片,并生成相應(yīng)的幻燈片。
塔代伊·波加查爾的成就:
蒙娜麗莎的內(nèi)心獨(dú)白:
全棧開(kāi)發(fā)
GLM-4.5 在前后端開(kāi)發(fā)上游刃有余,是構(gòu)建現(xiàn)代 Web 應(yīng)用的利器。為了充分展現(xiàn)這一能力,團(tuán)隊(duì)借鑒 Claude Code 框架打造了一款編碼智能體?;陬A(yù)置的全棧網(wǎng)站框架,用戶可以一句話生成完整網(wǎng)站,并通過(guò)多輪對(duì)話輕松添加新功能、完善項(xiàng)目細(xì)節(jié)。
寶可夢(mèng):
賽博朋克卡牌生成:
----- END -----
wisemodel相關(guān):
系統(tǒng)升級(jí):
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開(kāi)源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開(kāi)源社區(qū)的志愿者計(jì)劃和開(kāi)源共創(chuàng)計(jì)劃。期待更多開(kāi)發(fā)者將開(kāi)源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開(kāi)放的AI開(kāi)源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開(kāi)源社區(qū)動(dòng)態(tài)。
2
歡迎加盟wisemodel開(kāi)源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來(lái),逐漸成為影響力日益擴(kuò)大的中立開(kāi)放的AI開(kāi)源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開(kāi)發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開(kāi)發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過(guò)添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開(kāi)源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開(kāi)源社區(qū)
始智AI wisemodel.cn開(kāi)源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書(shū)長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開(kāi)放的AI開(kāi)源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開(kāi)源社區(qū),匯聚主要AI開(kāi)源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開(kāi)發(fā)者,以及政府部門(mén)、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開(kāi)源創(chuàng)新生態(tài)。
向上滑動(dòng)查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.