網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

智譜GLM-4.5完整技術(shù)報(bào)告：提出三個(gè)通用模型關(guān)鍵能力，公開(kāi)12項(xiàng)測(cè)試成績(jī)

2025-08-11 18:14:37　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
編譯陳駿達(dá)
編輯云鵬

智東西8月11日?qǐng)?bào)道，近日，智譜發(fā)布了其最新一代旗艦?zāi)Ｐ虶LM-4.5的完整技術(shù)報(bào)告。GLM-4.5融合了推理、編程和智能體能力，并在上述場(chǎng)景的12項(xiàng)基準(zhǔn)測(cè)試中，綜合性能取得了發(fā)布之際的全球開(kāi)源模型SOTA（即排名第一）、國(guó)產(chǎn)模型第一、全球模型第三的成績(jī)，發(fā)布后不到48小時(shí)，便登頂開(kāi)源平臺(tái)Hugging Face趨勢(shì)榜第一。

智東西此前已對(duì)GLM-4.5的能力進(jìn)行了介紹與測(cè)試，在技術(shù)報(bào)告中，智譜進(jìn)一步分享了這款模型在預(yù)訓(xùn)練、中期訓(xùn)練和后訓(xùn)練階段進(jìn)行的創(chuàng)新。

GLM-4.5借鑒了部分DeepSeek-V3架構(gòu)，但縮小了模型的寬度，增加了模型深度，從而提升模型的推理能力。在傳統(tǒng)的預(yù)訓(xùn)練和后訓(xùn)練之外，智譜引入了中期訓(xùn)練，并在這一階段提升了模型在理解代碼倉(cāng)庫(kù)、推理、長(zhǎng)上下文與智能體3個(gè)場(chǎng)景的性能。

后訓(xùn)練階段，GLM-4.5進(jìn)行了有監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)，其強(qiáng)化學(xué)習(xí)針對(duì)推理、智能體和通用場(chǎng)景分別進(jìn)行了訓(xùn)練，還使用了智譜自研并開(kāi)源的基礎(chǔ)設(shè)施框架Slime，進(jìn)一步提升了強(qiáng)化學(xué)習(xí)的效率。

在多項(xiàng)基準(zhǔn)測(cè)試中，GLM-4.5與DeepSeek-R1-0528、Kimi K2、OpenAI o3、Claude 4 Sonnet等頭部開(kāi)閉源模型處于同一梯隊(duì)，并在部分測(cè)試中取得了SOTA。

值得一提的是，智譜還計(jì)劃在今晚開(kāi)源GLM-4.5系列的新模型，名為GLM-4.5V，或?yàn)橐豢钜曈X(jué)模型。

論文鏈接：

https://github.com/zai-org/GLM-4.5/blob/main/resources/GLM_4_5_technical_report.pdf

以下是對(duì)GLM-4.5技術(shù)報(bào)告核心內(nèi)容的梳理：

一、從知識(shí)庫(kù)到求解器，“ARC”成新一代模型重要能力

GLM-4.5團(tuán)隊(duì)提出，大模型正逐漸從“通用知識(shí)庫(kù)”的角色，迅速向“通用問(wèn)題求解器”演進(jìn)，目標(biāo)是實(shí)現(xiàn)通用人工智能（AGI）。這意味著，它們不僅要在單一任務(wù)中做到最好，還要像人類一樣具備復(fù)雜問(wèn)題求解、泛化能力和自我提升能力等。

智譜提出了三項(xiàng)關(guān)鍵且相互關(guān)聯(lián)的能力：Agentic能力（與外部工具及現(xiàn)實(shí)世界交互的能力）、復(fù)雜推理能力（解決數(shù)學(xué)、科學(xué)等領(lǐng)域多步驟問(wèn)題的能力）、以及高級(jí)編程能力（應(yīng)對(duì)真實(shí)世界軟件工程任務(wù)的能力），并將其統(tǒng)稱為ARC。

要具備上述能力，數(shù)據(jù)是基礎(chǔ)。GLM-4.5的預(yù)訓(xùn)練數(shù)據(jù)主要包含網(wǎng)頁(yè)、多語(yǔ)言數(shù)據(jù)、代碼、數(shù)學(xué)與科學(xué)等領(lǐng)域，并使用多種方法評(píng)估了數(shù)據(jù)質(zhì)量，并對(duì)高質(zhì)量的數(shù)據(jù)進(jìn)行上采樣（Up-Sampling），即增加這部分?jǐn)?shù)據(jù)在訓(xùn)練集中的出現(xiàn)頻率。

例如，代碼數(shù)據(jù)收集自GitHub和其他代碼托管平臺(tái)，先進(jìn)行基于規(guī)則的初步過(guò)濾，再使用針對(duì)不同編程語(yǔ)言的質(zhì)量模型，將數(shù)據(jù)分為高/中/低質(zhì)量，上采樣高質(zhì)量、剔除低質(zhì)量，源代碼數(shù)據(jù)使用Fill-In-the-Middle目標(biāo)訓(xùn)練，能讓模型獲得更好地代碼補(bǔ)全能力。對(duì)于代碼相關(guān)的網(wǎng)頁(yè)，GLM-4.5采用通過(guò)雙階段檢索與質(zhì)量評(píng)估篩選，并用細(xì)粒度解析器保留格式與內(nèi)容。

模型架構(gòu)方面，GLM-4.5系列參考DeepSeek-V3，采用了MoE（混合專家）架構(gòu)，從而提升了訓(xùn)練和推理的計(jì)算效率。對(duì)于MoE層，GLM-4.5引入了無(wú)損平衡路由（loss-free balance routing）和sigmoid門控機(jī)制。同時(shí)，GLM-4.5系列還擁有更小的模型寬度（隱藏維度和路由專家數(shù)量），更大的模型深度，這種調(diào)整能提升模型的推理能力。

在自注意力模塊中，GLM-4.5系列采用了分組查詢注意力（Grouped-Query Attention）并結(jié)合部分RoPE（旋轉(zhuǎn)位置編碼）。智譜將注意力頭的數(shù)量提升到原來(lái)的2.5倍（96個(gè)注意力頭）。有趣的是，雖然增加注意力頭數(shù)量并未帶來(lái)比少頭模型更低的訓(xùn)練損失，但模型在MMLU和BBH等推理類基準(zhǔn)測(cè)試上的表現(xiàn)得到提升。

▲GLM-4.5系列模型與DeepSeek-V3、Kimi K2在架構(gòu)方面的區(qū)別（圖源：GLM-4.5技術(shù)報(bào)告）

GLM-4.5還使用了QK-Norm技術(shù)，用于穩(wěn)定注意力logits的取值范圍，可以防止注意力過(guò)度集中或過(guò)于分散，改善模型在長(zhǎng)序列或復(fù)雜任務(wù)上的表現(xiàn)。同時(shí)，GLM-4.5系列均在 MTP（多Token預(yù)測(cè)）層中加入了一個(gè)MoE層，以支持推理階段的推測(cè)式解碼，提升推理速度和質(zhì)量。

預(yù)訓(xùn)練完成后，GLM-4.5還經(jīng)歷了一個(gè)“中期訓(xùn)練”階段，采用中等規(guī)模的領(lǐng)域特定數(shù)據(jù)集，主要在3個(gè)場(chǎng)景提升模型性能：

（1）倉(cāng)庫(kù)級(jí)代碼訓(xùn)練：通過(guò)拼接同一倉(cāng)庫(kù)的多個(gè)代碼文件及相關(guān)開(kāi)發(fā)記錄，幫助模型理解跨文件依賴和軟件工程實(shí)際場(chǎng)景，提升代碼理解與生成能力，同時(shí)通過(guò)加長(zhǎng)序列支持大型項(xiàng)目。

（2）合成推理數(shù)據(jù)訓(xùn)練：利用數(shù)學(xué)、科學(xué)和編程競(jìng)賽題目及答案，結(jié)合推理模型合成推理過(guò)程數(shù)據(jù)，增強(qiáng)模型的復(fù)雜邏輯推理和問(wèn)題解決能力。

（3）長(zhǎng)上下文與智能體訓(xùn)練：通過(guò)擴(kuò)展序列長(zhǎng)度和上采樣長(zhǎng)文檔，加強(qiáng)模型對(duì)超長(zhǎng)文本的理解與生成能力，并加入智能體軌跡數(shù)據(jù)，提升模型在交互和多步?jīng)Q策任務(wù)中的表現(xiàn)。

▲GLM-4.5的預(yù)訓(xùn)練與中期訓(xùn)練階段（圖源：GLM-4.5技術(shù)報(bào)告）

二、兩步走完成后訓(xùn)練，自研開(kāi)源基礎(chǔ)設(shè)施框架立功

GLM-4.5團(tuán)隊(duì)將模型后訓(xùn)練劃分為兩個(gè)階段，在階段一（專家訓(xùn)練）中，該團(tuán)隊(duì)打造了專注于推理、智能體和通用對(duì)話這3個(gè)領(lǐng)域的專家模型。在階段二（統(tǒng)一訓(xùn)練）中，該團(tuán)隊(duì)采用自我蒸餾技術(shù)將多個(gè)專家模型整合，最終產(chǎn)出一個(gè)融合推理與非推理兩種模式的綜合模型。

在上述兩個(gè)階段中，GLM-4.5都經(jīng)歷了有監(jiān)督微調(diào)（SFT）。

專家訓(xùn)練中，SFT使用帶有思維鏈的小規(guī)模數(shù)據(jù)集，對(duì)專家模型進(jìn)行基礎(chǔ)能力的預(yù)訓(xùn)練，確保模型在進(jìn)入強(qiáng)化學(xué)習(xí)前具備必要的推理和工具使用能力。

整體SFT中，GLM-4.5利用數(shù)百萬(wàn)涵蓋多領(lǐng)域任務(wù)（推理、通用對(duì)話、智能體任務(wù)及長(zhǎng)上下文理解）的樣本，基于128K上下文長(zhǎng)度的基礎(chǔ)模型進(jìn)行訓(xùn)練。通過(guò)從多個(gè)專家模型輸出中蒸餾知識(shí)，模型學(xué)會(huì)在不同任務(wù)中靈活應(yīng)用推理，同時(shí)兼顧部分不需復(fù)雜推理的場(chǎng)景，支持反思和即時(shí)響應(yīng)兩種工作模式，形成混合推理能力。

在SFT過(guò)程中，GLM-4.5團(tuán)隊(duì)采用了幾種方式，以提升訓(xùn)練效果：

（1）減少函數(shù)調(diào)用模板中的字符轉(zhuǎn)義：針對(duì)函數(shù)調(diào)用參數(shù)中代碼大量轉(zhuǎn)義帶來(lái)的學(xué)習(xí)負(fù)擔(dān)，提出用XML風(fēng)格特殊標(biāo)記包裹鍵值的新模板，大幅降低轉(zhuǎn)義需求，同時(shí)保持函數(shù)調(diào)用性能不變。

（2）拒絕采樣（Rejection Sampling）：設(shè)計(jì)了多階段過(guò)濾流程，去除重復(fù)、無(wú)效或格式不符的樣本，驗(yàn)證客觀答案正確性，利用獎(jiǎng)勵(lì)模型篩選主觀回答，并確保工具調(diào)用場(chǎng)景符合規(guī)范且軌跡完整。

（3）提示選擇與回復(fù)長(zhǎng)度調(diào)整：通過(guò)剔除較短的提示樣本，提升數(shù)學(xué)和科學(xué)任務(wù)表現(xiàn)2%-4%；對(duì)難度較高的提示詞進(jìn)行回復(fù)長(zhǎng)度的調(diào)整，并生成多條回復(fù)，進(jìn)一步帶來(lái)1%-2%的性能提升。

（4）自動(dòng)構(gòu)建智能體SFT數(shù)據(jù)：包括收集智能體框架和工具、自動(dòng)合成單步及多步工具調(diào)用任務(wù)、生成工具調(diào)用軌跡并轉(zhuǎn)換為多輪對(duì)話，以及通過(guò)多評(píng)判代理篩選保留高質(zhì)量任務(wù)軌跡，確保訓(xùn)練數(shù)據(jù)的多樣性與實(shí)用性。

SFT之后，GLM-4.5又進(jìn)行了強(qiáng)化學(xué)習(xí)訓(xùn)練。推理強(qiáng)化學(xué)習(xí)（Reasoning RL）重點(diǎn)針對(duì)數(shù)學(xué)、代碼和科學(xué)等可驗(yàn)證領(lǐng)域，采用了難度分級(jí)的課程學(xué)習(xí)。因?yàn)樵缙谟?xùn)練時(shí)，模型能力較弱，過(guò)難數(shù)據(jù)則會(huì)導(dǎo)致獎(jiǎng)勵(lì)全為0，無(wú)法有效從數(shù)據(jù)中學(xué)習(xí)。分級(jí)學(xué)習(xí)后，模型學(xué)習(xí)效率得到了提升。

GLM-4.5模型還直接在最大輸出長(zhǎng)度（64K）上進(jìn)行單階段RL，這樣能維持在SFT階段獲得的長(zhǎng)上下文能力。智譜還發(fā)現(xiàn)，在編程強(qiáng)化學(xué)習(xí)中，損失計(jì)算方式對(duì)訓(xùn)練效率影響顯著。采用基于token加權(quán)的平均損失比傳統(tǒng)的序列均值損失效果更好，可提供更細(xì)粒度穩(wěn)定的梯度信號(hào)，加快收斂速度，并有效緩解長(zhǎng)度偏差和避免訓(xùn)練中生成過(guò)于簡(jiǎn)單重復(fù)樣本。

在科學(xué)領(lǐng)域的強(qiáng)化學(xué)習(xí)中，數(shù)據(jù)質(zhì)量和類型尤為關(guān)鍵。GPQA-Diamond基準(zhǔn)測(cè)試顯示，僅用專家驗(yàn)證的多選題進(jìn)行強(qiáng)化學(xué)習(xí)，效果明顯優(yōu)于使用混合質(zhì)量或未經(jīng)驗(yàn)證的數(shù)據(jù)，凸顯嚴(yán)格過(guò)濾高質(zhì)量數(shù)據(jù)的重要性。

智能體強(qiáng)化學(xué)習(xí)（Agentic RL）則聚焦網(wǎng)頁(yè)搜索和代碼生成智能體，利用可自動(dòng)驗(yàn)證的獎(jiǎng)勵(lì)信號(hào)實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的Scaling。為進(jìn)一步提升強(qiáng)化訓(xùn)練的效率，GLM-4.5團(tuán)隊(duì)還采用了迭代自蒸餾提升技術(shù)，也就是在強(qiáng)化學(xué)習(xí)訓(xùn)練一定步驟或達(dá)到平臺(tái)期后，用強(qiáng)化學(xué)習(xí)模型生成的響應(yīng)替換原始冷啟動(dòng)數(shù)據(jù)，形成更優(yōu)的SFT模型，再對(duì)其繼續(xù)強(qiáng)化學(xué)習(xí)。

該團(tuán)隊(duì)還觀察到，在智能體任務(wù)中，隨著與環(huán)境交互輪數(shù)的增加，模型性能顯著提升。與常見(jiàn)的使用更多token進(jìn)行推理，實(shí)現(xiàn)性能提升不同，智能體任務(wù)利用測(cè)試時(shí)計(jì)算資源持續(xù)與環(huán)境交互，實(shí)現(xiàn)性能提升。例如反復(fù)搜索難以獲取的網(wǎng)頁(yè)信息，或?yàn)榫幋a任務(wù)編寫(xiě)測(cè)試用例以進(jìn)行自我驗(yàn)證和自我修正。智能體任務(wù)的準(zhǔn)確率隨著測(cè)試時(shí)計(jì)算資源的增加而平滑提升。

▲GLM-4.5在網(wǎng)頁(yè)搜索智能體評(píng)測(cè)集BrowseComp上的性能，隨著交互次數(shù)提升而變化（圖源：GLM-4.5技術(shù)報(bào)告）

通用強(qiáng)化學(xué)習(xí)（General RL）融合規(guī)則反饋、人類反饋和模型反饋等多源獎(jiǎng)勵(lì)體系，提升模型整體能力。包括使用指令遵循RL，減少獎(jiǎng)勵(lì)作弊，確保穩(wěn)定進(jìn)步；函數(shù)調(diào)用RL分為逐步規(guī)則和端到端多輪兩種方式，提升工具調(diào)用的準(zhǔn)確性和自主規(guī)劃能力；異常行為RL通過(guò)針對(duì)性數(shù)據(jù)集高效減少低頻錯(cuò)誤。

強(qiáng)化學(xué)習(xí)訓(xùn)練中，智譜使用了其自研并開(kāi)源的基礎(chǔ)設(shè)施框架Slime，針對(duì)靈活性、效率和可擴(kuò)展性進(jìn)行了多項(xiàng)關(guān)鍵優(yōu)化。其最大特點(diǎn)是在同一套統(tǒng)一系統(tǒng)中，同時(shí)支持靈活的訓(xùn)練模式和數(shù)據(jù)生成策略，以滿足不同RL任務(wù)的差異化需求。同步共置模式適用于通用RL任務(wù)或增強(qiáng)模型推理能力，可顯著減少GPU空閑時(shí)間并最大化資源利用率。異步分離模式適用于軟件工程（SWE）等智能體任務(wù)，可實(shí)現(xiàn)訓(xùn)練與推理GPU獨(dú)立調(diào)度，利用Ray框架靈活分配資源，使智能體環(huán)境能持續(xù)生成數(shù)據(jù)而不被訓(xùn)練周期阻塞。

為了提升RL訓(xùn)練中的數(shù)據(jù)生成效率，GLM-4.5在訓(xùn)練階段采用BF16精度，而在推理階段使用FP8 精度進(jìn)行混合精度推理加速。具體做法是在每次策略更新迭代時(shí)，對(duì)模型參數(shù)執(zhí)行在線分塊FP8量化，再將其派發(fā)至Rollout階段，從而實(shí)現(xiàn)高效的FP8推理，大幅提升數(shù)據(jù)收集的吞吐量。這種優(yōu)化有效緩解了Rollout階段的性能瓶頸，讓數(shù)據(jù)生成速度與訓(xùn)練節(jié)奏更好匹配。

針對(duì)智能體任務(wù)中Rollout過(guò)程耗時(shí)長(zhǎng)、環(huán)境交互復(fù)雜的問(wèn)題，該團(tuán)隊(duì)構(gòu)建了全異步、解耦式 RL基礎(chǔ)設(shè)施。系統(tǒng)通過(guò)高并發(fā)Docker運(yùn)行環(huán)境為每個(gè)任務(wù)提供隔離環(huán)境，減少Rollout開(kāi)銷；并將GPU分為Rollout引擎與訓(xùn)練引擎，前者持續(xù)生成軌跡，后者更新模型并定期同步權(quán)重，避免長(zhǎng)或多樣化軌跡阻塞訓(xùn)練流程。此外，智譜還引入統(tǒng)一的HTTP接口與集中式數(shù)據(jù)池，兼容多種智能體框架并保持訓(xùn)練與推理一致性，所有軌跡集中存儲(chǔ)，支持定制化過(guò)濾與動(dòng)態(tài)采樣，確保不同任務(wù)下RL訓(xùn)練數(shù)據(jù)的質(zhì)量與多樣性。

三、進(jìn)行12項(xiàng)核心基準(zhǔn)測(cè)試，編程任務(wù)完成率接近Claude

智譜對(duì)多款GLM-4.5模型的性能進(jìn)行了測(cè)試。

未經(jīng)過(guò)指令微調(diào)的基礎(chǔ)模型GLM-4.5-Base在英語(yǔ)、代碼、數(shù)學(xué)和中文等不同基準(zhǔn)測(cè)試中表現(xiàn)穩(wěn)定，較好地融合了各領(lǐng)域能力。

GLM-4.5還進(jìn)行了12項(xiàng)ARC基準(zhǔn)測(cè)試，分別為MMLU-Pro、AIME24、MATH-500、SciCode、GPQA、HLE、LCB(2407-2501)、SWE-BenchVerified、Terminal-Bench、TAU-Bench、BFCLV3、BrowseComp。

在智能體領(lǐng)域，基準(zhǔn)測(cè)試主要考查了模型調(diào)用用戶自定義函數(shù)以回答用戶查詢的能力和在復(fù)雜問(wèn)題中找到正確答案的能力。GLM-4.5在四項(xiàng)測(cè)試中的得分與平均分位列參與測(cè)試的模型前列，平均分僅次于OpenAI o3。

推理方面，智譜的測(cè)試集包括數(shù)學(xué)和科學(xué)知識(shí)等。GLM-4.5在AIME24和SciCode上優(yōu)于OpenAI o3；整體平均表現(xiàn)超過(guò)了Claude Opus 4，并且接近DeepSeek-R1-0528。

編程方面的基準(zhǔn)測(cè)試側(cè)重考驗(yàn)?zāi)Ｐ驮谡鎸?shí)世界編程任務(wù)上的能力。在SWE-bench Verified上，GLM-4.5 的表現(xiàn)優(yōu)于GPT-4.1和Gemini-2.5-Pro；在Terminal-Bench上優(yōu)于 Claude Sonnet 4。

為評(píng)估GLM-4.5在真實(shí)場(chǎng)景下的智能體編程能力，該團(tuán)隊(duì)構(gòu)建了CC-Bench基準(zhǔn)，評(píng)估主要依據(jù)任務(wù)完成率（根據(jù)預(yù)先設(shè)定的完成標(biāo)準(zhǔn)判斷），若結(jié)果相同，則參考次要指標(biāo)如工具調(diào)用成功率和Token消耗效率。評(píng)估優(yōu)先關(guān)注功能正確性與任務(wù)完成，而非效率指標(biāo)。

測(cè)試結(jié)果如下：

GLM-4.5 vs Claude 4 Sonnet：勝率40.4%，平局9.6%，敗率50.0%。

GLM-4.5 vs Kimi K2：勝率53.9%，平局17.3%，敗率28.8%。

GLM-4.5 vs Qwen3-Coder：勝率80.8%，平局7.7%，敗率11.5%。

智譜還在技術(shù)報(bào)告中分享了GLM-4.5在通用能力、安全、翻譯、實(shí)際上手體驗(yàn)方面的特點(diǎn)。

結(jié)語(yǔ)：中國(guó)開(kāi)源AI生態(tài)蓬勃

有越來(lái)越多的企業(yè)正采取模型權(quán)重開(kāi)源+詳細(xì)技術(shù)報(bào)告的開(kāi)源模式，這種方式不僅能讓企業(yè)第一時(shí)間用上開(kāi)源模型，還能讓大模型玩家們從彼此的研究成果中借鑒，并獲得下一次技術(shù)突破的靈感。

在DeepSeek現(xiàn)象之后，國(guó)內(nèi)AI企業(yè)通過(guò)密集的開(kāi)源，已經(jīng)逐漸形成了良性的國(guó)產(chǎn)開(kāi)源AI生態(tài)，有多家企業(yè)在其他開(kāi)源模型的研究成果上完成了創(chuàng)新。這種集體式的創(chuàng)新，或許有助于推動(dòng)國(guó)產(chǎn)大模型獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.