智東西
編譯 陳駿達(dá)
編輯 云鵬
智東西8月11日?qǐng)?bào)道,近日,智譜發(fā)布了其最新一代旗艦?zāi)P虶LM-4.5的完整技術(shù)報(bào)告。GLM-4.5融合了推理、編程和智能體能力,并在上述場(chǎng)景的12項(xiàng)基準(zhǔn)測(cè)試中,綜合性能取得了發(fā)布之際的全球開(kāi)源模型SOTA(即排名第一)、國(guó)產(chǎn)模型第一、全球模型第三的成績(jī),發(fā)布后不到48小時(shí),便登頂開(kāi)源平臺(tái)Hugging Face趨勢(shì)榜第一。
智東西此前已對(duì)GLM-4.5的能力進(jìn)行了介紹與測(cè)試,在技術(shù)報(bào)告中,智譜進(jìn)一步分享了這款模型在預(yù)訓(xùn)練、中期訓(xùn)練和后訓(xùn)練階段進(jìn)行的創(chuàng)新。
GLM-4.5借鑒了部分DeepSeek-V3架構(gòu),但縮小了模型的寬度,增加了模型深度,從而提升模型的推理能力。在傳統(tǒng)的預(yù)訓(xùn)練和后訓(xùn)練之外,智譜引入了中期訓(xùn)練,并在這一階段提升了模型在理解代碼倉(cāng)庫(kù)、推理、長(zhǎng)上下文與智能體3個(gè)場(chǎng)景的性能。
后訓(xùn)練階段,GLM-4.5進(jìn)行了有監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí),其強(qiáng)化學(xué)習(xí)針對(duì)推理、智能體和通用場(chǎng)景分別進(jìn)行了訓(xùn)練,還使用了智譜自研并開(kāi)源的基礎(chǔ)設(shè)施框架Slime,進(jìn)一步提升了強(qiáng)化學(xué)習(xí)的效率。
在多項(xiàng)基準(zhǔn)測(cè)試中,GLM-4.5與DeepSeek-R1-0528、Kimi K2、OpenAI o3、Claude 4 Sonnet等頭部開(kāi)閉源模型處于同一梯隊(duì),并在部分測(cè)試中取得了SOTA。
值得一提的是,智譜還計(jì)劃在今晚開(kāi)源GLM-4.5系列的新模型,名為GLM-4.5V,或?yàn)橐豢钜曈X(jué)模型。
論文鏈接:
https://github.com/zai-org/GLM-4.5/blob/main/resources/GLM_4_5_technical_report.pdf
以下是對(duì)GLM-4.5技術(shù)報(bào)告核心內(nèi)容的梳理:
一、從知識(shí)庫(kù)到求解器,“ARC”成新一代模型重要能力
GLM-4.5團(tuán)隊(duì)提出,大模型正逐漸從“通用知識(shí)庫(kù)”的角色,迅速向“通用問(wèn)題求解器”演進(jìn),目標(biāo)是實(shí)現(xiàn)通用人工智能(AGI)。這意味著,它們不僅要在單一任務(wù)中做到最好,還要像人類一樣具備復(fù)雜問(wèn)題求解、泛化能力和自我提升能力等。
智譜提出了三項(xiàng)關(guān)鍵且相互關(guān)聯(lián)的能力:Agentic能力(與外部工具及現(xiàn)實(shí)世界交互的能力)、復(fù)雜推理能力(解決數(shù)學(xué)、科學(xué)等領(lǐng)域多步驟問(wèn)題的能力)、以及高級(jí)編程能力(應(yīng)對(duì)真實(shí)世界軟件工程任務(wù)的能力),并將其統(tǒng)稱為ARC。
要具備上述能力,數(shù)據(jù)是基礎(chǔ)。GLM-4.5的預(yù)訓(xùn)練數(shù)據(jù)主要包含網(wǎng)頁(yè)、多語(yǔ)言數(shù)據(jù)、代碼、數(shù)學(xué)與科學(xué)等領(lǐng)域,并使用多種方法評(píng)估了數(shù)據(jù)質(zhì)量,并對(duì)高質(zhì)量的數(shù)據(jù)進(jìn)行上采樣(Up-Sampling),即增加這部分?jǐn)?shù)據(jù)在訓(xùn)練集中的出現(xiàn)頻率。
例如,代碼數(shù)據(jù)收集自GitHub和其他代碼托管平臺(tái),先進(jìn)行基于規(guī)則的初步過(guò)濾,再使用針對(duì)不同編程語(yǔ)言的質(zhì)量模型,將數(shù)據(jù)分為高/中/低質(zhì)量,上采樣高質(zhì)量、剔除低質(zhì)量,源代碼數(shù)據(jù)使用Fill-In-the-Middle目標(biāo)訓(xùn)練,能讓模型獲得更好地代碼補(bǔ)全能力。對(duì)于代碼相關(guān)的網(wǎng)頁(yè),GLM-4.5采用通過(guò)雙階段檢索與質(zhì)量評(píng)估篩選,并用細(xì)粒度解析器保留格式與內(nèi)容。
模型架構(gòu)方面,GLM-4.5系列參考DeepSeek-V3,采用了MoE(混合專家)架構(gòu),從而提升了訓(xùn)練和推理的計(jì)算效率。對(duì)于MoE層,GLM-4.5引入了無(wú)損平衡路由(loss-free balance routing)和sigmoid門控機(jī)制。同時(shí),GLM-4.5系列還擁有更小的模型寬度(隱藏維度和路由專家數(shù)量),更大的模型深度,這種調(diào)整能提升模型的推理能力。
在自注意力模塊中,GLM-4.5系列采用了分組查詢注意力(Grouped-Query Attention)并結(jié)合部分RoPE(旋轉(zhuǎn)位置編碼)。智譜將注意力頭的數(shù)量提升到原來(lái)的2.5倍(96個(gè)注意力頭)。有趣的是,雖然增加注意力頭數(shù)量并未帶來(lái)比少頭模型更低的訓(xùn)練損失,但模型在MMLU和BBH等推理類基準(zhǔn)測(cè)試上的表現(xiàn)得到提升。
▲GLM-4.5系列模型與DeepSeek-V3、Kimi K2在架構(gòu)方面的區(qū)別(圖源:GLM-4.5技術(shù)報(bào)告)
GLM-4.5還使用了QK-Norm技術(shù),用于穩(wěn)定注意力logits的取值范圍,可以防止注意力過(guò)度集中或過(guò)于分散,改善模型在長(zhǎng)序列或復(fù)雜任務(wù)上的表現(xiàn)。同時(shí),GLM-4.5系列均在 MTP(多Token預(yù)測(cè))層中加入了一個(gè)MoE層,以支持推理階段的推測(cè)式解碼,提升推理速度和質(zhì)量。
預(yù)訓(xùn)練完成后,GLM-4.5還經(jīng)歷了一個(gè)“中期訓(xùn)練”階段,采用中等規(guī)模的領(lǐng)域特定數(shù)據(jù)集,主要在3個(gè)場(chǎng)景提升模型性能:
(1)倉(cāng)庫(kù)級(jí)代碼訓(xùn)練:通過(guò)拼接同一倉(cāng)庫(kù)的多個(gè)代碼文件及相關(guān)開(kāi)發(fā)記錄,幫助模型理解跨文件依賴和軟件工程實(shí)際場(chǎng)景,提升代碼理解與生成能力,同時(shí)通過(guò)加長(zhǎng)序列支持大型項(xiàng)目。
(2)合成推理數(shù)據(jù)訓(xùn)練:利用數(shù)學(xué)、科學(xué)和編程競(jìng)賽題目及答案,結(jié)合推理模型合成推理過(guò)程數(shù)據(jù),增強(qiáng)模型的復(fù)雜邏輯推理和問(wèn)題解決能力。
(3)長(zhǎng)上下文與智能體訓(xùn)練:通過(guò)擴(kuò)展序列長(zhǎng)度和上采樣長(zhǎng)文檔,加強(qiáng)模型對(duì)超長(zhǎng)文本的理解與生成能力,并加入智能體軌跡數(shù)據(jù),提升模型在交互和多步?jīng)Q策任務(wù)中的表現(xiàn)。
▲GLM-4.5的預(yù)訓(xùn)練與中期訓(xùn)練階段(圖源:GLM-4.5技術(shù)報(bào)告)
二、兩步走完成后訓(xùn)練,自研開(kāi)源基礎(chǔ)設(shè)施框架立功
GLM-4.5團(tuán)隊(duì)將模型后訓(xùn)練劃分為兩個(gè)階段,在階段一(專家訓(xùn)練)中,該團(tuán)隊(duì)打造了專注于推理、智能體和通用對(duì)話這3個(gè)領(lǐng)域的專家模型。在階段二(統(tǒng)一訓(xùn)練)中,該團(tuán)隊(duì)采用自我蒸餾技術(shù)將多個(gè)專家模型整合,最終產(chǎn)出一個(gè)融合推理與非推理兩種模式的綜合模型。
在上述兩個(gè)階段中,GLM-4.5都經(jīng)歷了有監(jiān)督微調(diào)(SFT)。
專家訓(xùn)練中,SFT使用帶有思維鏈的小規(guī)模數(shù)據(jù)集,對(duì)專家模型進(jìn)行基礎(chǔ)能力的預(yù)訓(xùn)練,確保模型在進(jìn)入強(qiáng)化學(xué)習(xí)前具備必要的推理和工具使用能力。
整體SFT中,GLM-4.5利用數(shù)百萬(wàn)涵蓋多領(lǐng)域任務(wù)(推理、通用對(duì)話、智能體任務(wù)及長(zhǎng)上下文理解)的樣本,基于128K上下文長(zhǎng)度的基礎(chǔ)模型進(jìn)行訓(xùn)練。通過(guò)從多個(gè)專家模型輸出中蒸餾知識(shí),模型學(xué)會(huì)在不同任務(wù)中靈活應(yīng)用推理,同時(shí)兼顧部分不需復(fù)雜推理的場(chǎng)景,支持反思和即時(shí)響應(yīng)兩種工作模式,形成混合推理能力。
在SFT過(guò)程中,GLM-4.5團(tuán)隊(duì)采用了幾種方式,以提升訓(xùn)練效果:
(1)減少函數(shù)調(diào)用模板中的字符轉(zhuǎn)義:針對(duì)函數(shù)調(diào)用參數(shù)中代碼大量轉(zhuǎn)義帶來(lái)的學(xué)習(xí)負(fù)擔(dān),提出用XML風(fēng)格特殊標(biāo)記包裹鍵值的新模板,大幅降低轉(zhuǎn)義需求,同時(shí)保持函數(shù)調(diào)用性能不變。
(2)拒絕采樣(Rejection Sampling):設(shè)計(jì)了多階段過(guò)濾流程,去除重復(fù)、無(wú)效或格式不符的樣本,驗(yàn)證客觀答案正確性,利用獎(jiǎng)勵(lì)模型篩選主觀回答,并確保工具調(diào)用場(chǎng)景符合規(guī)范且軌跡完整。
(3)提示選擇與回復(fù)長(zhǎng)度調(diào)整:通過(guò)剔除較短的提示樣本,提升數(shù)學(xué)和科學(xué)任務(wù)表現(xiàn)2%-4%;對(duì)難度較高的提示詞進(jìn)行回復(fù)長(zhǎng)度的調(diào)整,并生成多條回復(fù),進(jìn)一步帶來(lái)1%-2%的性能提升。
(4)自動(dòng)構(gòu)建智能體SFT數(shù)據(jù):包括收集智能體框架和工具、自動(dòng)合成單步及多步工具調(diào)用任務(wù)、生成工具調(diào)用軌跡并轉(zhuǎn)換為多輪對(duì)話,以及通過(guò)多評(píng)判代理篩選保留高質(zhì)量任務(wù)軌跡,確保訓(xùn)練數(shù)據(jù)的多樣性與實(shí)用性。
SFT之后,GLM-4.5又進(jìn)行了強(qiáng)化學(xué)習(xí)訓(xùn)練。推理強(qiáng)化學(xué)習(xí)(Reasoning RL)重點(diǎn)針對(duì)數(shù)學(xué)、代碼和科學(xué)等可驗(yàn)證領(lǐng)域,采用了難度分級(jí)的課程學(xué)習(xí)。因?yàn)樵缙谟?xùn)練時(shí),模型能力較弱,過(guò)難數(shù)據(jù)則會(huì)導(dǎo)致獎(jiǎng)勵(lì)全為0,無(wú)法有效從數(shù)據(jù)中學(xué)習(xí)。分級(jí)學(xué)習(xí)后,模型學(xué)習(xí)效率得到了提升。
GLM-4.5模型還直接在最大輸出長(zhǎng)度(64K)上進(jìn)行單階段RL,這樣能維持在SFT階段獲得的長(zhǎng)上下文能力。智譜還發(fā)現(xiàn),在編程強(qiáng)化學(xué)習(xí)中,損失計(jì)算方式對(duì)訓(xùn)練效率影響顯著。采用基于token加權(quán)的平均損失比傳統(tǒng)的序列均值損失效果更好,可提供更細(xì)粒度穩(wěn)定的梯度信號(hào),加快收斂速度,并有效緩解長(zhǎng)度偏差和避免訓(xùn)練中生成過(guò)于簡(jiǎn)單重復(fù)樣本。
在科學(xué)領(lǐng)域的強(qiáng)化學(xué)習(xí)中,數(shù)據(jù)質(zhì)量和類型尤為關(guān)鍵。GPQA-Diamond基準(zhǔn)測(cè)試顯示,僅用專家驗(yàn)證的多選題進(jìn)行強(qiáng)化學(xué)習(xí),效果明顯優(yōu)于使用混合質(zhì)量或未經(jīng)驗(yàn)證的數(shù)據(jù),凸顯嚴(yán)格過(guò)濾高質(zhì)量數(shù)據(jù)的重要性。
智能體強(qiáng)化學(xué)習(xí)(Agentic RL)則聚焦網(wǎng)頁(yè)搜索和代碼生成智能體,利用可自動(dòng)驗(yàn)證的獎(jiǎng)勵(lì)信號(hào)實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的Scaling。為進(jìn)一步提升強(qiáng)化訓(xùn)練的效率,GLM-4.5團(tuán)隊(duì)還采用了迭代自蒸餾提升技術(shù),也就是在強(qiáng)化學(xué)習(xí)訓(xùn)練一定步驟或達(dá)到平臺(tái)期后,用強(qiáng)化學(xué)習(xí)模型生成的響應(yīng)替換原始冷啟動(dòng)數(shù)據(jù),形成更優(yōu)的SFT模型,再對(duì)其繼續(xù)強(qiáng)化學(xué)習(xí)。
該團(tuán)隊(duì)還觀察到,在智能體任務(wù)中,隨著與環(huán)境交互輪數(shù)的增加,模型性能顯著提升。與常見(jiàn)的使用更多token進(jìn)行推理,實(shí)現(xiàn)性能提升不同,智能體任務(wù)利用測(cè)試時(shí)計(jì)算資源持續(xù)與環(huán)境交互,實(shí)現(xiàn)性能提升。例如反復(fù)搜索難以獲取的網(wǎng)頁(yè)信息,或?yàn)榫幋a任務(wù)編寫(xiě)測(cè)試用例以進(jìn)行自我驗(yàn)證和自我修正。智能體任務(wù)的準(zhǔn)確率隨著測(cè)試時(shí)計(jì)算資源的增加而平滑提升。
▲GLM-4.5在網(wǎng)頁(yè)搜索智能體評(píng)測(cè)集BrowseComp上的性能,隨著交互次數(shù)提升而變化(圖源:GLM-4.5技術(shù)報(bào)告)
通用強(qiáng)化學(xué)習(xí)(General RL)融合規(guī)則反饋、人類反饋和模型反饋等多源獎(jiǎng)勵(lì)體系,提升模型整體能力。包括使用指令遵循RL,減少獎(jiǎng)勵(lì)作弊,確保穩(wěn)定進(jìn)步;函數(shù)調(diào)用RL分為逐步規(guī)則和端到端多輪兩種方式,提升工具調(diào)用的準(zhǔn)確性和自主規(guī)劃能力;異常行為RL通過(guò)針對(duì)性數(shù)據(jù)集高效減少低頻錯(cuò)誤。
強(qiáng)化學(xué)習(xí)訓(xùn)練中,智譜使用了其自研并開(kāi)源的基礎(chǔ)設(shè)施框架Slime,針對(duì)靈活性、效率和可擴(kuò)展性進(jìn)行了多項(xiàng)關(guān)鍵優(yōu)化。其最大特點(diǎn)是在同一套統(tǒng)一系統(tǒng)中,同時(shí)支持靈活的訓(xùn)練模式和數(shù)據(jù)生成策略,以滿足不同RL任務(wù)的差異化需求。同步共置模式適用于通用RL任務(wù)或增強(qiáng)模型推理能力,可顯著減少GPU空閑時(shí)間并最大化資源利用率。異步分離模式適用于軟件工程(SWE)等智能體任務(wù),可實(shí)現(xiàn)訓(xùn)練與推理GPU獨(dú)立調(diào)度,利用Ray框架靈活分配資源,使智能體環(huán)境能持續(xù)生成數(shù)據(jù)而不被訓(xùn)練周期阻塞。
為了提升RL訓(xùn)練中的數(shù)據(jù)生成效率,GLM-4.5在訓(xùn)練階段采用BF16精度,而在推理階段使用FP8 精度進(jìn)行混合精度推理加速。具體做法是在每次策略更新迭代時(shí),對(duì)模型參數(shù)執(zhí)行在線分塊FP8量化,再將其派發(fā)至Rollout階段,從而實(shí)現(xiàn)高效的FP8推理,大幅提升數(shù)據(jù)收集的吞吐量。這種優(yōu)化有效緩解了Rollout階段的性能瓶頸,讓數(shù)據(jù)生成速度與訓(xùn)練節(jié)奏更好匹配。
針對(duì)智能體任務(wù)中Rollout過(guò)程耗時(shí)長(zhǎng)、環(huán)境交互復(fù)雜的問(wèn)題,該團(tuán)隊(duì)構(gòu)建了全異步、解耦式 RL基礎(chǔ)設(shè)施。系統(tǒng)通過(guò)高并發(fā)Docker運(yùn)行環(huán)境為每個(gè)任務(wù)提供隔離環(huán)境,減少Rollout開(kāi)銷;并將GPU分為Rollout引擎與訓(xùn)練引擎,前者持續(xù)生成軌跡,后者更新模型并定期同步權(quán)重,避免長(zhǎng)或多樣化軌跡阻塞訓(xùn)練流程。此外,智譜還引入統(tǒng)一的HTTP接口與集中式數(shù)據(jù)池,兼容多種智能體框架并保持訓(xùn)練與推理一致性,所有軌跡集中存儲(chǔ),支持定制化過(guò)濾與動(dòng)態(tài)采樣,確保不同任務(wù)下RL訓(xùn)練數(shù)據(jù)的質(zhì)量與多樣性。
三、進(jìn)行12項(xiàng)核心基準(zhǔn)測(cè)試,編程任務(wù)完成率接近Claude
智譜對(duì)多款GLM-4.5模型的性能進(jìn)行了測(cè)試。
未經(jīng)過(guò)指令微調(diào)的基礎(chǔ)模型GLM-4.5-Base在英語(yǔ)、代碼、數(shù)學(xué)和中文等不同基準(zhǔn)測(cè)試中表現(xiàn)穩(wěn)定,較好地融合了各領(lǐng)域能力。
GLM-4.5還進(jìn)行了12項(xiàng)ARC基準(zhǔn)測(cè)試,分別為MMLU-Pro、AIME24、MATH-500、SciCode、GPQA、HLE、LCB(2407-2501)、SWE-BenchVerified、Terminal-Bench、TAU-Bench、BFCLV3、BrowseComp。
在智能體領(lǐng)域,基準(zhǔn)測(cè)試主要考查了模型調(diào)用用戶自定義函數(shù)以回答用戶查詢的能力和在復(fù)雜問(wèn)題中找到正確答案的能力。GLM-4.5在四項(xiàng)測(cè)試中的得分與平均分位列參與測(cè)試的模型前列,平均分僅次于OpenAI o3。
推理方面,智譜的測(cè)試集包括數(shù)學(xué)和科學(xué)知識(shí)等。GLM-4.5在AIME24和SciCode上優(yōu)于OpenAI o3;整體平均表現(xiàn)超過(guò)了Claude Opus 4,并且接近DeepSeek-R1-0528。
編程方面的基準(zhǔn)測(cè)試側(cè)重考驗(yàn)?zāi)P驮谡鎸?shí)世界編程任務(wù)上的能力。在SWE-bench Verified上,GLM-4.5 的表現(xiàn)優(yōu)于GPT-4.1和Gemini-2.5-Pro;在Terminal-Bench上優(yōu)于 Claude Sonnet 4。
為評(píng)估GLM-4.5在真實(shí)場(chǎng)景下的智能體編程能力,該團(tuán)隊(duì)構(gòu)建了CC-Bench基準(zhǔn),評(píng)估主要依據(jù)任務(wù)完成率(根據(jù)預(yù)先設(shè)定的完成標(biāo)準(zhǔn)判斷),若結(jié)果相同,則參考次要指標(biāo)如工具調(diào)用成功率和Token消耗效率。評(píng)估優(yōu)先關(guān)注功能正確性與任務(wù)完成,而非效率指標(biāo)。
測(cè)試結(jié)果如下:
GLM-4.5 vs Claude 4 Sonnet:勝率40.4%,平局9.6%,敗率50.0%。
GLM-4.5 vs Kimi K2:勝率53.9%,平局17.3%,敗率28.8%。
GLM-4.5 vs Qwen3-Coder:勝率80.8%,平局7.7%,敗率11.5%。
智譜還在技術(shù)報(bào)告中分享了GLM-4.5在通用能力、安全、翻譯、實(shí)際上手體驗(yàn)方面的特點(diǎn)。
結(jié)語(yǔ):中國(guó)開(kāi)源AI生態(tài)蓬勃
有越來(lái)越多的企業(yè)正采取模型權(quán)重開(kāi)源+詳細(xì)技術(shù)報(bào)告的開(kāi)源模式,這種方式不僅能讓企業(yè)第一時(shí)間用上開(kāi)源模型,還能讓大模型玩家們從彼此的研究成果中借鑒,并獲得下一次技術(shù)突破的靈感。
在DeepSeek現(xiàn)象之后,國(guó)內(nèi)AI企業(yè)通過(guò)密集的開(kāi)源,已經(jīng)逐漸形成了良性的國(guó)產(chǎn)開(kāi)源AI生態(tài),有多家企業(yè)在其他開(kāi)源模型的研究成果上完成了創(chuàng)新。這種集體式的創(chuàng)新,或許有助于推動(dòng)國(guó)產(chǎn)大模型獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.