夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GLM-4.5V 是怎么煉成的|深度拆解

0
分享至

昨晚,GLM-4.5V 發(fā)布
開源多模態(tài)這一賽道,把桌子掀了

實(shí)際用起來,也很不錯(cuò)


比如我問問它:這是哪完全正確!這張就是我在柔佛的上空拍的ahhhhhhhhhh 他找到了!原圖是這個(gè),反正我一眼沒看出來

下面,我們一起來看看 GLM-4.5V,是如何訓(xùn)練的

劃重點(diǎn):以推理為中心

本文將從性能、架構(gòu)、預(yù)訓(xùn)練后訓(xùn)練(監(jiān)督微調(diào)+強(qiáng)化學(xué)習(xí))四個(gè)緯度來拆解,所用圖表、數(shù)據(jù)源于技術(shù)報(bào)告:《GLM-4.1V-Thinking and GLM-4.5V Technical Report


GLM-4.5V 的技術(shù)報(bào)告

性能

在多模態(tài)理解和推理上,GLM-4.5V 比起之前模型,大幅提升


GLM-4.5 對比 之前的模型

在上圖中,GLM-4.5V 于STEM、空間推理GUI Agent、OCR與文檔代碼、視頻理解、視覺定位通用VQA等領(lǐng)域,全面超越了前代模型

GLM-4.5V 的背后,是強(qiáng)化學(xué)習(xí)(RL)框架


經(jīng)過強(qiáng)化學(xué)習(xí),模型提升不少

在RL后,編碼(Coding)任務(wù)上增益高達(dá)+10.6%,在 STEM 問題上也獲得了+6.7%的提升

下面這個(gè)圖,則是更全面的對比


GLM-4.5 vs Step-3、Qwen2.5-VL、Kimi-VL..

GLM-4.5V 在MMStar(75.3)、MMMU Pro(65.2)、MathVista(84.6)、ChartQAPro (64.0)和 **WebVoyager **(84.4) 等幾乎所有高難度任務(wù)上,均取得了最佳成績

架構(gòu)

GLM-4.5V 的架構(gòu)設(shè)計(jì),圍繞“原生多模態(tài)、高分辨率、強(qiáng)時(shí)序理解”三個(gè)目標(biāo)

這背后,是視覺編碼器(ViT Encoder)、MLP 投影層(MLP Projector) 和語言解碼器(LLM Decoder) 三個(gè)組件


GLM-4.5V 的架構(gòu)

視覺編碼器
基于AIMv2-Huge初始化,通過引入2D-ROPE3D 卷積,使其能夠原生處理任意分辨率的圖像和視頻,并有效捕捉時(shí)序信息

語言解碼器
基于GLM-4.5-Air,通過擴(kuò)展3D-RoPE,增強(qiáng)了對多模態(tài)輸入中空間位置的理解能力

原生時(shí)序理解
在處理視頻時(shí),模型會在每一幀的視覺特征后插入一個(gè)時(shí)間戳 Token,讓模型明確感知到幀與幀之間的真實(shí)時(shí)間間隔,極大地提升了視頻理解和定位的準(zhǔn)確性

預(yù)訓(xùn)練

GLM-4.5V 的預(yù)訓(xùn)練,分為數(shù)據(jù)構(gòu)建訓(xùn)練范式兩部分

數(shù)據(jù)構(gòu)建

GLM-4.5V 的預(yù)訓(xùn)練語料,涵蓋了多維度數(shù)據(jù),包括:

圖像-文本對數(shù)據(jù)
通過一個(gè)包含啟發(fā)式過濾、CLIP-Score 篩選、概念平衡重采樣和事實(shí)中心化重述 (Factual-centered recaptioning)的精細(xì)化流程,構(gòu)建了超過 100 億對的高質(zhì)量圖文數(shù)據(jù)


圖4: GLM-4.5 vs Step-3、Qwen2.5-VL、Kimi-VL..

如上圖,重述模型能將“一個(gè)北方紅雀在唱歌”這種簡單描述,豐富為“一只北方紅雀棲息在樹枝上,背景是晴朗的藍(lán)天”,在保留事實(shí)的同時(shí),極大地提升了描述的細(xì)節(jié)和信息密度。

交錯(cuò)圖文數(shù)據(jù)
從網(wǎng)頁、學(xué)術(shù)書籍中提取高質(zhì)量的圖文混排內(nèi)容,讓模型學(xué)習(xí)復(fù)雜的邏輯關(guān)系和領(lǐng)域知識

OCR 數(shù)據(jù)
構(gòu)建了包含 2.2 億張圖像的 OCR 數(shù)據(jù)集,涵蓋合成文檔、自然場景文字和學(xué)術(shù)文檔,全面提升文字識別能力

定位數(shù)據(jù) (Grounding Data)
構(gòu)建了包含 4000 萬自然圖像標(biāo)注和超過 1.4 億 GUI 界面問答對的混合定位數(shù)據(jù)集,賦予模型精確的像素級理解能力

視頻數(shù)據(jù)
通過精細(xì)的人工標(biāo)注,構(gòu)建了能夠捕捉復(fù)雜動(dòng)作、場景文字和電影元素的高質(zhì)量視頻數(shù)據(jù)集。

訓(xùn)練范式:兩階段,長上下文

GLM-4.5V 的訓(xùn)練采用兩階段策略:

多模態(tài)預(yù)訓(xùn)練
在 8192 的序列長度下,使用除視頻外的所有數(shù)據(jù)進(jìn)行 12 萬步訓(xùn)練

長上下文持續(xù)訓(xùn)練:將序列長度擴(kuò)展至32,768,并加入視頻數(shù)據(jù),進(jìn)行額外的 1 萬步訓(xùn)練,使模型具備處理高分辨率圖像、長視頻和長文檔的能力

后訓(xùn)練:SFT 與 RL

后訓(xùn)練階段是 GLM-4.5V 提升推理能力的關(guān)鍵,包含有監(jiān)督微調(diào) (SFT)強(qiáng)化學(xué)習(xí) (RL)兩個(gè)步驟

有監(jiān)督微調(diào) (SFT):對齊思維范式

SFT 的目的是對齊模型的思維和表達(dá)方式,使其學(xué)會以“思考鏈 (Chain-of-Thought)”的形式進(jìn)行推理

標(biāo)準(zhǔn)格式
所有訓(xùn)練數(shù)據(jù)都遵循 {思考過程} {最終答案} 的標(biāo)準(zhǔn)格式

答案提取:對于需要精確答案的任務(wù),最終答案用特殊的<|begin_of_box|><|end_of_box|>包裹,便于后續(xù) RL 階段的獎(jiǎng)勵(lì)模型進(jìn)行準(zhǔn)確判斷

雙模態(tài)支持:GLM-4.5V 通過在 SFT 階段混合“思考”與“非思考”數(shù)據(jù),并引入特殊 token/nothink,實(shí)現(xiàn)了可靈活切換的兩種推理模式,兼顧性能與效率

強(qiáng)化學(xué)習(xí) (RL):釋放模型潛能

GLM-4.5V 通過大規(guī)模、跨領(lǐng)域的強(qiáng)化學(xué)習(xí),來提升推理能力

RLCS 課程學(xué)習(xí)采樣
為了提升訓(xùn)練效率,團(tuán)隊(duì)提出了Reinforcement Learning with Curriculum Sampling (RLCS)
該策略能根據(jù)模型的當(dāng)前能力,動(dòng)態(tài)地選擇“難度適中”的訓(xùn)練樣本,避免在過易或過難的問題上浪費(fèi)算力,從而最大化每一步訓(xùn)練的收益。

健壯的獎(jiǎng)勵(lì)系統(tǒng)
RL 的成敗很大程度上取決于獎(jiǎng)勵(lì)信號的質(zhì)量。GLM-4.5V 建立了一個(gè)領(lǐng)域特定的獎(jiǎng)勵(lì)系統(tǒng),為數(shù)學(xué)、OCR、GUI 等不同任務(wù)設(shè)計(jì)了專門的驗(yàn)證邏輯,避免了“獎(jiǎng)勵(lì)黑客 (Reward Hacking)”現(xiàn)象


獎(jiǎng)勵(lì)信號對模型訓(xùn)練的影響

如上圖所示,即使在 STEM 領(lǐng)域有高質(zhì)量的獎(jiǎng)勵(lì)信號,但只要在多圖 VQA 任務(wù)中存在一個(gè)有缺陷的獎(jiǎng)勵(lì)模型,就會導(dǎo)致整個(gè)訓(xùn)練過程在150 步后全面崩潰

這說明,任何一個(gè)短板,都可能成為潰堤蟻穴,對于 RL 訓(xùn)練來說

跨域泛化與協(xié)同
RL 不僅提升了模型在特定領(lǐng)域的能力,還帶來了顯著的跨域泛化效果


RL 的訓(xùn)練,帶來的不同領(lǐng)域的影響

如上圖:在單一領(lǐng)域進(jìn)行 RL 訓(xùn)練,能提升其他領(lǐng)域的能力

例如,僅在 GUI Agent 數(shù)據(jù)上訓(xùn)練,就能帶動(dòng) STEM、OCR、視覺定位和通用 VQA 的性能提升

這說明不同多模態(tài)能力之間存在共享的底層邏輯
而將所有領(lǐng)域數(shù)據(jù)混合訓(xùn)練(Mix All),則能在大多數(shù)領(lǐng)域取得比單領(lǐng)域訓(xùn)練更強(qiáng)的效果,實(shí)現(xiàn)了“1+1 > 2”的協(xié)同增效

以上

GLM-4.5V 的訓(xùn)練,包含以下

  • ?架構(gòu):原生支持高分辨率、長視頻和時(shí)序理解

  • ?預(yù)訓(xùn)練:精細(xì)化的數(shù)據(jù)構(gòu)建和兩階段訓(xùn)練

  • ?SFT:將模型與“思考鏈”的推理范式對齊,為 RL 階段做好了準(zhǔn)備

  • ?RL:通過 RLCS、健壯的獎(jiǎng)勵(lì)系統(tǒng)和跨域訓(xùn)練

以及...蹲后續(xù):GLM-4.5V-355B

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
三位勇士以一身傷痕,為14億人辟出法治生路

三位勇士以一身傷痕,為14億人辟出法治生路

深度報(bào)
2025-11-07 22:56:16
拒絕說明取款用途銀行報(bào)警,最終行長道歉,維權(quán)還得是律師

拒絕說明取款用途銀行報(bào)警,最終行長道歉,維權(quán)還得是律師

Mr王的飯后茶
2025-11-07 11:02:44
開撕!王傳君老板發(fā)聲反擊,言辭犀利,真是一點(diǎn)臉面都不給對方留

開撕!王傳君老板發(fā)聲反擊,言辭犀利,真是一點(diǎn)臉面都不給對方留

喵喵娛樂團(tuán)
2025-11-07 16:31:26
副院長祖雄兵被停職!他口中所謂的“純潔婚外戀”,是自欺欺人

副院長祖雄兵被停職!他口中所謂的“純潔婚外戀”,是自欺欺人

鋭娛之樂
2025-11-07 12:47:00
隊(duì)記質(zhì)疑開拓者:未給楊瀚森創(chuàng)造成功環(huán)境 考沃德更適配目前打法

隊(duì)記質(zhì)疑開拓者:未給楊瀚森創(chuàng)造成功環(huán)境 考沃德更適配目前打法

羅說NBA
2025-11-08 07:45:09
買房驚遇“非正常死亡”事件:房子我不要了,雙倍賠錢!上海法院判了

買房驚遇“非正常死亡”事件:房子我不要了,雙倍賠錢!上海法院判了

環(huán)球網(wǎng)資訊
2025-11-08 08:21:02
開拓者2K評分更新:阿夫迪亞84,克林根漲至80,楊瀚森仍為70

開拓者2K評分更新:阿夫迪亞84,克林根漲至80,楊瀚森仍為70

懂球帝
2025-11-08 09:22:13
代入鄭智化視角去上了個(gè)班,我終于知道:八千萬殘障人士去哪了?

代入鄭智化視角去上了個(gè)班,我終于知道:八千萬殘障人士去哪了?

新住家居
2025-11-07 19:05:12
中國健走團(tuán)攻陷漢江,韓國人炸毛了!

中國健走團(tuán)攻陷漢江,韓國人炸毛了!

天真無牙
2025-11-07 12:52:04
40歲女醫(yī)生曾琦的日常工作被披露!一天“精準(zhǔn)卡點(diǎn)”的戰(zhàn)斗模式…

40歲女醫(yī)生曾琦的日常工作被披露!一天“精準(zhǔn)卡點(diǎn)”的戰(zhàn)斗模式…

火山詩話
2025-11-07 11:46:47
突然崩盤!火箭0-12攻勢被反超:杜蘭特9中3低迷,謝潑德小爆發(fā)

突然崩盤!火箭0-12攻勢被反超:杜蘭特9中3低迷,謝潑德小爆發(fā)

體壇小李
2025-11-08 09:50:16
馬姆達(dá)尼們會毀掉紐約甚至美國么?是的

馬姆達(dá)尼們會毀掉紐約甚至美國么?是的

東亞財(cái)評V
2025-11-07 21:23:14
“DNA之父”詹姆斯·沃森逝世,享年97歲, 因發(fā)現(xiàn)DNA雙螺旋結(jié)構(gòu)獲諾貝爾獎(jiǎng),多次到訪中國,稱贊中國人科研能力很突出

“DNA之父”詹姆斯·沃森逝世,享年97歲, 因發(fā)現(xiàn)DNA雙螺旋結(jié)構(gòu)獲諾貝爾獎(jiǎng),多次到訪中國,稱贊中國人科研能力很突出

極目新聞
2025-11-08 10:46:33
郭美美,一個(gè)“自信而努力”的前科人員

郭美美,一個(gè)“自信而努力”的前科人員

關(guān)爾東
2025-11-07 16:28:15
中方拒買巴西高價(jià)大豆,巴西 3 天就報(bào)復(fù),結(jié)果自己先慌了?

中方拒買巴西高價(jià)大豆,巴西 3 天就報(bào)復(fù),結(jié)果自己先慌了?

阿器談史
2025-11-08 05:34:40
朝鮮網(wǎng)吧開業(yè)人滿為患,都能玩什么游戲?打使命召喚?

朝鮮網(wǎng)吧開業(yè)人滿為患,都能玩什么游戲?打使命召喚?

軍武次位面
2025-11-07 14:52:12
突然爆火!深圳街頭大排長龍!緊急提醒

突然爆火!深圳街頭大排長龍!緊急提醒

深圳晚報(bào)
2025-11-07 22:04:59
后天,廣州部分地鐵站暫停對外服務(wù)!繞行指引→

后天,廣州部分地鐵站暫停對外服務(wù)!繞行指引→

魯中晨報(bào)
2025-11-07 21:39:06
“胸部造型”機(jī)器人惹爭議,小鵬天塌了!

“胸部造型”機(jī)器人惹爭議,小鵬天塌了!

廣告創(chuàng)意
2025-11-07 18:07:23
正式?jīng)Q定!交易克萊!再見了,獨(dú)行俠

正式?jīng)Q定!交易克萊!再見了,獨(dú)行俠

籃球教學(xué)論壇
2025-11-08 09:58:51
2025-11-08 11:24:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
161文章數(shù) 10關(guān)注度
往期回顧 全部

科技要聞

美股“AI八巨頭”單周市值損失8000億美元

頭條要聞

媒體:福建艦入列 中國航母實(shí)力世界第二位置毫無爭議

頭條要聞

媒體:福建艦入列 中國航母實(shí)力世界第二位置毫無爭議

體育要聞

邵佳一準(zhǔn)備好了,但中國足球準(zhǔn)備好了嗎?

娛樂要聞

梁婷為辛芷蕾發(fā)聲:沒什么可質(zhì)疑的

財(cái)經(jīng)要聞

小馬、文遠(yuǎn)回港上市 但自動(dòng)駕駛還沒贏家

汽車要聞

美式豪華就是舒適省心 林肯航海家場地試駕

態(tài)度原創(chuàng)

家居
藝術(shù)
手機(jī)
時(shí)尚
軍事航空

家居要聞

現(xiàn)代自由 功能美學(xué)居所

藝術(shù)要聞

390米!山東日照“第一高樓”,塔吊怎么拆了?!

手機(jī)要聞

iPhone 18被曝全系升級24MP前置鏡頭,折疊屏或首發(fā)24MP屏下方案

“這條圍巾”才是今年的頂流單品,時(shí)髦的女人都有它

軍事要聞

中國第三艘航空母艦福建艦入列

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲 AV 免费在线| 99re无码| 亚洲中文字幕一区| 国产精品揄拍100视频| 中文AV无码AV| 国产日韩精品中文字幕| 国产伦精品无码一区二区三区 | 亚洲天堂AVAV| 女明星黄网站色视频免费国产| 亚洲一二三四区AV| 国产视频一二三| 制服丝袜 亚洲 中文 综合| 亚洲国产大片| 国产亚洲综合欧美视频| 成人在线播放| 国产综合自拍| 三级片一区二区在线| 国产精品99久久久久久成人四虎| 成人白浆超碰人人人人| 国产精品a免费一区久久电影| 日韩欧美猛交xxxxx无码| 亚洲AV成人无码久久精品在现| 九九热在线免费视频播放| 老年人视频日本大香蕉久久| 精品无码久久久久久久四虎| 夜鲁鲁鲁夜夜综合视频| 免费在线视频a| 波多野结衣高清av| 四虎影视国产精品亚洲精品| 无码人妻一区二区三区四区| 国际品视频精品区四区五| 亚洲AV一二三四区| 国产精品无码免费视频| 免费国产午夜理论片不卡| 无码一级毛片一区二区视频孕妇 | 极品国产AV| 色欲AⅤ无码无在线观看| 最新网站你懂得| 亚洲日韩欧美成人| 农村熟女露脸一区| 国产成人手机高清在线观看网站|