新智元報(bào)道
編輯:定慧
【新智元導(dǎo)讀】智譜基于GLM-4.5打造的開(kāi)源多模態(tài)視覺(jué)推理模型GLM-4.5V,在42個(gè)公開(kāi)榜單中41項(xiàng)奪得SOTA!其功能涵蓋圖像、視頻、文檔理解、Grounding、地圖定位、空間關(guān)系推理、UI轉(zhuǎn)Code等。
這半年,多模態(tài)大模型已經(jīng)成為各家的標(biāo)配,但似乎功能都有點(diǎn)趨同,玩起來(lái)都有點(diǎn)膩了。
不過(guò),今晚智譜最新開(kāi)源的GLM-4.5V視覺(jué)推理模型,帶來(lái)了非常多的驚喜!
兩周前,智譜發(fā)布GLM-4.5,這個(gè)融合ARC(Agentic、Reasoning、Coding)能力的模型獲得非常高的關(guān)注。
取得了全球模型第三、國(guó)產(chǎn)模型第一,開(kāi)源模型第一的成績(jī)!
智譜這次乘勝追擊!在GLM-4.5基座之上進(jìn)一步訓(xùn)練出100B級(jí)別最強(qiáng)開(kāi)源多模態(tài)模型,成功在多模態(tài)賽道上占據(jù)一席之地。
GLM-4.5V「看懂世界」的方式,是真的有點(diǎn)東西,而且在智譜最近新推出的z.ai的平臺(tái)上,升級(jí)了很多視覺(jué)多模態(tài)的全新玩法。
比如這次更新后,GLM-4.5V可以玩看圖猜地址GeoGuessr游戲,而且準(zhǔn)確率非常高。
我們?cè)嚵巳危看蔚膰?guó)家和大洲都非常準(zhǔn)確,不過(guò)具體經(jīng)緯度可能還需抽卡。
下面是其中一次測(cè)試,GLM-4.5V可以找到畫(huà)面中的關(guān)鍵元素,配合地理風(fēng)格、建筑風(fēng)格等來(lái)推理出正確結(jié)論。
值得一提的是,智譜還派出GLM-4.5V參加了國(guó)內(nèi)的圖尋游戲挑戰(zhàn),和國(guó)內(nèi)最頂尖的兩萬(wàn)多名人類玩家真實(shí)對(duì)戰(zhàn)。
目前智譜已經(jīng)在全球排名66,而其他都是人類選手。
智譜這次更新的另一個(gè)玩法就是Grounding能力,GLM-4.5V眼神太好,可以在清明上河圖中找到三匹馬(左上角角落),并在圖中做出標(biāo)識(shí)。
GLM-4.5V不僅眼神好,還能理解視頻,而代碼能力又沿襲了它的基座模型GLM-4.5,兩者相加「涌現(xiàn)」出一種全新能力。
那就是,通過(guò)直接上傳視頻也能復(fù)刻網(wǎng)站!
神奇之處在于,GLM-4.5V完全沒(méi)有訓(xùn)練過(guò)「看視頻」前端網(wǎng)頁(yè)復(fù)刻,這個(gè)意外發(fā)現(xiàn)體現(xiàn)了GLM-4.5很強(qiáng)的泛化能力。
我們錄了一個(gè)Github的網(wǎng)站視頻。
GLM-4.5V竟然也可以復(fù)刻個(gè)七七八八。
下圖左邊是原版,右邊是復(fù)刻,大體框架沒(méi)有問(wèn)題,有個(gè)別按鈕的位置,以及時(shí)間線組件被修改為列表等小問(wèn)題。
在實(shí)測(cè)中,我們發(fā)現(xiàn),不論是GeoGuessr看圖挑戰(zhàn)、空間關(guān)系理解、復(fù)雜圖表推理、OCR識(shí)別、做題,甚至可以理解視頻等各個(gè)方面,GLM-4.5V的表現(xiàn)都遠(yuǎn)超預(yù)期。
GLM-4.5V一手實(shí)測(cè)
GLM-4.5V基于智譜發(fā)布的新一代旗艦文本基座模型GLM-4.5-Air,沿用了GLM-4.1V-Thinking的結(jié)構(gòu)。
其中,GLM-4.1V-Thinking 7月上線后就登上了HuggingFace Trending第一,模型已獲得累計(jì)超過(guò)13萬(wàn)次下載。
Github:
https://github.com/zai-org/GLM-V
Hugging Face:
https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
魔搭社區(qū):
https://modelscope.cn/collections/GLM-45V-8b471c8f97154e
GLM-4.1V-Thinking是一個(gè)小參數(shù)模型,而全新的GLM-4.5V擁有106B總參數(shù),12B的激活參數(shù)。
可以說(shuō),GLM-4.5V是100B參數(shù)這個(gè)「重量級(jí)」的SOTA標(biāo)桿,現(xiàn)已經(jīng)登錄官網(wǎng)。
GLM-4.5V實(shí)測(cè)了42個(gè)公開(kāi)視覺(jué)多模態(tài)榜單,在其中41個(gè)榜單中,達(dá)到同級(jí)別開(kāi)源模型的SOTA性能,涵蓋圖像、視頻、文檔理解以及GUIAgent等常見(jiàn)任務(wù)。
GLM-4.5V這次升級(jí)了很多玩法,實(shí)現(xiàn)全場(chǎng)景視覺(jué)推理覆蓋,比如:
圖像推理(場(chǎng)景理解、復(fù)雜多圖分析、位置識(shí)別)
視頻理解(長(zhǎng)視頻分鏡分析、事件識(shí)別)
GUI任務(wù)(屏幕讀取、圖標(biāo)識(shí)別、桌面操作輔助)
復(fù)雜圖表與長(zhǎng)文檔解析(研報(bào)分析、信息提?。?/p>
Grounding能力(精準(zhǔn)定位視覺(jué)元素)
此次更新,模型新增「思考模式」開(kāi)關(guān),可以自行決定是否啟用推理功能。
體驗(yàn)網(wǎng)站:https://chat.z.ai/
此外,繼上次GLM-4.5「V50包月」活動(dòng),這次GLM-4.5V為企業(yè)與開(kāi)發(fā)者提供高性價(jià)比的多模態(tài)AI解決方案:
API調(diào)用價(jià)格:低至輸入2元/M tokens,輸出6元/M tokens
響應(yīng)速度:達(dá)到60-80tokens/s
API接口文檔:http://docs.bigmodel.cn/api-reference
GLM-4.5V API現(xiàn)已上線智譜開(kāi)放平臺(tái)BigModel.cn,智譜為所有新老用戶準(zhǔn)備了2000萬(wàn)Tokens的免費(fèi)資源包。
領(lǐng)取鏈接:
https://zhipuaishengchan.datasink.sensorsdata.cn/t/bv
精準(zhǔn)識(shí)別和定位目標(biāo)物體
GLM-4.5V能夠從圖片中理解并識(shí)別出具體的目標(biāo)的物體。
可以在界面上直接選擇Grounding模式,傳入圖片和提示詞即可。
比如上傳了一張AI隨機(jī)生成的圖片,GLM-4.5V的推理能力可以從圖片中準(zhǔn)確識(shí)別出「非現(xiàn)實(shí)」的物體,就是紅框中看著像昆蟲(chóng)的灑水機(jī)器人。
簡(jiǎn)單介紹下Grounding能力,在計(jì)算機(jī)視覺(jué)與多模態(tài)任務(wù)中,Grounding能力指的是模型將自然語(yǔ)言中的詞語(yǔ)或短語(yǔ),精確地與圖像中的具體區(qū)域或?qū)ο蠼?duì)應(yīng)關(guān)系的能力。
它不僅要求模型能「看懂」圖片,也能「讀懂」文字,并在兩者之間建立準(zhǔn)確的語(yǔ)義—視覺(jué)映射。
較知名的Flickr30k Entities數(shù)據(jù)集
并且GLM-4.5V的Grounding的能力還附帶了「推理魔法」。
比如下面這張《我,機(jī)器人》劇照中,有一個(gè)機(jī)器人明顯看著比其他機(jī)器人更有靈魂。
GLM-4.5V一下子就找到了!這確實(shí)很令人驚訝,4.5V的視覺(jué)能力已經(jīng)可以理解表情了。
而且你仔細(xì)看這個(gè)Grounding的Box,完全貼著右下角的機(jī)器人,即使是胳膊部分也幾乎相切,確實(shí)有點(diǎn)東西。
看圖猜地址
除了可以在GeoGuessr中玩,GLM-4.5V這次還可以通過(guò)隨機(jī)照片來(lái)推理地址。
比如上傳一張照片,GLM-4.5V能通過(guò)建筑特征來(lái)識(shí)別照片是在哪里拍攝的。
這個(gè)推理結(jié)果和GPT-5 Pro結(jié)果相同。
甚至在描述判斷邏輯方面,GLM-4.5V看起來(lái)更勝一籌,因?yàn)槟P筒粌H注意到建筑風(fēng)格,還從門(mén)牌號(hào)上識(shí)別到北歐古典建筑。
視頻理解能力
這次GLM-4.5V另一個(gè)重大更新就是視頻理解。
類似這種超現(xiàn)實(shí)主義的視頻,GLM-4.5V也能完全get到視頻中的重點(diǎn)元素和隱喻含義。
它甚至識(shí)別出了特斯拉Cybertruck。
或者像這種偏重于抽象的視頻,GLM-4.5V也能理解,并且可以給出非常深度的解釋。
宇宙、人類、精神、靈魂、科技、藝術(shù),GLM-4.5V還是真的大超預(yù)期。
空間關(guān)系理解
視覺(jué)能力中,有一項(xiàng)很重要的空間理解能力,比如這個(gè)包含常見(jiàn)物體空間關(guān)系圖。
我們隨機(jī)給關(guān)系打上馬賽克,然后讓GLM-4.5V來(lái)定義物體的空間關(guān)系。
單箭頭的情況下,多次測(cè)試GLM-4.5V每次都可以判斷正確,正確率100%。
多個(gè)箭頭的情況下,會(huì)有偶爾的識(shí)別出現(xiàn)失誤,比如應(yīng)該是Behind的情況會(huì)識(shí)別為旁邊。
但整體模型在空間理解上,來(lái)的一個(gè)新的高度。
前端能力:UI到Code
這次GLM-4.5V更新的另一大看點(diǎn)是可以通過(guò)UI界面直接轉(zhuǎn)化為Code。
比如我們用GLM-4.5V的官網(wǎng)截圖制作了一個(gè)「它自己」。
不得不說(shuō),GLM-4.5V編程能力確實(shí)很強(qiáng),做出來(lái)的網(wǎng)站一模一樣,甚至連左側(cè)的Emoji都帶上了,畫(huà)面比例和UI風(fēng)格也做到了1:1復(fù)刻。
圖像識(shí)別能力
有名的Magic Eye測(cè)試圖片集,GLM-4.5V也能準(zhǔn)確識(shí)別,比如下圖這種多種魚(yú)類拼湊的重復(fù)畫(huà)面。
GLM-4.5V甚至可以定位到「橙色帶條紋」,肉眼想看的話,還是需要放大并且仔細(xì)觀察的。
視覺(jué)模型的「數(shù)數(shù)」能力
再來(lái)一個(gè)世界模型經(jīng)常遇到的「數(shù)數(shù)」問(wèn)題,模型需要識(shí)別圖片中的物體種類和數(shù)量。
這些問(wèn)題對(duì)于人類來(lái)說(shuō)很簡(jiǎn)單,但是對(duì)于VLM就沒(méi)那么容易了。
在這種「目標(biāo)搜索」任務(wù)中VLM的表現(xiàn),會(huì)隨著場(chǎng)景里目標(biāo)數(shù)量的增多而迅速下降。
GLM-4.5V準(zhǔn)確的識(shí)別到松餅和羊,并且完成了左上、左下和右上的數(shù)量識(shí)別。
右下人類也很難數(shù)得清,但GLM-4.5V表示他數(shù)了個(gè)大概,非常擬人了,這里的處理幾乎可以說(shuō)得上完美。
以上實(shí)測(cè)并不是測(cè)試的全部,但是GLM-4.5V除了能力很強(qiáng)外,最大的特點(diǎn)是又快又好玩,基本上很多任務(wù)都是秒出。
而且更有意思的是,每個(gè)任務(wù)都會(huì)自動(dòng)匹配一個(gè)題目+一個(gè)Emoji,這代表模型真正的理解了任務(wù)的核心。
很多Emoji配的都無(wú)比形象,這在其他很多產(chǎn)品中都沒(méi)有這個(gè)功能。
技術(shù)創(chuàng)新
開(kāi)頭我們介紹了GLM-4.5V基于智譜新發(fā)布的新一代旗艦文本基座模型GLM-4.5-Air,沿用GLM-4.1V-Thinking的結(jié)構(gòu)。
GLM-4.5V模型原理
GLM-4.5V由視覺(jué)編碼器、MLP 適配器和語(yǔ)言解碼器三部分組成,支持64K多模態(tài)長(zhǎng)上下文。
視覺(jué)編碼器采用AIMv2-Huge,支持圖像與視頻輸入,并通過(guò)三維卷積提升視頻處理效率。
模型引入三維旋轉(zhuǎn)位置編碼(3D-RoPE)和雙三次插值機(jī)制,增強(qiáng)了對(duì)高分辨率和極端寬高比圖像的適應(yīng)性。
同時(shí),語(yǔ)言解碼器中的位置編碼擴(kuò)展為3D 形式(3D-RoPE),進(jìn)一步提升了多模態(tài)空間理解能力。
GLM-4.5V訓(xùn)練策略
GLM-4.5V 采用三階段策略:預(yù)訓(xùn)練、監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)。
在預(yù)訓(xùn)練階段,結(jié)合大規(guī)模圖文交錯(cuò)多模態(tài)語(yǔ)料和長(zhǎng)上下文內(nèi)容,強(qiáng)化了模型對(duì)復(fù)雜圖文及視頻的處理能力
在SFT階段,引入了顯式「思維鏈」格式訓(xùn)練樣本,增強(qiáng)了GLM-4.5V的因果推理與多模態(tài)理解能力;
在RL階段,引入全領(lǐng)域多模態(tài)課程強(qiáng)化學(xué)習(xí),通過(guò)構(gòu)建多領(lǐng)域獎(jiǎng)勵(lì)系統(tǒng)(Reward System),結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)與基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),GLM-4.5V在STEM問(wèn)題、多模態(tài)定位、Agent任務(wù)等方面獲得全面優(yōu)化。
更多技術(shù)細(xì)節(jié),請(qǐng)查看發(fā)布的GLM-4.5V技術(shù)報(bào)告。
https://github.com/zai-org/GLM-V
從4月份OpenA的GPT-4o「原生全能多模態(tài)模型」引發(fā)的「吉卜力熱」就能看出,多模態(tài)是模型發(fā)展的必然。
多模態(tài)這一能力之所以重要,在于它模擬了人類利用多種感官綜合感知世界的方式。
通過(guò)將不同模態(tài)的信息優(yōu)勢(shì)結(jié)合,AI系統(tǒng)能夠?qū)?fù)雜場(chǎng)景作出更整體化的判斷。
特斯拉機(jī)器人賣爆米花
而集成視覺(jué)、文本、推理、看視頻等能力的視覺(jué)推理模型正成為企業(yè)側(cè)升級(jí)的主戰(zhàn)場(chǎng)。
多模態(tài)大模型正從實(shí)驗(yàn)室走向現(xiàn)實(shí),用例也從單一走向多元,整體價(jià)值也從演示Demo走向真正地實(shí)用。
視覺(jué)語(yǔ)言模型在提升人機(jī)交互自然度、提高專業(yè)工作效率、創(chuàng)造新內(nèi)容形態(tài)等方面具有巨大潛力。
總體來(lái)看,多模態(tài)大模型已從「能力驗(yàn)證」走向「規(guī)模落地」。
海外以O(shè)penAI GPT、谷歌Gemini、Anthropic Claude領(lǐng)跑。
國(guó)內(nèi)阿里Qwen?VL、智譜GLM、字節(jié)Seed等在追趕并局部反超。
而GLM-4.5V為代表的視覺(jué)推理模型,將成為AI進(jìn)化的新方向,未來(lái)的AI模型不僅要看得懂,還要能自主推理。
https://github.com/zai-org/GLM-V
https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
https://modelscope.cn/collections/GLM-45V-8b471c8f97154e
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.