智東西
作者 陳駿達(dá) 江宇
編輯 云鵬
智東西8月11日報(bào)道,今晚,智譜開源了其最新一代視覺理解模型GLM-4.5V。這一模型基于智譜新一代文本基座模型GLM-4.5-Air訓(xùn)練而來,延續(xù)上一代視覺推理模型GLM-4.1V-Thinking的技術(shù)路線,擁有1060億參數(shù),120億激活參數(shù)。GLM-4.5V還新增了思考模式的開關(guān)功能,用戶可自主控制模型是否進(jìn)行思考。
這一模型的視覺能力解鎖了一些有趣的玩法。例如,模型現(xiàn)在可以看懂麥當(dāng)勞和肯德基炸雞翅的區(qū)別了,還從炸雞的色澤、外皮質(zhì)感等角度,進(jìn)行了全面分析。
GLM-4.5V還可以看圖猜地點(diǎn),智譜稱,GLM-4.5V和人類玩家一起參與了拍圖猜地點(diǎn)積分賽,加入比賽7天后,GLM-4.5V的積分直接排到了賽事網(wǎng)站的第66名,超越了99%的人類用戶。
智東西還讓這一模型根據(jù)網(wǎng)頁截圖,打造了小紅書的同款網(wǎng)頁,實(shí)現(xiàn)了十之八九的相似度。
智譜分享了GLM-4.5V在42個(gè)基準(zhǔn)測試中的成績,這些測試覆蓋圖像、視頻、文檔理解以及圖形界面智能體操作等常見任務(wù)。GLM-4.5V在其中41個(gè)測試中,得分超過同尺寸模型,如Step-3、Qwen2.5-VL等。
目前,這一模型已經(jīng)在開源平臺Hugging Face、魔搭、GitHub發(fā)布,并且額外提供了FP8量化版本。智譜還為其打造了一個(gè)體驗(yàn)App,不過目前僅有Mac端可用(且必須為非Intel芯片)。
用戶還可在z.ai選擇GLM-4.5V模型,上傳圖片或視頻進(jìn)行體驗(yàn),或在智譜清言APP/網(wǎng)頁版,上傳圖片,開啟“推理模式”進(jìn)行體驗(yàn)。
為幫助開發(fā)者體驗(yàn)GLM-4.5V的模型能力,智譜同步開源了一款桌面助手應(yīng)用。該桌面應(yīng)用可實(shí)時(shí)截屏、錄屏獲取屏幕信息,并依托GLM-4.5V處理多種視覺推理任務(wù),日常處理如代碼輔助、視頻內(nèi)容分析、游戲解答、文檔解讀等多類視覺任務(wù)。
GLM-4.5V API現(xiàn)已上線智譜開放平臺BigModel.cn,并提供了2000萬 tokens的免費(fèi)資源包。其API最低價(jià)為每百萬輸入tokens/2元、每百萬輸出tokens/6元,支持圖像、視頻、文件和文本輸入。
模型上線后,智東西第一時(shí)間對其能力進(jìn)行了體驗(yàn),并梳理了這款模型背后的部分技術(shù)創(chuàng)新。
模型開源地址:
https://github.com/zai-org/GLM-V
https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
https://modelscope.cn/collections/GLM-45V-8b471c8f97154e
桌面助手開源地址:
https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App
一、實(shí)測看圖報(bào)坐標(biāo)略有翻車,網(wǎng)頁復(fù)現(xiàn)相似度較高
智東西在搭載GLM-4.5V的桌面助手應(yīng)用中體驗(yàn)了模型的部分功能。這一應(yīng)用中提供了思考開關(guān)等設(shè)置,用戶還可自定義提示詞、模型設(shè)置等,提供了較大的自由度。
要使用模型,用戶需要提供GLM-4.5V的API密鑰,可在智譜的開放平臺獲得。
測試中,智東西首先使用了官方提供的一張照片,模型能夠準(zhǔn)確猜出地點(diǎn),并按照要求精確到經(jīng)緯度。
隨后,我們上傳了自己的測試圖,選用了一張“靈隱寺一角”的照片,這張圖難度不小——畫面中雖有黃色墻體、深色屋頂?shù)墓沤ㄖ?、高大樹木與游客,但沒有明顯的地標(biāo)性信息。右下角的路燈上雖印有“靈隱寺”字樣,但因使用的并非簡體字,未被系統(tǒng)識別出來。
系統(tǒng)在分析中誤將路燈上的“靈隱寺”識別為“寶原青”,并將圖片上的“感恩”識別成“威勝”,同時(shí)捕捉到另一處“包容”字樣。結(jié)合這些文字與環(huán)境特征,系統(tǒng)最終將結(jié)果推斷為四川都江堰的青城山。雖然未能準(zhǔn)確匹配真實(shí)地點(diǎn),但推理過程細(xì)節(jié)豐富,結(jié)果具備一定參考價(jià)值。
這一模型具備一定的GUI(圖形用戶界面)能力,這對理解、操作網(wǎng)頁或App等Agent場景至關(guān)重要。官方Demo中,GLM-4.5V可以幫助用戶在眼花繚亂的購物網(wǎng)站截圖中,計(jì)算出折扣信息,還對生成結(jié)果進(jìn)行反思和確認(rèn)。智譜的思考與執(zhí)行智能體AutoGLM最新版,就將使用GLM-4.5V。
生產(chǎn)力方面,GLM-4.5V現(xiàn)在可以根據(jù)網(wǎng)頁錄屏、截圖等復(fù)現(xiàn)前端代碼,分析畫面中內(nèi)容、樣式、布局等元素,推測背后的代碼,然后對交互邏輯進(jìn)行建模與實(shí)現(xiàn)。
智東西體驗(yàn)了App端提供的“網(wǎng)頁錄屏/截圖,復(fù)現(xiàn)特定功能”能力。用戶可在頁面上直接點(diǎn)擊截屏或局部錄屏按鈕,將錄制的視頻上傳至系統(tǒng),由系統(tǒng)進(jìn)行壓縮處理后,推理分析生成對應(yīng)的HTML代碼,渲染可交互的前端。
在實(shí)際測試中,因訪問量可能過大,系統(tǒng)在近50分鐘內(nèi)未返回結(jié)果。隨后,我們將相同任務(wù)提交至智譜官方平臺,并以截圖形式交給GLM-4.5V,不到10分鐘便生成了網(wǎng)頁復(fù)刻版本。
▲智東西實(shí)測結(jié)果(結(jié)果鏈接:https://chat.z.ai/space/f00sx6s4jgp1-art)
生成的頁面在信息呈現(xiàn)上比小紅書網(wǎng)頁端更豐富——除點(diǎn)贊數(shù)外,還額外顯示評論數(shù)據(jù),并增加了下方功能欄和右上角的通知按鈕。
但在瀑布流對齊效果上未能還原,缺少小紅書“精髓”的布局感。此外,該版本并未實(shí)現(xiàn)交互功能,可能是截圖內(nèi)容無法體現(xiàn)動(dòng)態(tài)操作所致,上傳視頻或許可以改善。
智譜官方Demo展示的案例中,工作人員上傳了一小段知乎網(wǎng)頁版的操作錄像,最終GLM-4.5V交付了一個(gè)相對完整的網(wǎng)頁,點(diǎn)擊、跳轉(zhuǎn)、輸入等功能都正常運(yùn)行。
如果對網(wǎng)頁局部位置不滿意,又不知道該如何在代碼中定位問題,用戶可以直接在網(wǎng)頁截圖中圈出不滿意的位置,模型能直接對背后代碼進(jìn)行修改。
在PPT、PDF場景,GLM-4.5V可閱讀含有大量圖表的復(fù)雜長文本,能夠?qū)ξ谋具M(jìn)行總結(jié)、翻譯、圖表提取等操作。
模型并不是通過OCR實(shí)現(xiàn)圖像信息提取的,而是直接用視覺方式讀取圖片,能在一定程度上避免了信息提取過程中的錯(cuò)誤傳遞,對于圖表、表格等視覺化、結(jié)構(gòu)化信息的保留和解讀準(zhǔn)確性得到提升。
博客介紹,GLM-4.5V在視覺定位這種傳統(tǒng)CV領(lǐng)域表現(xiàn)不錯(cuò),可以根據(jù)用戶提問,精準(zhǔn)識別、分析、定位目標(biāo)物體并輸出其坐標(biāo)框。
這一能力可運(yùn)用于安全與質(zhì)量檢查、高空遙感監(jiān)測分析。相較于傳統(tǒng)的基于視覺模型的物體識別,GLM-4.5V 憑借更豐富的世界知識與更強(qiáng)大的語義理解能力,能夠通過推理理解更復(fù)雜的定位指令。
二、支持64K多模態(tài)上下文,STEM、多模態(tài)定位、Agent獲針對性提升
GLM-4.5V由視覺編碼器、MLP適配器和語言解碼器三部分組成,支持64K多模態(tài)長上下文,支持圖像與視頻輸入,并通過三維卷積提升視頻處理效率。
模型采用雙三次插值機(jī)制,有效增強(qiáng)了模型對高分辨率及極端寬高比圖像的處理能力與穩(wěn)健性;同時(shí),引入三維旋轉(zhuǎn)位置編碼(3D-RoPE),顯著強(qiáng)化了模型對多模態(tài)信息的三維空間關(guān)系的感知與推理能力。
GLM-4.5V 采用三階段策略:預(yù)訓(xùn)練、監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)。
其中,在預(yù)訓(xùn)練階段,智譜結(jié)合大規(guī)模圖文交錯(cuò)多模態(tài)語料和長上下文內(nèi)容,強(qiáng)化了模型對復(fù)雜圖文及視頻的處理能力。
在SFT階段,智譜引入了顯式“思維鏈”格式訓(xùn)練樣本,增強(qiáng)了GLM-4.5V的因果推理與多模態(tài)理解能力。
最后,RL階段,模型經(jīng)歷了全領(lǐng)域多模態(tài)課程強(qiáng)化學(xué)習(xí),通過構(gòu)建多領(lǐng)域獎(jiǎng)勵(lì)系統(tǒng)(Reward System),結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)與基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),優(yōu)化了其在STEM問題、多模態(tài)定位、Agent任務(wù)等方面的能力。
結(jié)語:視覺理解已成Agent關(guān)鍵能力
視覺理解一直被認(rèn)為是Agent與電腦、現(xiàn)實(shí)世界等交互的重要能力之一,在純文本模態(tài)之外,Agent還需要理解圖像、視頻等信息,才能補(bǔ)齊它與人類認(rèn)知方式之間的差距。
智譜本次開源的GLM-4.5V擁有一定視覺理解能力,并在GUI等場景展現(xiàn)出了應(yīng)用價(jià)值,其后續(xù)與Agent應(yīng)用的結(jié)合,值得期待。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.