智譜 AI 正式發(fā)布并開源新一代視覺(jué)推理模型 GLM-4.5V,官方數(shù)據(jù)顯示,其在 41 個(gè)公開視覺(jué)多模態(tài)基準(zhǔn)測(cè)試中達(dá)到同級(jí)別開源模型 SOTA(State-of-the-Art,當(dāng)前最佳技術(shù))性能。該模型已同步在 GitHub、Hugging Face 和魔搭社區(qū)開源,采用 MIT 開源協(xié)議,支持商業(yè)使用(項(xiàng)目地址:https://github.com/zai-org/GLM-V/)。
圖丨基準(zhǔn)測(cè)試結(jié)果(來(lái)源:Hugging Face)
此次開源的 GLM-4.5V 是一個(gè)擁有 1,060 億總參數(shù)、120 億激活參數(shù)的 VLM(Vision-Language Model,視覺(jué)-語(yǔ)言模型)。它基于智譜此前發(fā)布的旗艦文本基座模型 GLM-4.5-Air 構(gòu)建,并延續(xù)了 GLM-4.1V-Thinking 的技術(shù)路線。
從技術(shù)架構(gòu)上看,GLM-4.5V 由視覺(jué)編碼器、MLP 適配器和語(yǔ)言解碼器三部分構(gòu)成。模型通過(guò)引入三維旋轉(zhuǎn)位置編碼(3D-RoPE),顯著增強(qiáng)了對(duì)多模態(tài)信息中三維空間關(guān)系的感知和推理能力。同時(shí),它支持 64K tokens 的多模態(tài)長(zhǎng)上下文輸入,并采用三維卷積來(lái)提升視頻處理的效率。這些設(shè)計(jì)使得模型不僅能處理圖像,也能理解視頻內(nèi)容,并對(duì)高分辨率以及極端寬高比的圖像具有更強(qiáng)的處理能力和穩(wěn)健性。
圖丨技術(shù)細(xì)節(jié)(來(lái)源:智譜)
為了提高其多模態(tài)能力,智譜在模型訓(xùn)練的三個(gè)階段進(jìn)行了多重優(yōu)化。首先是預(yù)訓(xùn)練階段,結(jié)合了大規(guī)模的圖文交錯(cuò)多模態(tài)語(yǔ)料和長(zhǎng)上下文內(nèi)容,強(qiáng)化了模型對(duì)復(fù)雜圖文和視頻的基礎(chǔ)理解能力。
其次是監(jiān)督微調(diào)(SFT,Supervised Fine-Tuning)階段,該階段引入了顯式的“思維鏈”格式訓(xùn)練樣本,旨在增強(qiáng)模型的因果推理和多模態(tài)理解深度。最后是強(qiáng)化學(xué)習(xí)(RL,Reinforcement Learning)階段,通過(guò)構(gòu)建多領(lǐng)域獎(jiǎng)勵(lì)系統(tǒng),并結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR,Reinforcement Learning with Verifiable Rewards)與基于人類反饋的強(qiáng)化學(xué)習(xí)RLHF,Reinforcement Learning from Human Feedback),模型在科學(xué)、技術(shù)、工程、數(shù)學(xué)(STEM)問(wèn)題、多模態(tài)定位以及智能體(Agent)任務(wù)等方面獲得了全面優(yōu)化。
在其官方演示中,GLM-4.5V 展現(xiàn)了覆蓋全場(chǎng)景的視覺(jué)推理能力,具體體現(xiàn)在多個(gè)方面。在圖像推理層面,它能夠進(jìn)行復(fù)雜的場(chǎng)景理解和多圖分析。
例如,在模型能根據(jù)用戶的自然語(yǔ)言提問(wèn),精準(zhǔn)識(shí)別圖像中的目標(biāo)物體并輸出其在圖像中的坐標(biāo)框。或是在不依賴外部搜索工具的情況下,通過(guò)分析圖像中的植被、氣候痕跡、建筑風(fēng)格等細(xì)微線索,推斷出照片的拍攝地點(diǎn)和大致經(jīng)緯度。
在一項(xiàng)與人類玩家的對(duì)比測(cè)試中,GLM-4.5V 在參與“圖尋游戲”全球積分賽的 16 小時(shí)內(nèi),擊敗了 99% 的人類玩家,并在 7 天后攀升至全球第 66 名。
筆者小小的嘗試了一下,的確非常精準(zhǔn)。
(來(lái)源:DeepTech)
不過(guò)再換了一張北京某公園照片試了下,大概是類似的場(chǎng)景太多,這次沒(méi)能猜對(duì)。
(來(lái)源:DeepTech)
在復(fù)雜文檔理解方面,GLM-4.5V 能夠處理長(zhǎng)達(dá)數(shù)十頁(yè)、包含大量圖表的復(fù)雜長(zhǎng)文本。它會(huì)以類似人類的視覺(jué)方式讀取每一頁(yè),實(shí)現(xiàn)了文字與圖像信息的同步理解,從而能夠更準(zhǔn)確地進(jìn)行內(nèi)容總結(jié)、翻譯和圖表信息提取,有效避免了傳統(tǒng) OCR 信息提取加文本模型分析的流程中可能出現(xiàn)的錯(cuò)誤傳遞。
針對(duì)日益重要的前端開發(fā)和用戶界面交互任務(wù),GLM-4.5V 還提供了“前端復(fù)刻”功能,可以分析網(wǎng)頁(yè)截圖甚至交互視頻,并生成相應(yīng)的結(jié)構(gòu)化HTML、CSS 和 JavaScript 代碼,以復(fù)刻網(wǎng)頁(yè)的布局、樣式乃至動(dòng)態(tài)交互邏輯。
筆者同樣進(jìn)行了簡(jiǎn)單測(cè)試,嘗試復(fù)刻了谷歌學(xué)術(shù)的首頁(yè),可以看到整體 UI 效果還是比較還原的,只是忽略了我的演示視頻中點(diǎn)擊呼出側(cè)邊欄的交互功能,略有遺憾。
(來(lái)源:DeepTech)
此外,模型的 GUI Agent 能力,使其能夠識(shí)別和處理電子屏幕畫面,執(zhí)行對(duì)話問(wèn)答、圖標(biāo)定位等任務(wù),為開發(fā)能夠輔助操作桌面環(huán)境的智能體應(yīng)用打下了堅(jiān)實(shí)基礎(chǔ)。
智譜同時(shí)開源了一款桌面助手應(yīng)用,該應(yīng)用可實(shí)時(shí)截屏、錄屏獲取屏幕信息,依托 GLM-4.5V 處理多種視覺(jué)推理任務(wù),處理代碼輔助、視頻內(nèi)容分析、游戲解答、文檔解讀等多類視覺(jué)任務(wù)。
參考資料:
1.https://x.com/Zai_org/status/1954898011181789431
2.https://huggingface.co/zai-org/GLM-4.5V
3.https://github.com/zai-org/GLM-V/
4.https://mp.weixin.qq.com/s/8cKtGwUtEvAaPriVzBI1Dg
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.