剛剛，智譜開源千億參數(shù)視覺大模型，能區(qū)分麥當(dāng)勞肯德基炸雞，看圖猜地點(diǎn)擊敗99%人類

2025-08-12 00:20:29　來源: 智東西

北京舉報(bào)

分享至

智東西
作者陳駿達(dá) 江宇
編輯云鵬

智東西8月11日報(bào)道，今晚，智譜開源了其最新一代視覺理解模型GLM-4.5V。這一模型基于智譜新一代文本基座模型GLM-4.5-Air訓(xùn)練而來，延續(xù)上一代視覺推理模型GLM-4.1V-Thinking的技術(shù)路線，擁有1060億參數(shù)，120億激活參數(shù)。GLM-4.5V還新增了思考模式的開關(guān)功能，用戶可自主控制模型是否進(jìn)行思考。

這一模型的視覺能力解鎖了一些有趣的玩法。例如，模型現(xiàn)在可以看懂麥當(dāng)勞和肯德基炸雞翅的區(qū)別了，還從炸雞的色澤、外皮質(zhì)感等角度，進(jìn)行了全面分析。

GLM-4.5V還可以看圖猜地點(diǎn)，智譜稱，GLM-4.5V和人類玩家一起參與了拍圖猜地點(diǎn)積分賽，加入比賽7天后，GLM-4.5V的積分直接排到了賽事網(wǎng)站的第66名，超越了99%的人類用戶。

智東西還讓這一模型根據(jù)網(wǎng)頁截圖，打造了小紅書的同款網(wǎng)頁，實(shí)現(xiàn)了十之八九的相似度。

智譜分享了GLM-4.5V在42個(gè)基準(zhǔn)測試中的成績，這些測試覆蓋圖像、視頻、文檔理解以及圖形界面智能體操作等常見任務(wù)。GLM-4.5V在其中41個(gè)測試中，得分超過同尺寸模型，如Step-3、Qwen2.5-VL等。

目前，這一模型已經(jīng)在開源平臺Hugging Face、魔搭、GitHub發(fā)布，并且額外提供了FP8量化版本。智譜還為其打造了一個(gè)體驗(yàn)App，不過目前僅有Mac端可用（且必須為非Intel芯片）。

用戶還可在z.ai選擇GLM-4.5V模型，上傳圖片或視頻進(jìn)行體驗(yàn)，或在智譜清言APP/網(wǎng)頁版，上傳圖片，開啟“推理模式”進(jìn)行體驗(yàn)。

為幫助開發(fā)者體驗(yàn)GLM-4.5V的模型能力，智譜同步開源了一款桌面助手應(yīng)用。該桌面應(yīng)用可實(shí)時(shí)截屏、錄屏獲取屏幕信息，并依托GLM-4.5V處理多種視覺推理任務(wù)，日常處理如代碼輔助、視頻內(nèi)容分析、游戲解答、文檔解讀等多類視覺任務(wù)。

GLM-4.5V API現(xiàn)已上線智譜開放平臺BigModel.cn，并提供了2000萬 tokens的免費(fèi)資源包。其API最低價(jià)為每百萬輸入tokens/2元、每百萬輸出tokens/6元，支持圖像、視頻、文件和文本輸入。

模型上線后，智東西第一時(shí)間對其能力進(jìn)行了體驗(yàn)，并梳理了這款模型背后的部分技術(shù)創(chuàng)新。

模型開源地址：

https://github.com/zai-org/GLM-V

https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

桌面助手開源地址：

https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App

一、實(shí)測看圖報(bào)坐標(biāo)略有翻車，網(wǎng)頁復(fù)現(xiàn)相似度較高

智東西在搭載GLM-4.5V的桌面助手應(yīng)用中體驗(yàn)了模型的部分功能。這一應(yīng)用中提供了思考開關(guān)等設(shè)置，用戶還可自定義提示詞、模型設(shè)置等，提供了較大的自由度。

要使用模型，用戶需要提供GLM-4.5V的API密鑰，可在智譜的開放平臺獲得。

測試中，智東西首先使用了官方提供的一張照片，模型能夠準(zhǔn)確猜出地點(diǎn)，并按照要求精確到經(jīng)緯度。

隨后，我們上傳了自己的測試圖，選用了一張“靈隱寺一角”的照片，這張圖難度不小——畫面中雖有黃色墻體、深色屋頂?shù)墓沤ㄖ?、高大樹木與游客，但沒有明顯的地標(biāo)性信息。右下角的路燈上雖印有“靈隱寺”字樣，但因使用的并非簡體字，未被系統(tǒng)識別出來。

系統(tǒng)在分析中誤將路燈上的“靈隱寺”識別為“寶原青”，并將圖片上的“感恩”識別成“威勝”，同時(shí)捕捉到另一處“包容”字樣。結(jié)合這些文字與環(huán)境特征，系統(tǒng)最終將結(jié)果推斷為四川都江堰的青城山。雖然未能準(zhǔn)確匹配真實(shí)地點(diǎn)，但推理過程細(xì)節(jié)豐富，結(jié)果具備一定參考價(jià)值。

這一模型具備一定的GUI（圖形用戶界面）能力，這對理解、操作網(wǎng)頁或App等Agent場景至關(guān)重要。官方Demo中，GLM-4.5V可以幫助用戶在眼花繚亂的購物網(wǎng)站截圖中，計(jì)算出折扣信息，還對生成結(jié)果進(jìn)行反思和確認(rèn)。智譜的思考與執(zhí)行智能體AutoGLM最新版，就將使用GLM-4.5V。

生產(chǎn)力方面，GLM-4.5V現(xiàn)在可以根據(jù)網(wǎng)頁錄屏、截圖等復(fù)現(xiàn)前端代碼，分析畫面中內(nèi)容、樣式、布局等元素，推測背后的代碼，然后對交互邏輯進(jìn)行建模與實(shí)現(xiàn)。

智東西體驗(yàn)了App端提供的“網(wǎng)頁錄屏/截圖，復(fù)現(xiàn)特定功能”能力。用戶可在頁面上直接點(diǎn)擊截屏或局部錄屏按鈕，將錄制的視頻上傳至系統(tǒng)，由系統(tǒng)進(jìn)行壓縮處理后，推理分析生成對應(yīng)的HTML代碼，渲染可交互的前端。

在實(shí)際測試中，因訪問量可能過大，系統(tǒng)在近50分鐘內(nèi)未返回結(jié)果。隨后，我們將相同任務(wù)提交至智譜官方平臺，并以截圖形式交給GLM-4.5V，不到10分鐘便生成了網(wǎng)頁復(fù)刻版本。

▲智東西實(shí)測結(jié)果（結(jié)果鏈接：https://chat.z.ai/space/f00sx6s4jgp1-art）

生成的頁面在信息呈現(xiàn)上比小紅書網(wǎng)頁端更豐富——除點(diǎn)贊數(shù)外，還額外顯示評論數(shù)據(jù)，并增加了下方功能欄和右上角的通知按鈕。

但在瀑布流對齊效果上未能還原，缺少小紅書“精髓”的布局感。此外，該版本并未實(shí)現(xiàn)交互功能，可能是截圖內(nèi)容無法體現(xiàn)動(dòng)態(tài)操作所致，上傳視頻或許可以改善。

智譜官方Demo展示的案例中，工作人員上傳了一小段知乎網(wǎng)頁版的操作錄像，最終GLM-4.5V交付了一個(gè)相對完整的網(wǎng)頁，點(diǎn)擊、跳轉(zhuǎn)、輸入等功能都正常運(yùn)行。

如果對網(wǎng)頁局部位置不滿意，又不知道該如何在代碼中定位問題，用戶可以直接在網(wǎng)頁截圖中圈出不滿意的位置，模型能直接對背后代碼進(jìn)行修改。

在PPT、PDF場景，GLM-4.5V可閱讀含有大量圖表的復(fù)雜長文本，能夠?qū)ξ谋具M(jìn)行總結(jié)、翻譯、圖表提取等操作。

模型并不是通過OCR實(shí)現(xiàn)圖像信息提取的，而是直接用視覺方式讀取圖片，能在一定程度上避免了信息提取過程中的錯(cuò)誤傳遞，對于圖表、表格等視覺化、結(jié)構(gòu)化信息的保留和解讀準(zhǔn)確性得到提升。

博客介紹，GLM-4.5V在視覺定位這種傳統(tǒng)CV領(lǐng)域表現(xiàn)不錯(cuò)，可以根據(jù)用戶提問，精準(zhǔn)識別、分析、定位目標(biāo)物體并輸出其坐標(biāo)框。

這一能力可運(yùn)用于安全與質(zhì)量檢查、高空遙感監(jiān)測分析。相較于傳統(tǒng)的基于視覺模型的物體識別，GLM-4.5V 憑借更豐富的世界知識與更強(qiáng)大的語義理解能力，能夠通過推理理解更復(fù)雜的定位指令。

二、支持64K多模態(tài)上下文，STEM、多模態(tài)定位、Agent獲針對性提升

GLM-4.5V由視覺編碼器、MLP適配器和語言解碼器三部分組成，支持64K多模態(tài)長上下文，支持圖像與視頻輸入，并通過三維卷積提升視頻處理效率。

模型采用雙三次插值機(jī)制，有效增強(qiáng)了模型對高分辨率及極端寬高比圖像的處理能力與穩(wěn)健性；同時(shí)，引入三維旋轉(zhuǎn)位置編碼（3D-RoPE），顯著強(qiáng)化了模型對多模態(tài)信息的三維空間關(guān)系的感知與推理能力。

GLM-4.5V 采用三階段策略：預(yù)訓(xùn)練、監(jiān)督微調(diào)（SFT）和強(qiáng)化學(xué)習(xí)（RL）。

其中，在預(yù)訓(xùn)練階段，智譜結(jié)合大規(guī)模圖文交錯(cuò)多模態(tài)語料和長上下文內(nèi)容，強(qiáng)化了模型對復(fù)雜圖文及視頻的處理能力。

在SFT階段，智譜引入了顯式“思維鏈”格式訓(xùn)練樣本，增強(qiáng)了GLM-4.5V的因果推理與多模態(tài)理解能力。

最后，RL階段，模型經(jīng)歷了全領(lǐng)域多模態(tài)課程強(qiáng)化學(xué)習(xí)，通過構(gòu)建多領(lǐng)域獎(jiǎng)勵(lì)系統(tǒng)（Reward System），結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（RLVR）與基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF），優(yōu)化了其在STEM問題、多模態(tài)定位、Agent任務(wù)等方面的能力。

結(jié)語：視覺理解已成Agent關(guān)鍵能力

視覺理解一直被認(rèn)為是Agent與電腦、現(xiàn)實(shí)世界等交互的重要能力之一，在純文本模態(tài)之外，Agent還需要理解圖像、視頻等信息，才能補(bǔ)齊它與人類認(rèn)知方式之間的差距。

智譜本次開源的GLM-4.5V擁有一定視覺理解能力，并在GUI等場景展現(xiàn)出了應(yīng)用價(jià)值，其后續(xù)與Agent應(yīng)用的結(jié)合，值得期待。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.