夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

是福爾摩斯,也是列文虎克,智譜把OpenAI藏著的視覺(jué)推理能力開(kāi)源了

0
分享至



機(jī)器之心報(bào)道

作者:張倩、陳陳

光看圖,你能猜出這是哪兒?jiǎn)幔?/p>



當(dāng)同事出差回來(lái)扔到群里這么一張圖,我們也是猜了半天,但毫無(wú)頭緒。

直到另一位同事把圖扔給智譜的新模型 ——GLM-4.5V,這個(gè)謎團(tuán)才解開(kāi)。



把照片截圖傳給 GLM-4.5V(避免模型利用照片的 EXIF 元數(shù)據(jù)),它很快就推理出了結(jié)果。

沒(méi)錯(cuò),圖里的地方是多瑙河畔。盡管同事拍照的角度和風(fēng)格和小某書(shū)上的精美照片大相徑庭,但智譜的新模型還是通過(guò)深度分析給出了準(zhǔn)確答案。

你可能要說(shuō),這個(gè)能力,OpenAI 的 o3、o4 mini 早就有了,沒(méi)什么稀奇。但如果我告訴你,這個(gè)模型是開(kāi)源的呢?

聽(tīng)說(shuō),它還參加了大名鼎鼎的「圖尋」游戲全球積分賽,和里面的兩萬(wàn)多名人類(lèi)玩家對(duì)戰(zhàn)了 7 天。

出于好奇,我們打開(kāi)這個(gè)游戲玩了玩,結(jié)果一上來(lái)就懵了:這比賽只給 3 分鐘時(shí)間思考,碰到帶地標(biāo)的還好,像這種普通的街道、山路,不積累點(diǎn)人文、地理知識(shí),連大概范圍都不好確定,更別提按照題目要求定位出經(jīng)緯度了。





但就是在這樣的賽制里比了 7 天之后,GLM-4.5V 擊敗了 99.99% 的人類(lèi)玩家

這個(gè)游戲玩得好意味著什么?意味著GLM-4.5V 擁有了超強(qiáng)的視覺(jué)推理能力,它能夠自動(dòng)識(shí)別圖片中的細(xì)微線索 —— 從建筑風(fēng)格、植被類(lèi)型、道路標(biāo)識(shí),到天空顏色、光線角度等環(huán)境信息,并基于這些信息進(jìn)行推理,在必要時(shí),它還會(huì)主動(dòng)調(diào)用工具去分析圖像中的關(guān)鍵細(xì)節(jié)。

理論上,這種超強(qiáng)的視覺(jué)推理能力不僅可以用來(lái)識(shí)圖定位,還可以用來(lái)完成一些更實(shí)際、更復(fù)雜的現(xiàn)實(shí)任務(wù),比如處理復(fù)雜圖表、多圖長(zhǎng)文本……

為了驗(yàn)證這個(gè)推測(cè),在GLM-4.5V 開(kāi)源上線之后,我們第一時(shí)間進(jìn)行了全面實(shí)測(cè)。測(cè)試結(jié)果超出預(yù)期,因?yàn)槌饲懊嫣岬降娜蝿?wù),它在處理長(zhǎng)視頻方面也很出色,而且對(duì)于網(wǎng)頁(yè)等交互界面元素的解讀也很到位,這讓它具備了作為 GUI Agent 應(yīng)用底層模型的潛力。

整體來(lái)看,無(wú)論是國(guó)內(nèi)還是國(guó)外,GLM-4.5V 都稱(chēng)得上是第一梯隊(duì)的開(kāi)源視覺(jué)推理模型。能把這樣的模型開(kāi)源出來(lái),智譜的誠(chéng)意確實(shí)值得點(diǎn)贊。

除了模型,智譜還同步開(kāi)源了一個(gè)桌面助手應(yīng)用。它基于 GLM-4.5V 模型的原生能力,能夠通過(guò)截屏和錄屏實(shí)時(shí)獲得屏幕信息,處理多種視覺(jué)推理任務(wù),比如和你一起寫(xiě)代碼、看視頻、解謎題。感興趣的同學(xué)可以去體驗(yàn)一下。



  • 體驗(yàn)地址:https://chat.z.ai/
  • HuggingFace 開(kāi)源地址:https://huggingface.co/zai-org/GLM-4.5V
  • GitHub 開(kāi)源地址:https://github.com/zai-org/GLM-V
  • 桌面助手下載地址:https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App
  • 魔搭社區(qū):https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

拿到圖,它就是福爾摩斯

對(duì)圖像的識(shí)別與推理,一直是多模態(tài)模型能力的重要試金石。GLM-4.5V 在這一領(lǐng)域展現(xiàn)出強(qiáng)大的綜合實(shí)力。它就像一個(gè)偵探一樣,能從照片的點(diǎn)滴細(xì)節(jié)中一點(diǎn)點(diǎn)抽絲剝繭,尋找答案。

看到這張照片,估計(jì)很多人都有些摸不著頭腦,它制造了一個(gè)視覺(jué)錯(cuò)覺(jué),讓人第一眼誤以為男人穿了高跟鞋, 對(duì)于這種強(qiáng)錯(cuò)位攝影,不知 GLM-4.5V 表現(xiàn)如何?

我們輸入提示:這張照片,到底誰(shuí)站著,誰(shuí)坐著?



GLM-4.5V 幾乎不需要長(zhǎng)時(shí)間推理,就直接給出了準(zhǔn)確的答案,站著的是穿藍(lán)色上衣和白色褲子的人,坐著的是穿紫色衣服的人。



我們進(jìn)一步追問(wèn)坐著的是男生還是女生,對(duì)人類(lèi)來(lái)說(shuō),這個(gè)問(wèn)題可能比較難以回答。然而,GLM-4.5V 卻能夠輕松地做出判斷。



這也意味著,GLM-4.5V 在面對(duì)含有視覺(jué)錯(cuò)覺(jué)、人物遮擋和細(xì)節(jié)干擾的圖片時(shí),依然能夠快速鎖定有效特征進(jìn)行精確識(shí)別。這樣的能力,不僅適用于趣味圖像辨析,更在安防監(jiān)控、人物識(shí)別等需要高準(zhǔn)確率的場(chǎng)景中具備實(shí)用價(jià)值。

實(shí)際上,GLM-4.5V 的能力遠(yuǎn)不止于此,它甚至能夠通過(guò)風(fēng)景或街景圖片,準(zhǔn)確推測(cè)出具體的地點(diǎn),甚至給出精確的經(jīng)緯度。

我們經(jīng)??吹接腥嗽诰W(wǎng)絡(luò)上分享旅游照片,自己心中也有去一探究竟的沖動(dòng),但往往因?yàn)椴缓靡馑贾苯釉?xún)問(wèn)而作罷。現(xiàn)在,借助 GLM-4.5V,只需要一張照片,它便能為你揭示照片背后的地點(diǎn)信息。

我們輸入一張圖,然后輸入提示:「這張圖來(lái)自哪里。請(qǐng)?jiān)诘贸鼋Y(jié)論之后用 json 格式輸出:大洲 - 國(guó)家 - 省份 / 州 - 市 - 地名 - 緯度 - 經(jīng)度,鍵名為:'continent', 'country', 'state', 'city', 'place_name', 'lat', 'lng'?!?/p>



GLM-4.5V 通過(guò)高聳的通訊塔,山體巖石裸露、植被分布等特征,推斷出這是泰山,并給出相應(yīng)的經(jīng)緯度。



再來(lái)一個(gè)小眾一點(diǎn)的地方。



只見(jiàn) GLM-4.5V 精準(zhǔn)定位到了 HDC 這個(gè)關(guān)鍵信息,然后給出這是華為小鎮(zhèn)中的一座建筑。



如果照片沒(méi)有文字信息,GLM-4.5V 能否猜對(duì)地點(diǎn)?我們輸入如下圖片:



GLM-4.5V 開(kāi)始分析圖片中的關(guān)鍵元素,如城墻、磚石結(jié)構(gòu)、行人、紅色燈籠裝飾,以及遠(yuǎn)處的現(xiàn)代建筑和樹(shù)木。結(jié)合這些線索,GLM-4.5V 推測(cè)出這是西安的明城墻。



接下來(lái),我們考察 GLM-4.5V 在字符識(shí)別與文字理解方面的能力。

我們選取了一張手寫(xiě)草稿圖,圖中寫(xiě)有「世界那么大」四個(gè)字,但為了增加識(shí)別難度,這張圖不僅拍攝模糊、光線不佳,而且文字還呈倒置狀態(tài)。這對(duì)模型在視覺(jué)處理、OCR 能力以及圖像旋轉(zhuǎn)魯棒性等方面提出了極高的要求。



結(jié)果 GLM-4.5V 回答正確。



在接下來(lái)的測(cè)試中,我們讓 GLM-4.5V 完成一項(xiàng)看似簡(jiǎn)單卻頗具挑戰(zhàn)性的任務(wù),讀取時(shí)間。此前,來(lái)自英國(guó)愛(ài)丁堡大學(xué)等機(jī)構(gòu)的研究者在一項(xiàng)研究中指出,AI 系統(tǒng)讀取時(shí)鐘的準(zhǔn)確率僅為 38.7%。

那 GLM-4.5V 表現(xiàn)如何呢?我們輸入如下照片:



在這張圖中,想要判斷出時(shí)間還是有點(diǎn)難度的,首先這是夜晚拍攝,光線條件可能影響時(shí)鐘指針的清晰度,其次圖片中的時(shí)鐘顯示位于建筑的頂部,而時(shí)鐘的時(shí)針和分針比較模糊,可能不易精確分辨,再就是拍攝角度比較偏,距離較遠(yuǎn)。盡管如此,GLM-4.5V 還是給出了準(zhǔn)確的時(shí)間。



這一點(diǎn)尤為重要,因?yàn)樵趯?shí)際應(yīng)用中,圖像往往并非完美無(wú)缺,存在一定的噪聲和不確定性。GLM-4.5V 能夠在這些不完全和模糊的條件下,仍然做出準(zhǔn)確的判斷,這為其在復(fù)雜環(huán)境下的應(yīng)用提供了更強(qiáng)的實(shí)用性。

即便是相似的兩張圖片,GLM-4.5V 也能憑借細(xì)節(jié)進(jìn)行精準(zhǔn)區(qū)分。比如,下面這兩張同為長(zhǎng)城的照片,你能看出它們分別位于哪里嗎?



GLM-4.5V 全部答對(duì)了,其根據(jù)墻體保存完整度,游客數(shù)量等因素,綜合判斷出左邊是慕田峪長(zhǎng)城,右邊是八達(dá)嶺長(zhǎng)城。



吉娃娃和松餅也讓很多大模型傻傻分不清,兩者顏色、質(zhì)地、構(gòu)圖極為相似。對(duì)于人類(lèi)來(lái)說(shuō)不難分辨;可對(duì)大模型而言,這是對(duì)紋理辨識(shí)、邊緣結(jié)構(gòu)理解和上下文缺失情況下推理能力的嚴(yán)酷考驗(yàn)。



這次 GLM-4.5V 也答對(duì)了,只見(jiàn)它逐行進(jìn)行分析,最終給出了準(zhǔn)確答案。



總體來(lái)看, GLM-4.5V 在圖像識(shí)別方面展現(xiàn)出了「?jìng)商郊?jí)」的分析能力以及泛化能力,因?yàn)楹芏鄨D片是我們自己拍攝的,不會(huì)存在于訓(xùn)練集中。這種強(qiáng)大的能力讓 GLM-4.5V 不僅能「看」,還能基于「看」到的東西進(jìn)行思考,為實(shí)際應(yīng)用場(chǎng)景提供了可靠的技術(shù)支撐。

超長(zhǎng)視頻理解,細(xì)節(jié)捕捉狂魔

GLM-4.5V 在網(wǎng)頁(yè)內(nèi)容復(fù)現(xiàn)上的表現(xiàn)已相當(dāng)驚艷,而在視頻理解方面同樣展現(xiàn)了非凡實(shí)力。

我們首先拿宇樹(shù)最近發(fā)布的機(jī)器人視頻(時(shí)長(zhǎng) 2 分鐘左右)測(cè)試了一下,發(fā)現(xiàn)模型不僅能對(duì)視頻進(jìn)行整體描述,還指出了其中的很多細(xì)節(jié),以及這些細(xì)節(jié)所代表的含義(比如「累計(jì)行駛距離達(dá) 12.55 公里,用時(shí) 3 小時(shí) 8 分鐘,證明了其良好的續(xù)航和自主導(dǎo)航能力」)。這說(shuō)明,它通過(guò)深度推理理解到了視頻作者加上這些注解的目的。



接下來(lái),我們測(cè)試了一個(gè)更長(zhǎng)一些的電視劇片段(大概 7 分半),并就電視劇里的一些細(xì)節(jié)進(jìn)行提問(wèn),比如主人公具體做了哪些事情、做某件事情的時(shí)候穿搭是怎樣的,GLM-4.5V 都能準(zhǔn)確回答。有意思的是,它還能識(shí)別主人公的表情,明確指出了幾段「哭戲」的大體位置。



當(dāng)然,這樣的模型用來(lái)學(xué)習(xí)是綽綽有余,光是總結(jié)視頻就能達(dá)到天天用的程度。

比如,前段時(shí)間 Ilya Sutskever 現(xiàn)身多倫多大學(xué)進(jìn)行了一場(chǎng)精彩的演講,視頻時(shí)長(zhǎng) 10 分鐘左右。對(duì)于英文不是很好的小伙伴來(lái)說(shuō),想聽(tīng)懂這場(chǎng)演講著實(shí)有點(diǎn)難度,這時(shí),GLM-4.5V 可謂是一個(gè)很好的小助手。



lya Sutskever演講原視頻

你只需上傳視頻,然后提問(wèn)就可以了。

我們首先提問(wèn)這個(gè)視頻包含的一些關(guān)鍵信息,只見(jiàn) GLM-4.5V 思考了一下,然后給出了準(zhǔn)確的答案,人物、地點(diǎn),發(fā)生的事件都包括了。



接著,我們讓 GLM-4.5V 對(duì) Ilya 的演講進(jìn)行總結(jié),GLM-4.5V 以條理化的方式羅列出來(lái),對(duì)照原視頻后,我們發(fā)現(xiàn)它的回答與實(shí)際內(nèi)容基本一致,整體準(zhǔn)確度令人滿(mǎn)意。



在體驗(yàn)過(guò)程中,我們發(fā)現(xiàn)它還可以復(fù)制畫(huà)面中的 PPT,這是之前只能處理語(yǔ)音、文字信息的模型所做不到的,也讓 GLM-4.5V 在學(xué)習(xí)這個(gè)賽道上更具實(shí)用價(jià)值。



以上視頻都比較短,那如果是長(zhǎng)視頻呢?

我們輸入了一個(gè)時(shí)長(zhǎng)為一小時(shí)零 5 分鐘的視頻來(lái)測(cè)試 GLM-4.5V 對(duì)視頻的理解能力,輸入的視頻為奧特曼采訪。

對(duì)于這個(gè)長(zhǎng)視頻,GLM-4.5V 思考了一會(huì),給出了視頻主要內(nèi)容。



接著我們追問(wèn)了一個(gè)問(wèn)題,第 38 分之后,奧特曼是什么動(dòng)作?



令我們驚訝的是,對(duì)于這樣的問(wèn)題,GLM-4.5V 也能答對(duì):



奧特曼一邊回答問(wèn)題,一邊用手勢(shì)表達(dá)。

從短視頻到長(zhǎng)達(dá) 1 小時(shí)的內(nèi)容,GLM-4.5V 都展現(xiàn)出了穩(wěn)定的理解能力,特別是能精確定位特定時(shí)間點(diǎn)的動(dòng)作細(xì)節(jié),這在同類(lèi)模型中并不多見(jiàn)。對(duì)于普通用戶(hù)來(lái)說(shuō),這樣的能力已經(jīng)足夠?qū)嵱谩?/p>

復(fù)刻前端就是如此簡(jiǎn)單

GLM-4.5V 視覺(jué)推理能力,在前端復(fù)刻場(chǎng)景中體現(xiàn)得尤為明顯。

只需一張截圖,或是一段視頻,GLM-4.5V 就能像一位資深前端工程師一樣,精準(zhǔn)解析視覺(jué)內(nèi)容,并生成高質(zhì)量、結(jié)構(gòu)化、可交互的網(wǎng)頁(yè)代碼。

我們首先讓 GLM-4.5V 復(fù)刻一下 OpenAI 官網(wǎng),要求是和這個(gè)頁(yè)面布局相似。



OpenAI 網(wǎng)站

只見(jiàn) GLM-4.5V 思考了數(shù)秒,就給出答案了,我們先看結(jié)果??梢钥吹剑酥虚g的背景圖(不額外提供很難復(fù)刻),GLM-4.5V 把該網(wǎng)站的模塊布局基本都復(fù)制了出來(lái),而且排版高度相似。即使是沒(méi)給背景圖,GLM-4.5V 也選擇了一個(gè)色調(diào)非常相似的圖來(lái)填充,這讓該網(wǎng)站看起來(lái)非常美觀。



GLM-4.5V 生成的結(jié)果

GLM-4.5V 是如何做到的呢?其思考過(guò)程如下,GLM-4.5V 首先分析了圖片中包含的要素,如左邊欄的菜單按鈕、網(wǎng)頁(yè)主界面及包含的信息,以及登錄按鈕等,在分析完之后,開(kāi)始思考如何編寫(xiě)代碼,需要用到哪些庫(kù)和組件,甚至還考慮到了圖片中的字體和顏色等很細(xì)微的地方。

思考之后,GLM-4.5V 開(kāi)始飛速寫(xiě)代碼,只用了幾秒的時(shí)間就把代碼寫(xiě)好了,最后給出了一個(gè)和 OpenAI 官網(wǎng)相似的網(wǎng)頁(yè)界面。



GLM-4.5V 思考過(guò)程

你還可以點(diǎn)擊分享,讓更多人看到:



在測(cè)試完圖片后,我們繼續(xù)給 GLM-4.5V 上難度,讓這個(gè)模型根據(jù)視頻內(nèi)容進(jìn)行前端復(fù)刻。

我們選擇了谷歌網(wǎng)站,然后錄了一段視頻,在這個(gè)視頻中,我們點(diǎn)開(kāi)了一個(gè)經(jīng)常瀏覽的網(wǎng)站??纯?GLM-4.5V 能不能根據(jù)我們的操作,復(fù)現(xiàn)一下視頻中的內(nèi)容。

我們輸入提示詞:幫我生成這個(gè) video 中所展示的 html code ,需要包含視頻中的點(diǎn)擊、跳轉(zhuǎn)、交互等。



輸入視頻

在接到指令后,GLM-4.5V 開(kāi)始思考,由于這次輸入的是視頻內(nèi)容,GLM-4.5V 思考的過(guò)程比輸入圖片思考的時(shí)間要長(zhǎng)。

GLM-4.5V 首先確認(rèn)這是 Google 首頁(yè),然后注意到我們有「點(diǎn)擊 Google PhD」這個(gè)操作,確認(rèn)這是跳轉(zhuǎn)到 Google Research 的 PhD Fellowship 頁(yè)面。然后 GLM-4.5V 又分析了打開(kāi)的頁(yè)面左側(cè)有年份列表(2024 到 2014)…… 在經(jīng)過(guò)有條不紊的抽絲剝繭后,GLM-4.5V 一會(huì)兒功夫就給出了結(jié)果。



GLM-4.5V 思考過(guò)程

我們對(duì)比了一下原始網(wǎng)站和 GLM-4.5V 生成的結(jié)果,可以看出,網(wǎng)頁(yè)中的主要元素都包含在內(nèi):布局結(jié)構(gòu)幾乎一致。排版樣式基本還原,標(biāo)題字號(hào)、段落間距與原版接近;配色方案與原始網(wǎng)站沒(méi)多大區(qū)別。

不知大家有沒(méi)有注意到,生成的網(wǎng)站有了可交互功能,當(dāng)我們點(diǎn)擊 PhD Fellowship 這個(gè)選項(xiàng)時(shí),其完美的復(fù)現(xiàn)了我們?cè)谠曨l的操作過(guò)程,打開(kāi) PhD Fellowship 網(wǎng)站,里面的內(nèi)容布局和原始布局幾乎一模一樣。



接著,我們又進(jìn)行了另一項(xiàng)測(cè)試,這次選擇了界面更為復(fù)雜的 X,提示詞為:幫我生成這個(gè) video 中所展示的 html code,要求是可交互的。



在這個(gè)視頻中,我們有兩次點(diǎn)擊動(dòng)作,一次是點(diǎn)擊 Grok、另一次是點(diǎn)擊 jobs,可能由于界面布局太復(fù)雜,GLM-4.5V 整體結(jié)果還算可以,兩次點(diǎn)擊(Grok、Jobs)都能跳轉(zhuǎn),說(shuō)明模型基本復(fù)刻了我們的操作, 理解了導(dǎo)航→頁(yè)面內(nèi)容的交互因果鏈,但是在相應(yīng)的頁(yè)面下,內(nèi)容和原始頁(yè)面有所差距。



最后,我們還測(cè)試了優(yōu)衣庫(kù)這個(gè)網(wǎng)站:



最后結(jié)果如下,兩者對(duì)比,我們發(fā)現(xiàn)基本信息都有,導(dǎo)航欄中的「女性、男人、孩子們」等都包含,并且不同的人群分類(lèi)下的衣服分類(lèi)也各不相同。如果在此基礎(chǔ)上進(jìn)行優(yōu)化,一個(gè)好用的網(wǎng)站就建好了。



不管怎么說(shuō),GLM-4.5V 根據(jù)一張圖、一個(gè)視頻,就能復(fù)刻前端的這種能力還是很強(qiáng)的。另外,值得一提的是,這種從視頻流中理解并復(fù)刻網(wǎng)頁(yè)的能力完全是 GLM-4.5V 通過(guò)泛化能力實(shí)現(xiàn)的,而非特定訓(xùn)練的結(jié)果,展現(xiàn)了模型卓越的跨模態(tài)理解和推理能力。

圖表克星

GLM-4.5V 讓本地文檔處理不再頭疼

讓 AI 讀文件已經(jīng)逐漸成為大家的習(xí)慣。就像 Karpathy 所說(shuō),未來(lái) 99.9% 的內(nèi)容都會(huì)交給 AI 去讀。但很多文件有保密需求,不可以扔給云端大模型,這就凸顯了開(kāi)源模型的價(jià)值。但帶有大量圖表的文件,開(kāi)源模型處理起來(lái)一直有難度。

為了測(cè)試 GLM-4.5V 能否解決這些痛點(diǎn),我們給它提供了一些論文圖去解讀。首先,對(duì)于圖中的明確信息(文字等),GLM-4.5V 能夠做到非常充分地提取,并放在一起綜合分析,甚至也能根據(jù)箭頭等符號(hào)解讀其中的邏輯關(guān)系。



在我們提供的「GLM-4.5」技術(shù)報(bào)告中(最近剛剛發(fā)布),它也能讀懂其中的折線圖,看出折線的走勢(shì)。這說(shuō)明它不僅能夠準(zhǔn)確識(shí)別和提取圖表中的顯性信息,更重要的是能夠理解圖表背后的數(shù)據(jù)邏輯和趨勢(shì)變化。



對(duì)于一些沒(méi)有明確數(shù)字的柱狀圖,GLM-4.5V 也能讀出大體的數(shù)據(jù),這是它根據(jù)刻度估算的結(jié)果。



這樣的讀圖能力表明,GLM-4.5V 已經(jīng)具備了處理復(fù)雜多模態(tài)文檔的實(shí)用性。這對(duì)于那些不便使用云端服務(wù)的用戶(hù)來(lái)說(shuō),確實(shí)是個(gè)不錯(cuò)的本地化選擇。

視覺(jué) grounding:會(huì)思考的「列文虎克」

在現(xiàn)實(shí)生活中,視覺(jué)模型的 grounding 能力極其重要。這種能力越強(qiáng),模型就越能準(zhǔn)確理解圖像內(nèi)容,不僅能識(shí)別「這是什么」,還能精確定位「在哪里」。它能幫助我們自動(dòng)檢測(cè)異常情況,或快速找到指定目標(biāo),大大提升了視覺(jué)推理的實(shí)用價(jià)值。

現(xiàn)在正值暑假,每次去景區(qū)都能聽(tīng)見(jiàn)尋人廣播,找不到孩子的父母心急如焚。這正是一個(gè) AI 模型可以發(fā)揮作用的場(chǎng)景。

我們?cè)谛∧硶?shū)上找到了一張景區(qū)照片,嘗試讓模型尋找里面有指定特征的孩子(比如穿黃色上衣),雖然這個(gè)孩子在畫(huà)面中并不顯眼,但 GLM-4.5V 還是準(zhǔn)確圈了出來(lái)。



除了人,GLM-4.5V 還可以識(shí)別指定特征的寵物,這或許可以給滿(mǎn)大街貼尋寵廣告的養(yǎng)寵人提供一些幫助。



當(dāng)然,并不是每個(gè) grounding 任務(wù)都如此「直接」,有些還是需要深入思考的。比如在下面這個(gè)例子中,模型首先需要識(shí)別出圖中的每種堅(jiān)果,然后結(jié)合相關(guān)的營(yíng)養(yǎng)知識(shí)來(lái)判斷具體哪種堅(jiān)果 Omega-3 含量最高,最后把對(duì)應(yīng)的堅(jiān)果圈出來(lái)。可以看到,不管是哪一步,GLM-4.5V 都完成得很出色。這是之前的目標(biāo)檢測(cè)模型所做不到的,也是「視覺(jué)推理」能力在 grounding 場(chǎng)景中的核心價(jià)值所在。



讀屏小能手,GUI Agent 優(yōu)秀基模 + 1

優(yōu)秀的 grounding 能力除了前述應(yīng)用場(chǎng)景外,在 Agent 任務(wù)中同樣不可或缺。許多 Agent 任務(wù)要求模型準(zhǔn)確理解屏幕界面的文字內(nèi)容和各類(lèi)視覺(jué)元素,以此為基礎(chǔ)制定后續(xù)操作策略。

為驗(yàn)證 GLM-4.5V 在此方面的表現(xiàn),我們?cè)O(shè)計(jì)了針對(duì)性測(cè)試。

首先,我們提供了電商商品頁(yè)面等真實(shí)屏幕截圖,要求模型定位指定商品并準(zhǔn)確標(biāo)注相關(guān)元素。測(cè)試結(jié)果顯示,GLM-4.5V 準(zhǔn)確找到了該商品,并圈出了我們要求的元素。



接下來(lái),我們用一個(gè) PPT 操作界面進(jìn)行了測(cè)試,讓 GLM-4.5V 找到改變 PPT 主題風(fēng)格的按鈕,它也精準(zhǔn)地圈了出來(lái)。這說(shuō)明 GLM-4.5V 已具備作為 Agent 應(yīng)用底層模型的核心能力基礎(chǔ)。



「好用」的背后

GLM-4.5V 是怎么練成的?

在測(cè)試中,GLM-4.5V 給我們留下了深刻的印象,也讓我們好奇這個(gè)模型背后的技術(shù)細(xì)節(jié)。

據(jù)了解,GLM-4.5V 的誕生有著清晰的技術(shù)傳承脈絡(luò)。7 月底,智譜發(fā)布了 GLM-4.1V-Thinking,這是一個(gè)在 10B 級(jí)別表現(xiàn)最佳的視覺(jué)語(yǔ)言模型,上線后迅速登上了 Hugging Face trending 榜首。上周,智譜又發(fā)布了新一代旗艦?zāi)P?GLM-4.5 和 GLM-4.5-Air。在 4.5-Air 基礎(chǔ)上,團(tuán)隊(duì)沿用了 GLM-4.1V-Thinking 已經(jīng)驗(yàn)證過(guò)的架構(gòu)設(shè)計(jì),訓(xùn)練出了更大更強(qiáng)的 GLM-4.5V

GLM-4.5V 是一個(gè)擁有 106B 總參數(shù)、12B 激活參數(shù)的視覺(jué)推理模型,由視覺(jué)編碼器、MLP 適配器和語(yǔ)言解碼器三部分組成,支持64K 多模態(tài)長(zhǎng)上下文

它的視覺(jué)編碼器采用 AIMv2-Huge,支持圖像與視頻輸入,并通過(guò)三維卷積提升視頻處理效率。模型引入了二維旋轉(zhuǎn)位置編碼(2D-RoPE)和雙三次插值機(jī)制,增強(qiáng)了對(duì)高分辨率和極端寬高比圖像的適應(yīng)性。同時(shí),語(yǔ)言解碼器中的位置編碼擴(kuò)展為 3D 形式(3D-RoPE),進(jìn)一步提升了多模態(tài)空間理解能力。

訓(xùn)練方面,GLM-4.5V 采用三階段策略:預(yù)訓(xùn)練、監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL):

  • 在預(yù)訓(xùn)練階段,研究團(tuán)隊(duì)結(jié)合大規(guī)模圖文交錯(cuò)多模態(tài)語(yǔ)料和長(zhǎng)上下文內(nèi)容,強(qiáng)化了模型對(duì)復(fù)雜圖文及視頻的處理能力;
  • 在 SFT 階段,他們引入了顯式「思維鏈」格式訓(xùn)練樣本,增強(qiáng)了模型的因果推理與多模態(tài)理解能力;
  • 最后,在 RL 階段,他們引入了全領(lǐng)域多模態(tài)課程強(qiáng)化學(xué)習(xí),通過(guò)構(gòu)建多領(lǐng)域獎(jiǎng)勵(lì)系統(tǒng)(Reward System),結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)與基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF),模型在 STEM 問(wèn)題、多模態(tài)定位、Agent 任務(wù)等方面獲得全面優(yōu)化。

憑借這些技術(shù)創(chuàng)新,GLM-4.5V 在涵蓋圖像理解、視頻理解、GUI、文檔理解等任務(wù)的41 個(gè)公開(kāi)視覺(jué)多模態(tài)榜單中綜合效果達(dá)到了開(kāi)源 SOTA 水平,這和我們?cè)趯?shí)測(cè)中體驗(yàn)到的結(jié)果是一致的。



AI 模型競(jìng)爭(zhēng)新拐點(diǎn):從跑分到實(shí)戰(zhàn)

無(wú)論是 OpenAI 前幾天的 GPT-5 發(fā)布會(huì),還是智譜這次開(kāi)源 GLM-4.5V 的對(duì)外展示。我們能感覺(jué)到一個(gè)明顯的信號(hào):模型廠商對(duì)模型在真實(shí)場(chǎng)景和體驗(yàn)中的實(shí)際效果的重視已經(jīng)遠(yuǎn)超之前重點(diǎn)宣傳的 benchmark 成績(jī)。這一方面是因?yàn)?,benchmark 每次更新,都會(huì)很快飽和,失去其區(qū)分模型性能的初衷。另一方面也是因?yàn)?,只有體驗(yàn)足夠好、真能解決問(wèn)題的模型才會(huì)真的被使用。

而在真正解決問(wèn)題的過(guò)程中,大家對(duì)于視覺(jué)推理、Agent 能力的需求可以說(shuō)是無(wú)處不在。一問(wèn)一答、快問(wèn)快答的 chat 模式逐漸被深度推理、Agent 模式所取代,而且對(duì)話(huà)中還要包含大量的上下文信息,尤其是多模態(tài)信息。

GLM-4.5V 的開(kāi)源恰逢其時(shí)。它為開(kāi)發(fā)者提供了一個(gè)在真實(shí)場(chǎng)景中表現(xiàn)優(yōu)異的多模態(tài)基礎(chǔ)模型。而且相比于閉源模型,開(kāi)源意味著更高的透明度和可控性,開(kāi)發(fā)者可以根據(jù)具體業(yè)務(wù)需求進(jìn)行深度定制和優(yōu)化。更重要的是,這種開(kāi)源策略將推動(dòng)整個(gè)行業(yè)從單純的性能競(jìng)賽轉(zhuǎn)向?qū)嵱脙r(jià)值的創(chuàng)造,讓 AI 技術(shù)真正落地到各行各業(yè)的具體應(yīng)用場(chǎng)景中。

從這個(gè)角度來(lái)看,智譜開(kāi)放的不只是模型,更是一次讓無(wú)數(shù)開(kāi)發(fā)者共同塑造 AI 未來(lái)的機(jī)會(huì)。

文中視頻鏈接:https://mp.weixin.qq.com/s/SpfmMPU_fsRIzUcHC1Dasw

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
靈隱寺被扒個(gè)底朝天,方丈身世曝光?網(wǎng)友:比釋永信還厲害?

靈隱寺被扒個(gè)底朝天,方丈身世曝光?網(wǎng)友:比釋永信還厲害?

小嵩
2025-08-07 20:11:39
去醫(yī)院時(shí)千萬(wàn)別做這幾種檢查?不僅沒(méi)有好處,還會(huì)產(chǎn)生這些影響?

去醫(yī)院時(shí)千萬(wàn)別做這幾種檢查?不僅沒(méi)有好處,還會(huì)產(chǎn)生這些影響?

觀星賞月
2025-08-12 09:39:01
美俄商討俄烏?;?,用烏克蘭領(lǐng)土“交換”烏克蘭領(lǐng)土

美俄商討俄烏?;?,用烏克蘭領(lǐng)土“交換”烏克蘭領(lǐng)土

山河路口
2025-08-09 23:59:03
郵報(bào):前水晶宮后衛(wèi)窩藏19.7公斤價(jià)值236萬(wàn)鎊冰毒被判入獄14年

郵報(bào):前水晶宮后衛(wèi)窩藏19.7公斤價(jià)值236萬(wàn)鎊冰毒被判入獄14年

直播吧
2025-08-12 06:47:04
總被說(shuō)“活不下去”的豐田,又成了全球第一

總被說(shuō)“活不下去”的豐田,又成了全球第一

金角財(cái)經(jīng)
2025-08-11 15:23:54
北京將有中到大雨、局地暴雨,影響晚高峰

北京將有中到大雨、局地暴雨,影響晚高峰

新京報(bào)
2025-08-12 12:44:07
曼聯(lián)這是奔著爭(zhēng)冠去???2.3億買(mǎi)前鋒只是開(kāi)始,還要再買(mǎi)多納魯馬

曼聯(lián)這是奔著爭(zhēng)冠去啊?2.3億買(mǎi)前鋒只是開(kāi)始,還要再買(mǎi)多納魯馬

寶哥愛(ài)足球
2025-08-11 13:17:01
菲律賓35艘船包圍黃巖島,052D攜海警迎戰(zhàn),馬科斯反問(wèn)中國(guó)一句話(huà)

菲律賓35艘船包圍黃巖島,052D攜海警迎戰(zhàn),馬科斯反問(wèn)中國(guó)一句話(huà)

肖茲探秘說(shuō)
2025-08-12 14:33:59
面對(duì)特朗普翻臉掀桌!莫迪已回天乏術(shù),印度的困境,中國(guó)也救不了

面對(duì)特朗普翻臉掀桌!莫迪已回天乏術(shù),印度的困境,中國(guó)也救不了

貓眼觀史
2025-08-11 14:20:08
肚量最大的四個(gè)星座

肚量最大的四個(gè)星座

星座葉大仙
2025-08-12 13:43:04
男籃亞洲杯最戲劇性逆襲!中國(guó)隊(duì)苦主神奇逆轉(zhuǎn):淘汰東道主晉級(jí)!

男籃亞洲杯最戲劇性逆襲!中國(guó)隊(duì)苦主神奇逆轉(zhuǎn):淘汰東道主晉級(jí)!

籃球快餐車(chē)
2025-08-12 03:12:36
美軍懵了,全球最強(qiáng)超音速巡航導(dǎo)彈中國(guó)停產(chǎn),理由竟是:技術(shù)落后

美軍懵了,全球最強(qiáng)超音速巡航導(dǎo)彈中國(guó)停產(chǎn),理由竟是:技術(shù)落后

南宮一二
2025-08-08 13:32:03
民眾黨稱(chēng)“大陸非外國(guó)”,民進(jìn)黨氣急敗壞,賴(lài)清德遭遇重大打擊

民眾黨稱(chēng)“大陸非外國(guó)”,民進(jìn)黨氣急敗壞,賴(lài)清德遭遇重大打擊

DS北風(fēng)
2025-08-12 15:05:04
女人是不是經(jīng)常過(guò)兩性生活,看她這三個(gè)地方就知道了!

女人是不是經(jīng)常過(guò)兩性生活,看她這三個(gè)地方就知道了!

素然追光
2025-07-08 20:25:48
網(wǎng)友生日當(dāng)天被女友氣瘋!體內(nèi)殘留兩個(gè)避孕套,稱(chēng):個(gè)人衛(wèi)生不好

網(wǎng)友生日當(dāng)天被女友氣瘋!體內(nèi)殘留兩個(gè)避孕套,稱(chēng):個(gè)人衛(wèi)生不好

社會(huì)醬
2025-07-10 17:48:15
還是沒(méi)有熬過(guò)楊振寧!陪伴21年后,冷凍9顆卵子的翁帆痛苦嗎?

還是沒(méi)有熬過(guò)楊振寧!陪伴21年后,冷凍9顆卵子的翁帆痛苦嗎?

明月聊史
2025-07-17 15:29:09
中國(guó)9.3大閱兵,“五?!鳖I(lǐng)導(dǎo)人齊聚幾乎沒(méi)可能

中國(guó)9.3大閱兵,“五?!鳖I(lǐng)導(dǎo)人齊聚幾乎沒(méi)可能

陳穟侃故事
2025-08-11 22:03:01
硬剛!Slater:為了恢復(fù)自由球員身份,庫(kù)明加愿意接受資質(zhì)報(bào)價(jià)

硬剛!Slater:為了恢復(fù)自由球員身份,庫(kù)明加愿意接受資質(zhì)報(bào)價(jià)

移動(dòng)擋拆
2025-08-12 06:58:10
“最硬核”產(chǎn)婦火了,待產(chǎn)劈叉三小時(shí)開(kāi)十指,十分鐘無(wú)側(cè)切順產(chǎn)

“最硬核”產(chǎn)婦火了,待產(chǎn)劈叉三小時(shí)開(kāi)十指,十分鐘無(wú)側(cè)切順產(chǎn)

菁媽育兒
2025-08-01 14:30:35
我們不要依賴(lài)中國(guó)!伊朗學(xué)者一針見(jiàn)血,呼吁伊朗絕不能過(guò)度依賴(lài)。

我們不要依賴(lài)中國(guó)!伊朗學(xué)者一針見(jiàn)血,呼吁伊朗絕不能過(guò)度依賴(lài)。

回京歷史夢(mèng)
2025-08-12 14:38:51
2025-08-12 15:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11067文章數(shù) 142415關(guān)注度
往期回顧 全部

科技要聞

特朗普考慮允許英偉達(dá)向中國(guó)出售Blackwell

頭條要聞

牛彈琴:特朗普釋放的最新信號(hào) 讓歐洲人倒吸一口涼氣

頭條要聞

牛彈琴:特朗普釋放的最新信號(hào) 讓歐洲人倒吸一口涼氣

體育要聞

恭喜!喬治娜同意C羅求婚:我愿意

娛樂(lè)要聞

文章大G車(chē)副駕疑姚笛 舊人重逢引猜測(cè)

財(cái)經(jīng)要聞

重磅!中美再次暫停實(shí)施24%的關(guān)稅90天

汽車(chē)要聞

從德系精工到中國(guó)智慧 一汽奧迪的豪華進(jìn)化論

態(tài)度原創(chuàng)

本地
房產(chǎn)
數(shù)碼
家居
藝術(shù)

本地新聞

22℃的吉林夏天|山色入松花,湖光瀲滟恰正好

房產(chǎn)要聞

29.6億!海南“地王”片區(qū),超級(jí)城更即將出場(chǎng)!

數(shù)碼要聞

華碩公布 a 豆香氛機(jī)械鍵盤(pán):65% 配列,多媒體旋鈕亦是香氛匣

家居要聞

現(xiàn)代溫馨 灰咖營(yíng)造現(xiàn)代感

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 亚州天堂AV亚州天堂| 国产毛多水多高潮高清| 6080中文无码| 沈阳熟女25分钟高潮| 亚洲动漫成人一区二区| 久9视频这里只有精品8| 亚洲国产AV一区二区三区丶| 五月天久久久噜噜噜久久| 东京热人妻一区二区三区| 人人操天天骑人人睡福利| 丰满少妇久久无码精品| 国产精品内射在线免费看| 国产美女无套 在线播放免费| 欧美精品性爱视频| 亚洲欧美一区二区三区粉嫩| 久久久久久中文字幕有精品| 夜夜躁日日躁狠狠躁天气预报| 色婷婷av在线| 成人国产永久福利看片| 四川女人高潮| 亚洲第一女人av| 国产在线看你懂的| 亚洲三级片在线观看| 内射无码专区久久亚洲| 久久婷婷视频亚洲| 国产精品99久久精品| 亚洲va无码手机在线电影| 久久人妻久久| 免费av黄片| 熟妇人妻av无码一区二区三区| 绿巨人www视频网站下载入口| 男男无码H黄肉动漫在线观看| 欧美成人一区二区在线观看| 欧美熟妇人妻| 亚洲狠狠爱一区二区三区| 性双飞免费欧美| 久久久国产精品亚洲一区| 欧洲美熟女乱又伦免费视频| 好爽操我a成人一区二区| 免费精品﹣色哟哟| 亚洲乱码无码永久不卡在线 |