夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,智譜開源千億參數(shù)視覺大模型,能區(qū)分麥當(dāng)勞肯德基炸雞,看圖猜地點(diǎn)擊敗99%人類

0
分享至


智東西
作者 陳駿達(dá) 江宇
編輯 云鵬

智東西8月11日報(bào)道,今晚,智譜開源了其最新一代視覺理解模型GLM-4.5V。這一模型基于智譜新一代文本基座模型GLM-4.5-Air訓(xùn)練而來,延續(xù)上一代視覺推理模型GLM-4.1V-Thinking的技術(shù)路線,擁有1060億參數(shù),120億激活參數(shù)。GLM-4.5V還新增了思考模式的開關(guān)功能,用戶可自主控制模型是否進(jìn)行思考。

這一模型的視覺能力解鎖了一些有趣的玩法。例如,模型現(xiàn)在可以看懂麥當(dāng)勞和肯德基炸雞翅的區(qū)別了,還從炸雞的色澤、外皮質(zhì)感等角度,進(jìn)行了全面分析。


GLM-4.5V還可以看圖猜地點(diǎn),智譜稱,GLM-4.5V和人類玩家一起參與了拍圖猜地點(diǎn)積分賽,加入比賽7天后,GLM-4.5V的積分直接排到了賽事網(wǎng)站的第66名,超越了99%的人類用戶。


智東西還讓這一模型根據(jù)網(wǎng)頁截圖,打造了小紅書的同款網(wǎng)頁,實(shí)現(xiàn)了十之八九的相似度。


智譜分享了GLM-4.5V在42個(gè)基準(zhǔn)測試中的成績,這些測試覆蓋圖像、視頻、文檔理解以及圖形界面智能體操作等常見任務(wù)。GLM-4.5V在其中41個(gè)測試中,得分超過同尺寸模型,如Step-3、Qwen2.5-VL等。


目前,這一模型已經(jīng)在開源平臺Hugging Face、魔搭、GitHub發(fā)布,并且額外提供了FP8量化版本。智譜還為其打造了一個(gè)體驗(yàn)App,不過目前僅有Mac端可用(且必須為非Intel芯片)。

用戶還可在z.ai選擇GLM-4.5V模型,上傳圖片或視頻進(jìn)行體驗(yàn),或在智譜清言APP/網(wǎng)頁版,上傳圖片,開啟“推理模式”進(jìn)行體驗(yàn)。

為幫助開發(fā)者體驗(yàn)GLM-4.5V的模型能力,智譜同步開源了一款桌面助手應(yīng)用。該桌面應(yīng)用可實(shí)時(shí)截屏、錄屏獲取屏幕信息,并依托GLM-4.5V處理多種視覺推理任務(wù),日常處理如代碼輔助、視頻內(nèi)容分析、游戲解答、文檔解讀等多類視覺任務(wù)。

GLM-4.5V API現(xiàn)已上線智譜開放平臺BigModel.cn,并提供了2000萬 tokens的免費(fèi)資源包。其API最低價(jià)為每百萬輸入tokens/2元、每百萬輸出tokens/6元,支持圖像、視頻、文件和文本輸入。


模型上線后,智東西第一時(shí)間對其能力進(jìn)行了體驗(yàn),并梳理了這款模型背后的部分技術(shù)創(chuàng)新。

模型開源地址:

https://github.com/zai-org/GLM-V

https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

桌面助手開源地址:

https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App

一、實(shí)測看圖報(bào)坐標(biāo)略有翻車,網(wǎng)頁復(fù)現(xiàn)相似度較高

智東西在搭載GLM-4.5V的桌面助手應(yīng)用中體驗(yàn)了模型的部分功能。這一應(yīng)用中提供了思考開關(guān)等設(shè)置,用戶還可自定義提示詞、模型設(shè)置等,提供了較大的自由度。


要使用模型,用戶需要提供GLM-4.5V的API密鑰,可在智譜的開放平臺獲得。


測試中,智東西首先使用了官方提供的一張照片,模型能夠準(zhǔn)確猜出地點(diǎn),并按照要求精確到經(jīng)緯度。


隨后,我們上傳了自己的測試圖,選用了一張“靈隱寺一角”的照片,這張圖難度不小——畫面中雖有黃色墻體、深色屋頂?shù)墓沤ㄖ?、高大樹木與游客,但沒有明顯的地標(biāo)性信息。右下角的路燈上雖印有“靈隱寺”字樣,但因使用的并非簡體字,未被系統(tǒng)識別出來。


系統(tǒng)在分析中誤將路燈上的“靈隱寺”識別為“寶原青”,并將圖片上的“感恩”識別成“威勝”,同時(shí)捕捉到另一處“包容”字樣。結(jié)合這些文字與環(huán)境特征,系統(tǒng)最終將結(jié)果推斷為四川都江堰的青城山。雖然未能準(zhǔn)確匹配真實(shí)地點(diǎn),但推理過程細(xì)節(jié)豐富,結(jié)果具備一定參考價(jià)值。


這一模型具備一定的GUI(圖形用戶界面)能力,這對理解、操作網(wǎng)頁或App等Agent場景至關(guān)重要。官方Demo中,GLM-4.5V可以幫助用戶在眼花繚亂的購物網(wǎng)站截圖中,計(jì)算出折扣信息,還對生成結(jié)果進(jìn)行反思和確認(rèn)。智譜的思考與執(zhí)行智能體AutoGLM最新版,就將使用GLM-4.5V。


生產(chǎn)力方面,GLM-4.5V現(xiàn)在可以根據(jù)網(wǎng)頁錄屏、截圖等復(fù)現(xiàn)前端代碼,分析畫面中內(nèi)容、樣式、布局等元素,推測背后的代碼,然后對交互邏輯進(jìn)行建模與實(shí)現(xiàn)。

智東西體驗(yàn)了App端提供的“網(wǎng)頁錄屏/截圖,復(fù)現(xiàn)特定功能”能力。用戶可在頁面上直接點(diǎn)擊截屏或局部錄屏按鈕,將錄制的視頻上傳至系統(tǒng),由系統(tǒng)進(jìn)行壓縮處理后,推理分析生成對應(yīng)的HTML代碼,渲染可交互的前端。

在實(shí)際測試中,因訪問量可能過大,系統(tǒng)在近50分鐘內(nèi)未返回結(jié)果。隨后,我們將相同任務(wù)提交至智譜官方平臺,并以截圖形式交給GLM-4.5V,不到10分鐘便生成了網(wǎng)頁復(fù)刻版本。


▲智東西實(shí)測結(jié)果(結(jié)果鏈接:https://chat.z.ai/space/f00sx6s4jgp1-art)

生成的頁面在信息呈現(xiàn)上比小紅書網(wǎng)頁端更豐富——除點(diǎn)贊數(shù)外,還額外顯示評論數(shù)據(jù),并增加了下方功能欄和右上角的通知按鈕。

但在瀑布流對齊效果上未能還原,缺少小紅書“精髓”的布局感。此外,該版本并未實(shí)現(xiàn)交互功能,可能是截圖內(nèi)容無法體現(xiàn)動(dòng)態(tài)操作所致,上傳視頻或許可以改善。

智譜官方Demo展示的案例中,工作人員上傳了一小段知乎網(wǎng)頁版的操作錄像,最終GLM-4.5V交付了一個(gè)相對完整的網(wǎng)頁,點(diǎn)擊、跳轉(zhuǎn)、輸入等功能都正常運(yùn)行。


如果對網(wǎng)頁局部位置不滿意,又不知道該如何在代碼中定位問題,用戶可以直接在網(wǎng)頁截圖中圈出不滿意的位置,模型能直接對背后代碼進(jìn)行修改。


在PPT、PDF場景,GLM-4.5V可閱讀含有大量圖表的復(fù)雜長文本,能夠?qū)ξ谋具M(jìn)行總結(jié)、翻譯、圖表提取等操作。


模型并不是通過OCR實(shí)現(xiàn)圖像信息提取的,而是直接用視覺方式讀取圖片,能在一定程度上避免了信息提取過程中的錯(cuò)誤傳遞,對于圖表、表格等視覺化、結(jié)構(gòu)化信息的保留和解讀準(zhǔn)確性得到提升。

博客介紹,GLM-4.5V在視覺定位這種傳統(tǒng)CV領(lǐng)域表現(xiàn)不錯(cuò),可以根據(jù)用戶提問,精準(zhǔn)識別、分析、定位目標(biāo)物體并輸出其坐標(biāo)框。

這一能力可運(yùn)用于安全與質(zhì)量檢查、高空遙感監(jiān)測分析。相較于傳統(tǒng)的基于視覺模型的物體識別,GLM-4.5V 憑借更豐富的世界知識與更強(qiáng)大的語義理解能力,能夠通過推理理解更復(fù)雜的定位指令。

二、支持64K多模態(tài)上下文,STEM、多模態(tài)定位、Agent獲針對性提升

GLM-4.5V由視覺編碼器、MLP適配器和語言解碼器三部分組成,支持64K多模態(tài)長上下文,支持圖像與視頻輸入,并通過三維卷積提升視頻處理效率。


模型采用雙三次插值機(jī)制,有效增強(qiáng)了模型對高分辨率及極端寬高比圖像的處理能力與穩(wěn)健性;同時(shí),引入三維旋轉(zhuǎn)位置編碼(3D-RoPE),顯著強(qiáng)化了模型對多模態(tài)信息的三維空間關(guān)系的感知與推理能力。

GLM-4.5V 采用三階段策略:預(yù)訓(xùn)練、監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)。

其中,在預(yù)訓(xùn)練階段,智譜結(jié)合大規(guī)模圖文交錯(cuò)多模態(tài)語料和長上下文內(nèi)容,強(qiáng)化了模型對復(fù)雜圖文及視頻的處理能力。

在SFT階段,智譜引入了顯式“思維鏈”格式訓(xùn)練樣本,增強(qiáng)了GLM-4.5V的因果推理與多模態(tài)理解能力。

最后,RL階段,模型經(jīng)歷了全領(lǐng)域多模態(tài)課程強(qiáng)化學(xué)習(xí),通過構(gòu)建多領(lǐng)域獎(jiǎng)勵(lì)系統(tǒng)(Reward System),結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)與基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),優(yōu)化了其在STEM問題、多模態(tài)定位、Agent任務(wù)等方面的能力。

結(jié)語:視覺理解已成Agent關(guān)鍵能力

視覺理解一直被認(rèn)為是Agent與電腦、現(xiàn)實(shí)世界等交互的重要能力之一,在純文本模態(tài)之外,Agent還需要理解圖像、視頻等信息,才能補(bǔ)齊它與人類認(rèn)知方式之間的差距。

智譜本次開源的GLM-4.5V擁有一定視覺理解能力,并在GUI等場景展現(xiàn)出了應(yīng)用價(jià)值,其后續(xù)與Agent應(yīng)用的結(jié)合,值得期待。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
關(guān)于社保養(yǎng)老金,網(wǎng)友們正在發(fā)現(xiàn)更多的新內(nèi)幕

關(guān)于社保養(yǎng)老金,網(wǎng)友們正在發(fā)現(xiàn)更多的新內(nèi)幕

清暉有墨
2025-08-11 09:57:09
上任就與中國斷交,“亡國”之際又向中國求援,我國是如何回應(yīng)的

上任就與中國斷交,“亡國”之際又向中國求援,我國是如何回應(yīng)的

顧史
2025-04-14 22:57:41
大冷門!U21女排世錦賽美國爆冷出局

大冷門!U21女排世錦賽美國爆冷出局

小小小白看世界
2025-08-14 06:33:53
拉什福德:范加爾、穆帥和索帥是對我影響最大的教練,穆帥只想贏

拉什福德:范加爾、穆帥和索帥是對我影響最大的教練,穆帥只想贏

直播吧
2025-08-13 16:15:54
67歲梁家輝打戲封神!曾因"我是中國人"被封殺,妻子救了他

67歲梁家輝打戲封神!曾因"我是中國人"被封殺,妻子救了他

娛樂白名單
2025-08-13 18:37:02
在上海被抓捕的四位明星,個(gè)個(gè)臭名遠(yuǎn)揚(yáng)星途慘淡,你知道誰最可恨

在上海被抓捕的四位明星,個(gè)個(gè)臭名遠(yuǎn)揚(yáng)星途慘淡,你知道誰最可恨

我不叫阿哏
2025-08-02 11:12:54
12.9 英寸!蘋果新品即將發(fā)布,售價(jià) 4300 元起

12.9 英寸!蘋果新品即將發(fā)布,售價(jià) 4300 元起

全是技能
2025-08-13 09:31:59
71歲濮存昕近照刷屏:禿頂穿破戲服,憑一句話打臉流量明星

71歲濮存昕近照刷屏:禿頂穿破戲服,憑一句話打臉流量明星

娛樂白名單
2025-08-13 18:33:30
原知名演員高虎被曝送外賣!已經(jīng)息影9年,曾坦言不會復(fù)出

原知名演員高虎被曝送外賣!已經(jīng)息影9年,曾坦言不會復(fù)出

史紀(jì)文譚
2025-04-09 17:27:20
塔利班狠狠給中國上了一課,流氓國家,最好少打交道

塔利班狠狠給中國上了一課,流氓國家,最好少打交道

華人星光
2025-08-10 12:53:14
重磅!基本養(yǎng)老金要大漲?人社部最新回應(yīng)來了,退休人員速看!

重磅!基本養(yǎng)老金要大漲?人社部最新回應(yīng)來了,退休人員速看!

新國學(xué)文化
2025-08-13 09:35:32
8月15日至17日,天安門地區(qū)及相關(guān)道路分時(shí)、分段采取臨時(shí)交通管理措施

8月15日至17日,天安門地區(qū)及相關(guān)道路分時(shí)、分段采取臨時(shí)交通管理措施

政知新媒體
2025-08-14 00:27:04
五糧液成都新地標(biāo)吊起“首節(jié)鋼柱”,2028年建成!

五糧液成都新地標(biāo)吊起“首節(jié)鋼柱”,2028年建成!

GA環(huán)球建筑
2025-08-13 21:55:25
63歲男人哭訴:跳交誼舞一年,我就怕了,那些女人都不是省油的燈

63歲男人哭訴:跳交誼舞一年,我就怕了,那些女人都不是省油的燈

拾代談生活
2025-08-14 08:34:23
小米汽車再被指“提前付尾款”:車主屢次投訴無果后,小米專員親自登門道歉

小米汽車再被指“提前付尾款”:車主屢次投訴無果后,小米專員親自登門道歉

三言科技
2025-08-13 12:17:50
這位50歲阿姨火了!健身跑步20年,這顏值和身材吊打少女!

這位50歲阿姨火了!健身跑步20年,這顏值和身材吊打少女!

馬拉松跑步健身
2025-08-11 06:30:09
18歲男孩賴床不起,當(dāng)兵體檢卻確診艾滋,父親看到他手機(jī)后:給我滾

18歲男孩賴床不起,當(dāng)兵體檢卻確診艾滋,父親看到他手機(jī)后:給我滾

懸案解密檔案
2025-08-13 10:04:14
網(wǎng)盤中的加密文件,二十年后依然回味無窮

網(wǎng)盤中的加密文件,二十年后依然回味無窮

街機(jī)時(shí)代
2025-04-27 16:10:02
特朗普告訴澤連斯基,俄羅斯打下來的領(lǐng)土,烏克蘭憲法也管不了

特朗普告訴澤連斯基,俄羅斯打下來的領(lǐng)土,烏克蘭憲法也管不了

影孖看世界
2025-08-12 19:49:04
賣不動(dòng)的白酒,占領(lǐng)山姆們的貨架

賣不動(dòng)的白酒,占領(lǐng)山姆們的貨架

19號商研社
2025-08-12 15:38:38
2025-08-14 09:23:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10305文章數(shù) 116824關(guān)注度
往期回顧 全部

科技要聞

監(jiān)管重拳出擊,直指智駕虛假宣傳、濫用OTA

頭條要聞

特朗普被歐爾班告知"中國在貿(mào)易上會贏" 立刻嘴硬辯解

頭條要聞

特朗普被歐爾班告知"中國在貿(mào)易上會贏" 立刻嘴硬辯解

體育要聞

擁有133年歷史,張玉寧老東家被逐出職業(yè)聯(lián)賽

娛樂要聞

趙露思掀桌,這局能贏?

財(cái)經(jīng)要聞

指數(shù)突破!股基增量資金加速入市

汽車要聞

全新家族式設(shè)計(jì) 新款豐田鋒蘭達(dá)假想圖曝光

態(tài)度原創(chuàng)

家居
藝術(shù)
健康
公開課
軍事航空

家居要聞

黑白現(xiàn)代 分隔獨(dú)立空間

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

急診科專家解答動(dòng)物抓咬傷八大問題

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

歐烏給美俄峰會提條件

無障礙瀏覽 進(jìn)入關(guān)懷版 日韩 成人 人兽| 手机儿免费毛片| 欧美性受xxxx狂喷水| 日本边添边摸边做边爱喷水| 亚洲视频中文字幕在线不卡| 人人透人人爽| 成人福利在线看| 无码人妻丰满熟妇精品区| 国产一区二区不卡在线视频| 人妻熟女一区二区三区app下载| 色人妻AV网| 亚洲精品国产情侣av在线| BBW与WB和老妇女| 尤物直播在线看网址| 亚洲粉嫩高潮的18p| 亚洲小说乱欧美另类| 韩国的无码av看免费大片在线| 免费avwz| 奇米视频无码| 亚洲国产成人超a在线播放| 18岁毛片在线观看| 7777欧美成是人在线观看| 91精品美女高潮喷白浆| 麻豆国产成人av高清在线观看| a级亚洲无码| 亚洲国产日韩欧美一区二区三区| 丁香婷激情三一区| 欧美少妇ⅩⅩⅩ| 亚洲在线国产日韩欧美| 亚洲日韩精品麻豆九九九久久久久久| 国产成人无码a区在线观看导航| 欧美成人VA免费大片视频| 一区二区三区欧美自拍| 久久久久c0m| 欧美高清性xxxx| 操逼网站AV| 大学生酒店呻吟在线观看| 女人被狂C躁到高潮视频免费| 色婷婷色综合| 在线播放尤物美女AV| 免费中文熟妇在线影片|