夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

模型“看視頻寫網(wǎng)頁”,GPT-5僅36.35分!首個video2code基準(zhǔn)發(fā)布

0
分享至

IWR-Bench團隊投稿
量子位 | 公眾號 QbitAI

多模態(tài)大模型在根據(jù)靜態(tài)截圖生成網(wǎng)頁代碼(Image-to-Code)方面已展現(xiàn)出不俗能力,這讓許多人對AI自動化前端開發(fā)充滿期待。

然而,一個網(wǎng)頁的真正價值遠不止于其靜態(tài)布局。用戶的點擊、篩選、表單提交,乃至游戲中的每一步操作,都構(gòu)成了其核心的交互功能。這些動態(tài)、有狀態(tài)的交互邏輯,恰恰是傳統(tǒng)靜態(tài)評測無法觸及的盲區(qū)。

為了填補這一關(guān)鍵空白,上海人工智能實驗室聯(lián)合浙江大學(xué)等機構(gòu)的研究者,提出了IWR-Bench——一個旨在更真實地評估LVLM交互式網(wǎng)頁重建能力的評測基準(zhǔn)。



IWR-Bench的核心轉(zhuǎn)變在于,它不再提供靜態(tài)截圖,而是要求模型觀看一段記錄了完整用戶操作流程的視頻,并結(jié)合網(wǎng)頁所需的全部靜態(tài)資源(如圖片、圖標(biāo)、子視頻等),去理解并復(fù)現(xiàn)整個頁面的動態(tài)行為。任務(wù)的復(fù)雜性跨度很大,從簡單的瀏覽功能,到需要逆向工程游戲規(guī)則的2048、訂機票等應(yīng)用。

這項任務(wù)的難度遠超預(yù)期。在對28個主流模型的全面測試中,即便是表現(xiàn)最好的模型GPT-5,其綜合得分也僅有36.35分。這一結(jié)果清晰地指出了當(dāng)前模型的核心短板,IWR-Bench不僅為領(lǐng)域提供了一個更具挑戰(zhàn)性的新目標(biāo),也為未來的研究指出了一個新的方向。

核心亮點

  • 首個視頻輸入的交互網(wǎng)頁重建評測:從“image-to-code”邁向“video-to-code”,對網(wǎng)頁事件驅(qū)動邏輯的生成提出剛性要求
  • 真實場景、完整資源:113個網(wǎng)站任務(wù)、1001次交互動作;提供全部靜態(tài)資源并匿名化命名,逼近真實開發(fā)
  • 自動化Agent-as-a-Judge:用編程代理復(fù)現(xiàn)動作軌跡,雙重評分同時評估功能正確性(IFS)與視覺保真度(VFS)
  • 28個LVLM系統(tǒng)測評:最佳模型總分36.35%,IFS僅24.39%、VFS為64.25%;通用多模態(tài)模型顯著優(yōu)于“視頻專長”模型



10個代表性模型在IWR-Bench任務(wù)上的評測總覽

覆蓋全面的真實世界網(wǎng)頁任務(wù)

現(xiàn)有的網(wǎng)頁代碼生成基準(zhǔn)(如Design2Code、WebSight)主要聚焦于靜態(tài)截圖轉(zhuǎn)代碼(image2code),而IWR-Bench則專注于動態(tài)視頻轉(zhuǎn)可交互網(wǎng)頁代碼(video2code):

傳統(tǒng)任務(wù): 給AI一張網(wǎng)頁截圖 → 生成HTML/CSS代碼
IWR任務(wù): 給AI一段用戶操作視頻 + 網(wǎng)頁靜態(tài)資源 → 生成包含完整交互邏輯的代碼

值得一提的是,每個任務(wù)都提供了完整的靜態(tài)資源(圖片、圖標(biāo)、視頻等),并且所有文件名都經(jīng)過匿名化處理(如logo.png → asset_001.png),迫使模型必須依靠視覺匹配而非語義推理。靜態(tài)資源的引入,也為直接基于渲染結(jié)果而非HTML代碼進行評測提供了關(guān)鍵幫助。

下圖為IWR-Bench任務(wù)和評測總覽,模型輸入包括(a)用戶交互視頻,(b)爬取的靜態(tài)資源的縮略圖與文件路徑,要求模型輸出html代碼。評測時,通過agent在瀏覽器上基于(c)標(biāo)注的操作軌跡進行操作,以實現(xiàn)基于檢查點的自動化評分。



IWR任務(wù)對模型的三大核心挑戰(zhàn)包括:

  • 多模態(tài)理解:從視頻幀精準(zhǔn)捕捉布局、文本與組件狀態(tài)
  • 多模態(tài)推理:在時間序列中推斷交互邏輯與因果關(guān)系,并將視頻元素與靜態(tài)資源可靠匹配與綁定
  • 高級代碼生成:將推斷出的狀態(tài)機與事件邏輯實現(xiàn)為可運行的前端代碼



IWR任務(wù)的規(guī)模和覆蓋范圍如下:

  • 113個來自真實網(wǎng)站的任務(wù),分辨率覆蓋桌面與移動端(19種,移動占10.62%)
  • 共1001個交互動作,平均每任務(wù)8.9步;其中620個視覺檢查點、403個邏輯斷言
  • 復(fù)雜任務(wù)包含2048、掃雷等完整游戲邏輯與GUI重建

評測框架和指標(biāo)

IWR-Bench采用了一套嚴(yán)格的自動化評測協(xié)議,通過編程代理(基于browser-use庫)來模擬真實用戶的網(wǎng)頁操作。

評測流程

  • 操作執(zhí)行:代理按照預(yù)定義的動作序列操作生成的網(wǎng)頁
  • 功能驗證:檢查每個操作是否能正確執(zhí)行,以及邏輯斷言是否滿足
  • 視覺對比:在關(guān)鍵檢查點截圖,與參考頁面進行多維度對比

雙重評分體系

交互功能分數(shù)(IFS):衡量功能正確性

  • 計算成功完成的操作占總操作數(shù)的比例, 操作失敗包括瀏覽器執(zhí)行失敗、邏輯斷言失敗
  • SOTA模型GPT-5的IFS僅為24.39%

視覺保真度分數(shù)(VFS):衡量視覺還原度 - 結(jié)合低級特征(OCR文本相似度、DINO結(jié)構(gòu)相似度)

  • 融合高級評估(由Gemini-2.5-Pro進行整體評判)
  • SOTA模型GPT-5的VFS為64.25%

評測結(jié)果



IWR-Bench在28個模型上的評測結(jié)果

研究人員從中得到了三個關(guān)鍵發(fā)現(xiàn)。

首先,功能實現(xiàn)是最大瓶頸。

所有模型的VFS都顯著高于IFS,這揭示了一個核心問題:

模型能夠較好地復(fù)現(xiàn)靜態(tài)視覺效果,但在生成事件驅(qū)動邏輯方面嚴(yán)重不足。

例如,GPT-5能夠達到64.25%的視覺保真度,但功能正確性僅為24.39%——這意味著即使頁面”看起來對”,實際操作時有75%以上的功能無法正常工作。

其次,thinking版本帶來部分提升

“thinking”版本模型普遍表現(xiàn)更好:

  • Claude-Sonnet-4 (thinking) vs. 普通版:34.62 vs. 34.00
  • Claude-Opus-4 (thinking) vs. 普通版:34.13 vs. 33.33
  • Gemini-2.5-Pro (thinking) vs. 普通版:30.36 vs. 30.31

但提升幅度有限,說明基礎(chǔ)模型能力仍是決定性因素。

另外,現(xiàn)在的專有視頻理解模型效果不如通用多模態(tài)模型。

專門針對視頻理解訓(xùn)練的模型(如VideoLLaMA3、InternVideo)表現(xiàn)墊底,而通用的多模態(tài)大模型表現(xiàn)更優(yōu)。這表明,該任務(wù)與傳統(tǒng)的視頻理解任務(wù)具有顯著的差異性。

IWR-Bench的推出,標(biāo)志著AI從“看懂靜態(tài)網(wǎng)頁”到“理解動態(tài)交互”的關(guān)鍵一步。36分的成績告訴我們:這條路還很長。這不僅是對AI多模態(tài)能力的一次全面體檢,更是為多模態(tài)能力涌現(xiàn)指明了下一階段的攻堅方向。

IWR-Bench由上海人工智能實驗室聯(lián)合浙大、2077AI、港中文、斯坦福等單位共同完成,第一作者陳楊是浙江大學(xué)碩士生,通訊作者為上海人工智能實驗室沈宇帆、石博天。

論文鏈接:
https://arxiv.org/abs/2509.24709
代碼地址:
https://github.com/L-O-I/IWR-Bench
數(shù)據(jù)地址:
https://huggingface.co/datasets/IWR-Bench/IWR-Bench
項目主頁:
https://l-o-i.github.io/IWR-Bench/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
郵報:英超單膝跪地儀式再次被噓,利茲前鋒勒溫拒絕下跪

郵報:英超單膝跪地儀式再次被噓,利茲前鋒勒溫拒絕下跪

雷速體育
2025-10-19 11:27:04
穿白襯衫與黑馬甲的空姐

穿白襯衫與黑馬甲的空姐

可樂談情感
2025-10-15 14:40:32
剛播2小時,拿下飆升榜第一,觀眾:終于有部值得熬夜追的刑偵劇

剛播2小時,拿下飆升榜第一,觀眾:終于有部值得熬夜追的刑偵劇

娛樂官已上任
2025-10-18 08:34:12
張惠妹瘦到認不出!4片牛肉食譜走紅,網(wǎng)友:這才是真正的狠人

張惠妹瘦到認不出!4片牛肉食譜走紅,網(wǎng)友:這才是真正的狠人

張發(fā)林
2025-10-10 17:45:08
尼日爾撕毀4億美元合同,驅(qū)逐中國高管,我方暗藏后手,給它狠狠教訓(xùn)

尼日爾撕毀4億美元合同,驅(qū)逐中國高管,我方暗藏后手,給它狠狠教訓(xùn)

詭譎怪談
2025-04-30 23:32:55
唐朝大將薛仁貴坑殺13萬鐵勒人,強娶鐵勒公主為妾,卻活到了70歲

唐朝大將薛仁貴坑殺13萬鐵勒人,強娶鐵勒公主為妾,卻活到了70歲

小豫講故事
2025-09-25 06:00:03
記者:海港主帥穆斯卡特接手流浪者的談判徹底告吹

記者:海港主帥穆斯卡特接手流浪者的談判徹底告吹

雷速體育
2025-10-20 01:57:09
歸化在望!25歲非洲外援4場轟3球:已在中國踢滿105場!

歸化在望!25歲非洲外援4場轟3球:已在中國踢滿105場!

邱澤云
2025-10-19 13:05:27
人類巨星隕落時:逝去與重生,楊振寧的三個面孔

人類巨星隕落時:逝去與重生,楊振寧的三個面孔

澎湃新聞
2025-10-18 22:36:27
翁帆發(fā)文:楊先生離開的時候一定很欣慰,有他多年的陪伴 ,我何其有幸!

翁帆發(fā)文:楊先生離開的時候一定很欣慰,有他多年的陪伴 ,我何其有幸!

每日經(jīng)濟新聞
2025-10-19 12:09:52
特朗普暴露奸商本性!美國200億絕不白花,目的是讓中國徹底出局

特朗普暴露奸商本性!美國200億絕不白花,目的是讓中國徹底出局

手里有讀
2025-10-19 08:45:53
一路走好!繼朱媛媛后,又一知名人士患癌去世,細節(jié)曝光令人惋惜

一路走好!繼朱媛媛后,又一知名人士患癌去世,細節(jié)曝光令人惋惜

林木體育解說
2025-10-15 22:39:03
烏軍突然反攻,被困在扎波羅熱地區(qū)的俄軍投降!

烏軍突然反攻,被困在扎波羅熱地區(qū)的俄軍投降!

知兵
2025-10-19 23:50:48
剛當(dāng)選就被盧秀燕朱立倫敲打劃線!鄭麗文坐穩(wěn)主席需2大破局招數(shù)

剛當(dāng)選就被盧秀燕朱立倫敲打劃線!鄭麗文坐穩(wěn)主席需2大破局招數(shù)

頭條爆料007
2025-10-19 08:24:59
又一個“國家級都市圈”獲批!

又一個“國家級都市圈”獲批!

國是直通車
2025-10-19 18:18:04
12月開始執(zhí)行管制!臺灣省96%稀土靠大陸,美國救不了臺芯片產(chǎn)業(yè)

12月開始執(zhí)行管制!臺灣省96%稀土靠大陸,美國救不了臺芯片產(chǎn)業(yè)

霽寒飄雪
2025-10-19 09:20:58
比變老更可怕的是“大媽三件套”!自以為時髦,實際顯老又顯土

比變老更可怕的是“大媽三件套”!自以為時髦,實際顯老又顯土

觀察鑒娛
2025-10-12 17:51:06
跟同事的老婆回老家,不小心喝了她老爸泡的藥酒

跟同事的老婆回老家,不小心喝了她老爸泡的藥酒

楊木林
2024-04-15 12:15:06
一路走好!僅三天就傳來3位名人離世的消息,最大85歲,最小53歲

一路走好!僅三天就傳來3位名人離世的消息,最大85歲,最小53歲

林木體育解說
2025-10-17 13:40:33
警惕人口戰(zhàn)爭!10億人口“嫌多”,14億人口時卻“嫌少”,為何?

警惕人口戰(zhàn)爭!10億人口“嫌多”,14億人口時卻“嫌少”,為何?

史閣
2025-10-17 09:18:02
2025-10-20 05:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11523文章數(shù) 176308關(guān)注度
往期回顧 全部

科技要聞

獨家|楊振寧:最頂尖的學(xué)生不是教出來的

頭條要聞

盧浮宮失竊藏品清單公布 盜賊手法被指"迅速且粗暴"

頭條要聞

盧浮宮失竊藏品清單公布 盜賊手法被指"迅速且粗暴"

體育要聞

正在爆火的"拼好球" 馬斯克和樊振東也在玩

娛樂要聞

竇驍婚變升級!何超蓮被曝已有新歡

財經(jīng)要聞

星巴克中國股權(quán)出售進入倒計時

汽車要聞

最高15000元兜底 智界R7/S7推出購置稅補貼方案

態(tài)度原創(chuàng)

教育
游戲
家居
藝術(shù)
本地

教育要聞

“大美華師”,重磅上線!

《寶可夢Z-A》M站玩家評分降至4.3!外媒開始盼續(xù)作

家居要聞

因異而生 古今文脈交融

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

考上警犬專業(yè),我和修勾一起卷編制

無障礙瀏覽 進入關(guān)懷版 人人艹,人人摸| аⅴ资源天堂资源库在线| 久久青草免费91观看| 欧美BBBⅩXX| 免费观看精品视频999| 毛片久久99| 高潮无码合集| 亚洲精品国产一区二区| 中国极品少妇XXXX1314| 正在播放美女少妇午夜福利| 亚洲日本韩在线观看| 日本少妇自慰免费网站| 久久久亚洲精品免费| 五月天久久SM小说视频| 国产又色又刺激高潮视频| 久久人人爽人人爽人人爽| 日韩人妻无码视屏| 精品欧美小视频在线观看| 黑人xxx无码| 亚洲成av人片香蕉片| 男人狂桶女人高潮嗷嗷| 国产麻豆熟女| 日日狠狠久久偷偷色综合| 亚洲人成网亚洲欧洲无码| 亚洲欧美国产国产一区二区三区| 国产肥熟女视频一区二区三区| 国产精品理论片在线观看| 国产成人电影一区二区三区| 亚洲AV无码专区国产乱码DVD| 精品人妻中文| 成人在线毛片视频| 亚洲欧美第四色色视频| 亚洲精品美女久久久久久久| 国产主播av福利精品一区| 精品国产伦一区二区三区观看说明| 久c av在线播放| 思思99热| 麻豆一区二区三区| WWWXXX无码在线播放| 亚洲中文字幕无码一久久区| 四房播播网址|