模型“看視頻寫網(wǎng)頁”，GPT-5僅36.35分！首個video2code基準(zhǔn)發(fā)布

2025-10-19 14:59:18　來源: 量子位

北京舉報

分享至

IWR-Bench團隊投稿
量子位 | 公眾號 QbitAI

多模態(tài)大模型在根據(jù)靜態(tài)截圖生成網(wǎng)頁代碼（Image-to-Code）方面已展現(xiàn)出不俗能力，這讓許多人對AI自動化前端開發(fā)充滿期待。

然而，一個網(wǎng)頁的真正價值遠不止于其靜態(tài)布局。用戶的點擊、篩選、表單提交，乃至游戲中的每一步操作，都構(gòu)成了其核心的交互功能。這些動態(tài)、有狀態(tài)的交互邏輯，恰恰是傳統(tǒng)靜態(tài)評測無法觸及的盲區(qū)。

為了填補這一關(guān)鍵空白，上海人工智能實驗室聯(lián)合浙江大學(xué)等機構(gòu)的研究者，提出了IWR-Bench——一個旨在更真實地評估LVLM交互式網(wǎng)頁重建能力的評測基準(zhǔn)。

IWR-Bench的核心轉(zhuǎn)變在于，它不再提供靜態(tài)截圖，而是要求模型觀看一段記錄了完整用戶操作流程的視頻，并結(jié)合網(wǎng)頁所需的全部靜態(tài)資源（如圖片、圖標(biāo)、子視頻等），去理解并復(fù)現(xiàn)整個頁面的動態(tài)行為。任務(wù)的復(fù)雜性跨度很大，從簡單的瀏覽功能，到需要逆向工程游戲規(guī)則的2048、訂機票等應(yīng)用。

這項任務(wù)的難度遠超預(yù)期。在對28個主流模型的全面測試中，即便是表現(xiàn)最好的模型GPT-5，其綜合得分也僅有36.35分。這一結(jié)果清晰地指出了當(dāng)前模型的核心短板，IWR-Bench不僅為領(lǐng)域提供了一個更具挑戰(zhàn)性的新目標(biāo)，也為未來的研究指出了一個新的方向。

核心亮點：

首個視頻輸入的交互網(wǎng)頁重建評測：從“image-to-code”邁向“video-to-code”，對網(wǎng)頁事件驅(qū)動邏輯的生成提出剛性要求
真實場景、完整資源：113個網(wǎng)站任務(wù)、1001次交互動作；提供全部靜態(tài)資源并匿名化命名，逼近真實開發(fā)
自動化Agent-as-a-Judge：用編程代理復(fù)現(xiàn)動作軌跡，雙重評分同時評估功能正確性（IFS）與視覺保真度（VFS）
28個LVLM系統(tǒng)測評：最佳模型總分36.35%，IFS僅24.39%、VFS為64.25%；通用多模態(tài)模型顯著優(yōu)于“視頻專長”模型

10個代表性模型在IWR-Bench任務(wù)上的評測總覽

覆蓋全面的真實世界網(wǎng)頁任務(wù)

現(xiàn)有的網(wǎng)頁代碼生成基準(zhǔn)（如Design2Code、WebSight）主要聚焦于靜態(tài)截圖轉(zhuǎn)代碼（image2code），而IWR-Bench則專注于動態(tài)視頻轉(zhuǎn)可交互網(wǎng)頁代碼(video2code)：

傳統(tǒng)任務(wù)：給AI一張網(wǎng)頁截圖 → 生成HTML/CSS代碼
IWR任務(wù)：給AI一段用戶操作視頻 + 網(wǎng)頁靜態(tài)資源 → 生成包含完整交互邏輯的代碼

值得一提的是，每個任務(wù)都提供了完整的靜態(tài)資源（圖片、圖標(biāo)、視頻等），并且所有文件名都經(jīng)過匿名化處理（如logo.png → asset_001.png），迫使模型必須依靠視覺匹配而非語義推理。靜態(tài)資源的引入，也為直接基于渲染結(jié)果而非HTML代碼進行評測提供了關(guān)鍵幫助。

下圖為IWR-Bench任務(wù)和評測總覽，模型輸入包括(a)用戶交互視頻，(b)爬取的靜態(tài)資源的縮略圖與文件路徑，要求模型輸出html代碼。評測時，通過agent在瀏覽器上基于(c)標(biāo)注的操作軌跡進行操作，以實現(xiàn)基于檢查點的自動化評分。

IWR任務(wù)對模型的三大核心挑戰(zhàn)包括：

多模態(tài)理解：從視頻幀精準(zhǔn)捕捉布局、文本與組件狀態(tài)
多模態(tài)推理：在時間序列中推斷交互邏輯與因果關(guān)系，并將視頻元素與靜態(tài)資源可靠匹配與綁定
高級代碼生成：將推斷出的狀態(tài)機與事件邏輯實現(xiàn)為可運行的前端代碼

IWR任務(wù)的規(guī)模和覆蓋范圍如下：

113個來自真實網(wǎng)站的任務(wù)，分辨率覆蓋桌面與移動端（19種，移動占10.62%）
共1001個交互動作，平均每任務(wù)8.9步；其中620個視覺檢查點、403個邏輯斷言
復(fù)雜任務(wù)包含2048、掃雷等完整游戲邏輯與GUI重建

評測框架和指標(biāo)

IWR-Bench采用了一套嚴(yán)格的自動化評測協(xié)議，通過編程代理（基于browser-use庫）來模擬真實用戶的網(wǎng)頁操作。

評測流程

操作執(zhí)行：代理按照預(yù)定義的動作序列操作生成的網(wǎng)頁
功能驗證：檢查每個操作是否能正確執(zhí)行，以及邏輯斷言是否滿足
視覺對比：在關(guān)鍵檢查點截圖，與參考頁面進行多維度對比

雙重評分體系

交互功能分數(shù)（IFS）：衡量功能正確性

計算成功完成的操作占總操作數(shù)的比例, 操作失敗包括瀏覽器執(zhí)行失敗、邏輯斷言失敗
SOTA模型GPT-5的IFS僅為24.39%

視覺保真度分數(shù)（VFS）：衡量視覺還原度 - 結(jié)合低級特征（OCR文本相似度、DINO結(jié)構(gòu)相似度）

融合高級評估（由Gemini-2.5-Pro進行整體評判）
SOTA模型GPT-5的VFS為64.25%

評測結(jié)果

IWR-Bench在28個模型上的評測結(jié)果

研究人員從中得到了三個關(guān)鍵發(fā)現(xiàn)。

首先，功能實現(xiàn)是最大瓶頸。

所有模型的VFS都顯著高于IFS，這揭示了一個核心問題：

模型能夠較好地復(fù)現(xiàn)靜態(tài)視覺效果，但在生成事件驅(qū)動邏輯方面嚴(yán)重不足。

例如，GPT-5能夠達到64.25%的視覺保真度，但功能正確性僅為24.39%——這意味著即使頁面”看起來對”，實際操作時有75%以上的功能無法正常工作。

其次，thinking版本帶來部分提升。

“thinking”版本模型普遍表現(xiàn)更好：

Claude-Sonnet-4 (thinking) vs. 普通版：34.62 vs. 34.00
Claude-Opus-4 (thinking) vs. 普通版：34.13 vs. 33.33
Gemini-2.5-Pro (thinking) vs. 普通版：30.36 vs. 30.31

但提升幅度有限，說明基礎(chǔ)模型能力仍是決定性因素。

另外，現(xiàn)在的專有視頻理解模型效果不如通用多模態(tài)模型。

專門針對視頻理解訓(xùn)練的模型（如VideoLLaMA3、InternVideo）表現(xiàn)墊底，而通用的多模態(tài)大模型表現(xiàn)更優(yōu)。這表明，該任務(wù)與傳統(tǒng)的視頻理解任務(wù)具有顯著的差異性。

IWR-Bench的推出，標(biāo)志著AI從“看懂靜態(tài)網(wǎng)頁”到“理解動態(tài)交互”的關(guān)鍵一步。36分的成績告訴我們：這條路還很長。這不僅是對AI多模態(tài)能力的一次全面體檢，更是為多模態(tài)能力涌現(xiàn)指明了下一階段的攻堅方向。

IWR-Bench由上海人工智能實驗室聯(lián)合浙大、2077AI、港中文、斯坦福等單位共同完成，第一作者陳楊是浙江大學(xué)碩士生，通訊作者為上海人工智能實驗室沈宇帆、石博天。

論文鏈接：
https://arxiv.org/abs/2509.24709
代碼地址：
https://github.com/L-O-I/IWR-Bench
數(shù)據(jù)地址：
https://huggingface.co/datasets/IWR-Bench/IWR-Bench
項目主頁：
https://l-o-i.github.io/IWR-Bench/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.