IWR-Bench團隊投稿
量子位 | 公眾號 QbitAI
多模態(tài)大模型在根據(jù)靜態(tài)截圖生成網(wǎng)頁代碼(Image-to-Code)方面已展現(xiàn)出不俗能力,這讓許多人對AI自動化前端開發(fā)充滿期待。
然而,一個網(wǎng)頁的真正價值遠不止于其靜態(tài)布局。用戶的點擊、篩選、表單提交,乃至游戲中的每一步操作,都構(gòu)成了其核心的交互功能。這些動態(tài)、有狀態(tài)的交互邏輯,恰恰是傳統(tǒng)靜態(tài)評測無法觸及的盲區(qū)。
為了填補這一關(guān)鍵空白,上海人工智能實驗室聯(lián)合浙江大學(xué)等機構(gòu)的研究者,提出了IWR-Bench——一個旨在更真實地評估LVLM交互式網(wǎng)頁重建能力的評測基準(zhǔn)。
IWR-Bench的核心轉(zhuǎn)變在于,它不再提供靜態(tài)截圖,而是要求模型觀看一段記錄了完整用戶操作流程的視頻,并結(jié)合網(wǎng)頁所需的全部靜態(tài)資源(如圖片、圖標(biāo)、子視頻等),去理解并復(fù)現(xiàn)整個頁面的動態(tài)行為。任務(wù)的復(fù)雜性跨度很大,從簡單的瀏覽功能,到需要逆向工程游戲規(guī)則的2048、訂機票等應(yīng)用。
這項任務(wù)的難度遠超預(yù)期。在對28個主流模型的全面測試中,即便是表現(xiàn)最好的模型GPT-5,其綜合得分也僅有36.35分。這一結(jié)果清晰地指出了當(dāng)前模型的核心短板,IWR-Bench不僅為領(lǐng)域提供了一個更具挑戰(zhàn)性的新目標(biāo),也為未來的研究指出了一個新的方向。
核心亮點:
- 首個視頻輸入的交互網(wǎng)頁重建評測:從“image-to-code”邁向“video-to-code”,對網(wǎng)頁事件驅(qū)動邏輯的生成提出剛性要求
- 真實場景、完整資源:113個網(wǎng)站任務(wù)、1001次交互動作;提供全部靜態(tài)資源并匿名化命名,逼近真實開發(fā)
- 自動化Agent-as-a-Judge:用編程代理復(fù)現(xiàn)動作軌跡,雙重評分同時評估功能正確性(IFS)與視覺保真度(VFS)
- 28個LVLM系統(tǒng)測評:最佳模型總分36.35%,IFS僅24.39%、VFS為64.25%;通用多模態(tài)模型顯著優(yōu)于“視頻專長”模型
10個代表性模型在IWR-Bench任務(wù)上的評測總覽
覆蓋全面的真實世界網(wǎng)頁任務(wù)
現(xiàn)有的網(wǎng)頁代碼生成基準(zhǔn)(如Design2Code、WebSight)主要聚焦于靜態(tài)截圖轉(zhuǎn)代碼(image2code),而IWR-Bench則專注于動態(tài)視頻轉(zhuǎn)可交互網(wǎng)頁代碼(video2code):
傳統(tǒng)任務(wù): 給AI一張網(wǎng)頁截圖 → 生成HTML/CSS代碼
IWR任務(wù): 給AI一段用戶操作視頻 + 網(wǎng)頁靜態(tài)資源 → 生成包含完整交互邏輯的代碼
值得一提的是,每個任務(wù)都提供了完整的靜態(tài)資源(圖片、圖標(biāo)、視頻等),并且所有文件名都經(jīng)過匿名化處理(如logo.png → asset_001.png),迫使模型必須依靠視覺匹配而非語義推理。靜態(tài)資源的引入,也為直接基于渲染結(jié)果而非HTML代碼進行評測提供了關(guān)鍵幫助。
下圖為IWR-Bench任務(wù)和評測總覽,模型輸入包括(a)用戶交互視頻,(b)爬取的靜態(tài)資源的縮略圖與文件路徑,要求模型輸出html代碼。評測時,通過agent在瀏覽器上基于(c)標(biāo)注的操作軌跡進行操作,以實現(xiàn)基于檢查點的自動化評分。
IWR任務(wù)對模型的三大核心挑戰(zhàn)包括:
- 多模態(tài)理解:從視頻幀精準(zhǔn)捕捉布局、文本與組件狀態(tài)
- 多模態(tài)推理:在時間序列中推斷交互邏輯與因果關(guān)系,并將視頻元素與靜態(tài)資源可靠匹配與綁定
- 高級代碼生成:將推斷出的狀態(tài)機與事件邏輯實現(xiàn)為可運行的前端代碼
IWR任務(wù)的規(guī)模和覆蓋范圍如下:
- 113個來自真實網(wǎng)站的任務(wù),分辨率覆蓋桌面與移動端(19種,移動占10.62%)
- 共1001個交互動作,平均每任務(wù)8.9步;其中620個視覺檢查點、403個邏輯斷言
- 復(fù)雜任務(wù)包含2048、掃雷等完整游戲邏輯與GUI重建
評測框架和指標(biāo)
IWR-Bench采用了一套嚴(yán)格的自動化評測協(xié)議,通過編程代理(基于browser-use庫)來模擬真實用戶的網(wǎng)頁操作。
評測流程
- 操作執(zhí)行:代理按照預(yù)定義的動作序列操作生成的網(wǎng)頁
- 功能驗證:檢查每個操作是否能正確執(zhí)行,以及邏輯斷言是否滿足
- 視覺對比:在關(guān)鍵檢查點截圖,與參考頁面進行多維度對比
雙重評分體系
交互功能分數(shù)(IFS):衡量功能正確性
- 計算成功完成的操作占總操作數(shù)的比例, 操作失敗包括瀏覽器執(zhí)行失敗、邏輯斷言失敗
- SOTA模型GPT-5的IFS僅為24.39%
視覺保真度分數(shù)(VFS):衡量視覺還原度 - 結(jié)合低級特征(OCR文本相似度、DINO結(jié)構(gòu)相似度)
- 融合高級評估(由Gemini-2.5-Pro進行整體評判)
- SOTA模型GPT-5的VFS為64.25%
評測結(jié)果
IWR-Bench在28個模型上的評測結(jié)果
研究人員從中得到了三個關(guān)鍵發(fā)現(xiàn)。
首先,功能實現(xiàn)是最大瓶頸。
所有模型的VFS都顯著高于IFS,這揭示了一個核心問題:
模型能夠較好地復(fù)現(xiàn)靜態(tài)視覺效果,但在生成事件驅(qū)動邏輯方面嚴(yán)重不足。
例如,GPT-5能夠達到64.25%的視覺保真度,但功能正確性僅為24.39%——這意味著即使頁面”看起來對”,實際操作時有75%以上的功能無法正常工作。
其次,thinking版本帶來部分提升。
“thinking”版本模型普遍表現(xiàn)更好:
- Claude-Sonnet-4 (thinking) vs. 普通版:34.62 vs. 34.00
- Claude-Opus-4 (thinking) vs. 普通版:34.13 vs. 33.33
- Gemini-2.5-Pro (thinking) vs. 普通版:30.36 vs. 30.31
但提升幅度有限,說明基礎(chǔ)模型能力仍是決定性因素。
另外,現(xiàn)在的專有視頻理解模型效果不如通用多模態(tài)模型。
專門針對視頻理解訓(xùn)練的模型(如VideoLLaMA3、InternVideo)表現(xiàn)墊底,而通用的多模態(tài)大模型表現(xiàn)更優(yōu)。這表明,該任務(wù)與傳統(tǒng)的視頻理解任務(wù)具有顯著的差異性。
IWR-Bench的推出,標(biāo)志著AI從“看懂靜態(tài)網(wǎng)頁”到“理解動態(tài)交互”的關(guān)鍵一步。36分的成績告訴我們:這條路還很長。這不僅是對AI多模態(tài)能力的一次全面體檢,更是為多模態(tài)能力涌現(xiàn)指明了下一階段的攻堅方向。
IWR-Bench由上海人工智能實驗室聯(lián)合浙大、2077AI、港中文、斯坦福等單位共同完成,第一作者陳楊是浙江大學(xué)碩士生,通訊作者為上海人工智能實驗室沈宇帆、石博天。
論文鏈接:
https://arxiv.org/abs/2509.24709
代碼地址:
https://github.com/L-O-I/IWR-Bench
數(shù)據(jù)地址:
https://huggingface.co/datasets/IWR-Bench/IWR-Bench
項目主頁:
https://l-o-i.github.io/IWR-Bench/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.