夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

你的模型評測搭子上線:Evaluation Agent懂你更懂AI

0
分享至



本文作者來自于上海人工智能實驗室與新加坡南洋理工大學(xué),分別是張凡、田淑琳、黃子琪,指導(dǎo)老師是喬宇老師與劉子緯老師。

怎么快速判斷一個生成模型好不好?

最直接的辦法當然是 —— 去問一位做圖像生成、視頻生成、或者專門做評測的朋友。他們懂技術(shù)、有經(jīng)驗、眼光毒辣,能告訴你模型到底強在哪、弱在哪,適不適合你的需求。

但問題是:

  • 朋友太忙,沒法一條條幫你看;
  • 你問題太多,不只是想知道「好不好」,還想知道「哪里不好」「為啥好」「適不適合我」。

你需要一位專業(yè)、耐心、隨叫隨到的評估顧問。

于是,來自上海人工智能實驗室 & 南洋理工大學(xué) S-Lab 的研究者合作研發(fā)了一個AI 版本的「懂行朋友」——Evaluation Agent。

它不僅評測,還能聽你提問、為你定制測試、寫出人類專家一樣的分析報告。

  • 你問「它拍古風(fēng)視頻怎么樣?」,它就給你規(guī)劃方案;
  • 你問「懂光圈焦距嗎?」,它就設(shè)計針對測試;
  • 你想知道適不適合你,它還真能給出解釋。

這就是視覺生成模型評估的新范式:

Evaluation Agent 入選 ACL 2025 主會 Oral 論文。



  • 論文:https://arxiv.org/abs/2412.09645
  • 代碼:https://github.com/Vchitect/Evaluation-Agent
  • 網(wǎng)頁:https://vchitect.github.io/Evaluation-Agent-project/
  • 論文標題:Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

為什么選擇 Evaluation Agent?

1. 可定制:你說關(guān)注點,它來定方案。

不同人對生成模型有不同期待 —— 風(fēng)格?多樣性?一致性?

只需用自然語言說出你的關(guān)注點,Evaluation Agent 就能:

  • 自動規(guī)劃合適的評估流程
  • 根據(jù)中間結(jié)果靈活調(diào)整評估方向
  • 針對性地深入分析你關(guān)心的能力維度

真正實現(xiàn)「按需評估」,服務(wù)你的具體任務(wù)。

2. 高效率:更少樣本,評得更快

傳統(tǒng)評估動輒需要幾千張樣本,Evaluation Agent 通過多輪交互式評估與智能采樣策略,大幅減少樣本數(shù)量。整體評估過程的耗時可以壓縮到傳統(tǒng)方法的 10% 左右,尤其適合在迭代開發(fā)中快速反饋。

3. 可解釋:讓評估結(jié)果說人話

結(jié)果不僅是表格和數(shù)字,Evaluation Agent 會以自然語言生成分析報告,不僅涵蓋模型能力的全面總結(jié),還能指出模型的局限性和改進方向。

4. 可擴展:支持不同任務(wù)、工具、指標的集成

Evaluation Agent 是一個開放框架,支持集成新評估工具和指標,適用于不同的視覺生成任務(wù)(如圖片生成和視頻生成)。

框架工作原理



Evaluation Agent 框架主要由兩個階段組成:

1. 提案階段(Proposal Stage)

  • Plan Agent:分析用戶需求,動態(tài)規(guī)劃評估路徑。
  • PromptGen Agent:為每個子任務(wù)生成專屬的評估提示(prompt)。

這一階段的目標是:根據(jù)你的關(guān)注點,量身定制評估方案。

2. 執(zhí)行階段(Execution Stage)

框架利用視覺生成模型生成內(nèi)容,并通過相應(yīng)評估工具進行質(zhì)量分析。

  • 視覺生成模型:根據(jù)上階段設(shè)計的 prompt 生成樣本
  • 評估工具包:根據(jù)提案階段的規(guī)劃選用合適的工具對采樣內(nèi)容進行評估

3. 動態(tài)多輪交互

評估不是一次性完成的。Execution 階段的每一輪評估結(jié)果,都會反饋給 Proposal 階段,用于優(yōu)化后續(xù) prompt 和任務(wù)設(shè)置。通過這種多輪協(xié)同,Evaluation Agent 實現(xiàn)了對模型能力的動態(tài)、深入評估。

結(jié)果展示

1. 對比傳統(tǒng)評測框架



視頻生成模型評測效率上與 VBench 評測框架的對比



圖片生成模型評測效率上與 T2I-CompBench 評測框架的對比

研究團隊在圖片生成任務(wù)(T2I)和視頻生成任務(wù)(T2V)上對 Evaluation Agent 進行了全面驗證。結(jié)果表明,其評估效率顯著高于現(xiàn)有基準框架(如 VBench、T2I-CompBench),相較于傳統(tǒng)的評測框架節(jié)省了 90% 以上的時間,且評估結(jié)果具有較高一致性。

2. 用戶開放式評估場景



對用戶開放問題評估的部分樣例

Evaluation Agent 不僅能夠高效評估模型的表現(xiàn),還能靈活處理用戶提出的個性化評估需求,例如:

  • 模型能否生成特定歷史場景的高質(zhì)量視頻?
  • 模型是否理解并能應(yīng)用焦距、光圈、ISO 等攝影概念?

在處理用戶的開放式查詢時,Evaluation Agent 展現(xiàn)了卓越的靈活性和深度。它能夠根據(jù)用戶的定制需求,系統(tǒng)地探索模型在特定領(lǐng)域的能力,從基本問題開始,逐步動態(tài)深入,最終通過自然語言詳細分析和總結(jié)評估結(jié)果。

例如,對于問題「模型是否能夠在保持原始風(fēng)格的同時生成現(xiàn)有藝術(shù)作品的變體?」,下面展示了完整的評估過程。

在 Evaluation Agent 工作中,開放式用戶評估問題數(shù)據(jù)集(Open-Ended User Query Dataset) 是檢驗框架開放式評估能力的重要組成部分。該數(shù)據(jù)集為系統(tǒng)提供了多樣化的評估場景,特別是在面臨復(fù)雜的、用戶特定的評估需求時,能夠展現(xiàn)出系統(tǒng)的靈活性和動態(tài)評估能力。

開放式用戶評估問題數(shù)據(jù)集首先通過用戶調(diào)研收集了來自用戶的一系列針對模型能力的開放問題。隨后,經(jīng)過數(shù)據(jù)清洗、過濾、擴展以及標簽打標等處理,最終完成了數(shù)據(jù)集的構(gòu)建。該數(shù)據(jù)集涵蓋了廣泛的評估維度,能夠全面評估模型的各項能力。下圖展示了該數(shù)據(jù)集在不同類別下的統(tǒng)計分布。



開放式用戶評估問題數(shù)據(jù)集統(tǒng)計分布

前景與進一步計劃

Evaluation Agent 的初步研究已經(jīng)證明其在視覺生成模型評估中的高效性和靈活性。未來,該方向可能在以下領(lǐng)域進一步拓展和深入研究:

1. 擴展評估能力,涵蓋更多視覺任務(wù)

  • 目前 Evaluation Agent 已適用于圖像和視頻生成模型,未來將擴展到3D 內(nèi)容生成、AIGC 視頻編輯等更復(fù)雜的生成任務(wù)。
  • 增加對多模態(tài) AI(如結(jié)合文本、音頻、視頻的生成模型)的評估能力,探索不同 AI 模型在跨模態(tài)任務(wù)中的表現(xiàn)。

2. 優(yōu)化開放式評估機制

  • 進一步完善開放式用戶評估問題數(shù)據(jù)集,提升 Evaluation Agent 對復(fù)雜、抽象概念(如風(fēng)格遷移、藝術(shù)融合、情感表達等)的理解和評估能力。
  • 引入強化學(xué)習(xí)機制,使 Evaluation Agent 能夠利用基于用戶反饋的數(shù)據(jù)實現(xiàn)自我優(yōu)化,提高評估的精準性和適應(yīng)性。

3. 從自動評測邁向智能推薦

  • 未來,該框架可拓展用于視覺生成模型的個性化推薦,依據(jù)用戶的具體需求自動匹配最合適的生成模型,并生成詳盡的評估報告。
  • 研究如何利用眾包數(shù)據(jù),收集不同領(lǐng)域的專業(yè)人士(如設(shè)計師、攝影師、影視制片人)對 AI 生成內(nèi)容的反饋,以提升評估框架在多領(lǐng)域場景下的適應(yīng)性和泛化能力。

總結(jié)

Evaluation Agent 提出了一種高效、靈活、可解釋的視覺生成模型評估新范式。它突破了傳統(tǒng)評估方式的限制,能夠根據(jù)用戶需求動態(tài)分析模型表現(xiàn),為生成式 AI 的理解與優(yōu)化提供支持。無論關(guān)注的是準確性、多樣性,還是風(fēng)格與創(chuàng)意,這一框架都能給出清晰、有針對性的評估結(jié)果。

研究團隊希望這一方法能為視覺生成模型的評估帶來新的思路,推動更智能、更靈活的評估體系發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
沉默而榮耀的吳石將軍:被出賣前未被老蔣懷疑,毛人鳳也不敢動他

沉默而榮耀的吳石將軍:被出賣前未被老蔣懷疑,毛人鳳也不敢動他

半壺老酒半支煙
2025-10-02 18:33:19
不要被館長的暗獨給蒙蔽了!

不要被館長的暗獨給蒙蔽了!

談芯說科技
2025-10-02 21:02:07
39億“學(xué)費”,不要和流氓國家打交道

39億“學(xué)費”,不要和流氓國家打交道

難得君
2025-07-23 14:46:04
華為Mate80Pro+ 狂野升級,還沒早買Mate 70的恭喜了!

華為Mate80Pro+ 狂野升級,還沒早買Mate 70的恭喜了!

科技堡壘
2025-10-03 10:18:16
可別被電影里的場景忽悠了,真實的八里橋之戰(zhàn)完全不是這樣

可別被電影里的場景忽悠了,真實的八里橋之戰(zhàn)完全不是這樣

知兵堂軍事
2025-10-01 10:50:47
戒酒的驚人發(fā)現(xiàn)!新研究:戒酒3年以上,死亡率或接近從未喝酒者

戒酒的驚人發(fā)現(xiàn)!新研究:戒酒3年以上,死亡率或接近從未喝酒者

王二哥老搞笑
2025-10-03 14:08:47
突然!降息100基點

突然!降息100基點

中國基金報
2025-10-03 10:15:39
票數(shù)大幅領(lǐng)先,國民黨新主席已定?張亞中:我是臺灣人也是中國人

票數(shù)大幅領(lǐng)先,國民黨新主席已定?張亞中:我是臺灣人也是中國人

肖茲探秘說
2025-09-16 17:09:49
決勝局5-1被逆轉(zhuǎn),王曉彤/徐奕2-3早田希娜/朱芊曦,無緣女雙決賽

決勝局5-1被逆轉(zhuǎn),王曉彤/徐奕2-3早田希娜/朱芊曦,無緣女雙決賽

釘釘陌上花開
2025-10-03 14:02:26
大唐死局,無解

大唐死局,無解

我是歷史其實挺有趣
2023-10-18 10:21:49
窮人的富養(yǎng)是帶孩子到處旅游,增長了欲望;富人的富養(yǎng)竟是......

窮人的富養(yǎng)是帶孩子到處旅游,增長了欲望;富人的富養(yǎng)竟是......

霹靂炮
2025-06-06 22:31:58
崔麗麗2012年和職業(yè)伯樂合影遭曝光,網(wǎng)友:難怪她能年薪百萬

崔麗麗2012年和職業(yè)伯樂合影遭曝光,網(wǎng)友:難怪她能年薪百萬

映射生活的身影
2025-10-02 20:13:11
《羊蹄山》泡溫泉場景引熱議:新女主臀部不如境井仁

《羊蹄山》泡溫泉場景引熱議:新女主臀部不如境井仁

游民星空
2025-10-02 17:14:11
阿爾瓦雷斯身價一分不漲 周期內(nèi)14場7球5助 比貝林厄姆低8000萬歐

阿爾瓦雷斯身價一分不漲 周期內(nèi)14場7球5助 比貝林厄姆低8000萬歐

智道足球
2025-10-03 10:56:43
北京國慶假期八天“穿越三季”!降雨降溫具體時間→

北京國慶假期八天“穿越三季”!降雨降溫具體時間→

北京女性
2025-10-03 10:25:21
個人收入開始嚴查?10月起,如果你賬戶收入超過這個數(shù),得注意

個人收入開始嚴查?10月起,如果你賬戶收入超過這個數(shù),得注意

山丘樓評
2025-10-02 15:06:30
從歷史真相,還原林彪的彪悍和粟裕的委屈。

從歷史真相,還原林彪的彪悍和粟裕的委屈。

諾諾談史
2025-10-03 06:45:31
突發(fā)!腿筋拉傷!杰倫格林轟然倒下

突發(fā)!腿筋拉傷!杰倫格林轟然倒下

鬼魅突破上籃
2025-10-03 10:10:11
好瘦!全紅嬋罕見現(xiàn)身公安局,走路大搖大擺+大腿肌肉緊繃,去干啥?

好瘦!全紅嬋罕見現(xiàn)身公安局,走路大搖大擺+大腿肌肉緊繃,去干啥?

手工制作阿殲
2025-10-03 10:44:21
國民黨主席選舉殺出“黑馬”,洪秀柱一錘定音,謀求兩岸統(tǒng)一

國民黨主席選舉殺出“黑馬”,洪秀柱一錘定音,謀求兩岸統(tǒng)一

現(xiàn)代小青青慕慕
2025-10-02 04:40:33
2025-10-03 17:11:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11396文章數(shù) 142463關(guān)注度
往期回顧 全部

科技要聞

特斯拉Q3交付超預(yù)期,股價高開低走大跌

頭條要聞

航班故障連換3駕飛機均未起飛 吉祥航空回應(yīng)

頭條要聞

航班故障連換3駕飛機均未起飛 吉祥航空回應(yīng)

體育要聞

四冠中鋒,比所有人更早開始新賽季

娛樂要聞

李純馬頔官宣結(jié)婚,曬結(jié)婚照秀幸福

財經(jīng)要聞

國家出手!三大世界級城市群定了

汽車要聞

元戎啟行9月合作車型 交付量突破3萬臺

態(tài)度原創(chuàng)

游戲
時尚
家居
親子
教育

《無主4》重大平衡調(diào)整 秘藏獵人多方面大加強!

伊姐十一熱推:電視劇《刺殺小說家2》;電視劇《風(fēng)林火山》......

家居要聞

潮流地標 引領(lǐng)Z世代風(fēng)尚

親子要聞

5歲小朋友教外國人說中文,直接變成小老師,爸爸看了很自豪

教育要聞

小學(xué)經(jīng)典盈虧問題

無障礙瀏覽 進入關(guān)懷版 日韩有码精品中文字幕| 久久天天躁狠狠躁夜夜爽| 国产午夜福利一区二区三区| 国产freexxxx性播放麻豆 | 麻花传媒免费网站在线观看| 一区二区三区频| 亚洲男人av香蕉爽爽爽爽| 337辨开下部| 一本大道久久东京热无码av| 精品国精品无码自拍自在线| 久久精品免视看国产成人| 亚洲AV日日夜夜| 亚洲永久免费网站| 少妇AV无码一区二区三区| 久热在线中文字幕色999舞| 三级AV自慰网站| 蜜芽久久人人超碰爱香蕉| 色狠狠色噜噜av天堂一区| 无码人妻品一区二区三区精99| 绯色av一二三区在线观看| 国产日韩精品视频无码| 国产精品人成在线播放新网站| 无码手机线免费播放三区视频| 1000部啪啪免费视频| 好吊艹不卡Av| 成人区人妻精品一区二区| 亚洲中文字幕日韩精品| 久久综合99re88久久爱| 午夜免费无码福利视频| 91人妻人人做人碰人人爽一区二区 | 亚洲午夜免费福利视频| 国产极品久久久久久久久| 成在线人视频免费视频| 无码成人一区二区| 777奇米在现免费视频观看| 激情图片小说图视频| 亚洲国产一区二区三区四| 国产精品二区高清在线亚洲国产精品不卡毛片a在线 | 久久蜜桃传媒| 泰国性XXXX极品高清HD| 人伦片无码中文字幕|