夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

VaseVQA:考古領(lǐng)域?qū)崿F(xiàn)專家級,診斷+補弱RL框架

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】在文化遺產(chǎn)與人工智能的交叉處,有一類問題既美也難:如何讓機器「看懂」古希臘的陶器——不僅能識別它的形狀或圖案,還能推斷年代、產(chǎn)地、工坊甚至藝術(shù)歸屬?有研究人員給出了一條實用且富有啟發(fā)性的答案:把大型多模態(tài)模型(MLLM)放在「診斷—補弱—精細化評估」的閉環(huán)中訓(xùn)練,并配套一個結(jié)構(gòu)化的評測基準,從而讓模型在高度專業(yè)化的文化遺產(chǎn)領(lǐng)域表現(xiàn)得更接近專家級能力。

古希臘陶器是考古學(xué)和藝術(shù)史的重要實物證據(jù)。

研究者需要從單件陶器中提取多層信息:材質(zhì)與工藝、形制類別、裝飾主題、出土地與時間、甚至可能的作坊或畫師。

不過傳統(tǒng)計算機視覺和通用多模態(tài)模型在這類高度專業(yè)化任務(wù)上常陷入兩類困境:

一是缺乏領(lǐng)域知識(模型在通用語料里幾乎沒接觸過「雅典黑釉杯」或「紅繪風(fēng)格」這樣的概念);

二是僅靠監(jiān)督微調(diào)(SFT)容易學(xué)到「表層捷徑」,在遇到組合性、推理性或少樣本問題時就失效。

基于此,AI Geeks、澳大利亞人工智能研究所等機構(gòu)的研究人員提出:既要有專門的數(shù)據(jù)與任務(wù)劃分,也要有針對性的訓(xùn)練策略來補弱提升。


論文鏈接: https://doi.org/10.48550/arXiv.2509.17191

項目地址:https://github.com/AIGeeksGroup/VaseVQA

論文的技術(shù)主線可以用一句話概括:先把模型訓(xùn)練到有基礎(chǔ)能力(SFT),再通過診斷找出各類問題的薄弱環(huán)節(jié),用類型條件化的強化學(xué)習(xí)(RL)和精細化獎勵去有針對性地補弱。

圖1:現(xiàn)有視覺語言模型在古希臘陶瓶理解上的局限性與所提出的VaseVL框架

關(guān)鍵步驟如下:

  • 任務(wù)分層與問題類型化:作者把陶器理解任務(wù)劃分為若干類(例如材質(zhì)、工藝、形制、產(chǎn)地/歸屬、年代、裝飾描述等),為后續(xù)診斷與差異化訓(xùn)練提供維度。

  • 診斷評估:對SFT后的模型在每一類問題上分別評測,識別哪些類型表現(xiàn)弱(例如歸屬推理與裝飾描述通常比簡單事實類問題更難)。

  • 類型條件化強化學(xué)習(xí):針對弱項設(shè)計加權(quán)獎勵,獎勵由「關(guān)鍵詞命中率 + 語義相似度」組成;同時采用帶KL正則的策略更新手段避免模型過度偏離原有SFT行為。作者還引入一種穩(wěn)定化的策略優(yōu)化方法(論文提出的變體)來保證訓(xùn)練穩(wěn)定。

  • 按類型細化評估指標:不同問題類型采用更合適的評價方式(比如對描述類用生成質(zhì)量指標,對事實類用字符/關(guān)鍵詞相似度),避免單一指標一刀切。


圖2:VaseVL的整體框架。該方法將有監(jiān)督微調(diào)(SFT)與基于組相對策略優(yōu)化(GRPO)的強化學(xué)習(xí)相結(jié)合。給定陶瓶圖像x、問題q 和參考答案a^*,模型通過在詞匯獎勵與語義獎勵之間取得平衡,并限制策略偏離參考策略 ,從而提升其推理能力。

數(shù)據(jù)與基準(VaseVQA)

讓評測更具信服力

為了能系統(tǒng)評估上述方法,研究人員同時構(gòu)建了一個面向古希臘陶器的多模態(tài)問答基準(VaseVQA)。

該基準覆蓋大量陶器圖片與多類型問答對,且在標注上引入專家審校,力求兼顧規(guī)模與專業(yè)性。更重要的是,基準把任務(wù)按問題類型拆分,使得模型的薄弱處能被明確定位并針對性優(yōu)化。


表1:VaseVQA基準測試上的性能比較。RL代表推理注入。

關(guān)鍵發(fā)現(xiàn)與實證價值

論文的實驗顯示:

僅做SFT能顯著提升模型的基礎(chǔ)識別能力,但在歸屬推理和復(fù)雜描述上仍有限;

在診斷基礎(chǔ)上做類型條件化RL優(yōu)化后,模型在那些先前薄弱的類型上有可觀提升——這說明「補弱導(dǎo)向」的訓(xùn)練策略在專業(yè)垂直任務(wù)上很有效;

細粒度的評價(按問題類型)對于判斷模型真實能力與設(shè)計針對性改進尤為重要。


表2:消融實驗結(jié)果說明。RI表示Reasoning Injection(推理注入)。Qwen2.5-VL-SFT表示前述模型經(jīng)過有監(jiān)督微調(diào)(SFT)的版本,而最后一行展示的是提出的VaseVL 模型的性能表現(xiàn)。

意義、局限與可推廣方向

這項工作最有價值的,不只是把一個模型調(diào)好,而是提出了一套「如何讓通用多模態(tài)模型在高度專業(yè)領(lǐng)域變得可靠」的方法論:任務(wù)分層 → 定位薄弱 → 有針對性地微調(diào)與評估。

它對文化遺產(chǎn)、醫(yī)學(xué)影像、材料科學(xué)等其他垂直領(lǐng)域都有啟發(fā)意義。

但需謹慎的一點是:強化學(xué)習(xí)階段高度依賴獎勵設(shè)計,若獎勵不當(dāng)或數(shù)據(jù)偏倚,模型可能學(xué)習(xí)到新的偏差。

此外,許多考古歸屬問題本身具有主觀性與學(xué)術(shù)爭議,模型輸出仍需專家把關(guān)作為輔助工具而非最終裁決。

VaseVQA展示了把「領(lǐng)域診斷」嵌入多模態(tài)訓(xùn)練流程的可行路徑。

文化遺產(chǎn)與AI的結(jié)合,不應(yīng)僅止于表層識別,而應(yīng)追求「可解釋、可校驗、有專家協(xié)同」的工具化落地。

未來,當(dāng)這類方法被更廣泛采納,不同學(xué)科的專家與工程師協(xié)作,就能把AI打造成真正有助于保護與理解人類文化記憶的可靠伙伴。

參考資料:

https://doi.org/10.48550/arXiv.2509.17191

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
65歲大爺查出艾滋被兒子怒罵不檢點,來源曝光后,整個廣場舞隊慌了

65歲大爺查出艾滋被兒子怒罵不檢點,來源曝光后,整個廣場舞隊慌了

五元講堂
2025-04-10 15:13:54
U17女足世界杯:巴西晉級八強,中國女足遺憾出局

U17女足世界杯:巴西晉級八強,中國女足遺憾出局

老牛體育解說
2025-10-29 01:52:53
蘇聯(lián)曾經(jīng)有多強?軍委估計一旦入侵七天就能殺到北京,怎么應(yīng)對?

蘇聯(lián)曾經(jīng)有多強?軍委估計一旦入侵七天就能殺到北京,怎么應(yīng)對?

花仙歷史說
2025-10-23 07:16:32
大陸重磅出手后,沈伯洋嘴雖硬,但賴清德怕了,緊急喊話鄭麗文

大陸重磅出手后,沈伯洋嘴雖硬,但賴清德怕了,緊急喊話鄭麗文

阿晪美食
2025-10-29 01:40:30
一個很奇怪的現(xiàn)象:人的長相,是根據(jù)她的內(nèi)心神韻顯化的

一個很奇怪的現(xiàn)象:人的長相,是根據(jù)她的內(nèi)心神韻顯化的

特特農(nóng)村生活
2025-10-28 00:28:39
飛天茅臺批發(fā)價首次跌破1700元/瓶 創(chuàng)上市以來新低

飛天茅臺批發(fā)價首次跌破1700元/瓶 創(chuàng)上市以來新低

財聯(lián)社
2025-10-28 13:22:06
浙大才子周一超被執(zhí)行注射死刑,被按執(zhí)行床時,他卻突然號啕大哭

浙大才子周一超被執(zhí)行注射死刑,被按執(zhí)行床時,他卻突然號啕大哭

紅豆講堂
2024-10-21 09:30:24
3-0獲勝?別高興太早,中國女排暴露的這幾大問題,必須重視!

3-0獲勝?別高興太早,中國女排暴露的這幾大問題,必須重視!

體壇侃排球
2025-10-28 08:06:32
2008年林青霞到大陸拍戲,回山東老家找到姐姐,和叔嬸一起掰玉米

2008年林青霞到大陸拍戲,回山東老家找到姐姐,和叔嬸一起掰玉米

情感大頭說說
2025-10-29 02:17:25
張怡寧沒想到,與徐威恩愛16年,也逃不過“老夫少妻”的殘酷現(xiàn)實

張怡寧沒想到,與徐威恩愛16年,也逃不過“老夫少妻”的殘酷現(xiàn)實

寒士之言本尊
2025-10-28 13:26:33
杰倫·布朗:我們失去了4位全明星,彌補空缺短期內(nèi)很難做到

杰倫·布朗:我們失去了4位全明星,彌補空缺短期內(nèi)很難做到

雷速體育
2025-10-28 16:17:13
吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰的眼?

吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰的眼?

傲嬌的馬甲線
2025-09-17 18:06:44
她因70F的上圍太大放棄舞蹈,一夜爆紅,網(wǎng)友:這身材頂不住!

她因70F的上圍太大放棄舞蹈,一夜爆紅,網(wǎng)友:這身材頂不??!

健身迷
2025-10-27 10:00:26
加利亞尼:我非常尊重穆里尼奧 也希望他能夠尊重我

加利亞尼:我非常尊重穆里尼奧 也希望他能夠尊重我

羅克
2025-10-28 09:16:47
特朗普罕見“破例”,給了金正恩特殊待遇,哪怕延誤回國也要見面

特朗普罕見“破例”,給了金正恩特殊待遇,哪怕延誤回國也要見面

阿天愛旅行
2025-10-28 09:16:38
離婚3年!佟麗婭被拍為陳思誠整理衣服,一家三口同框溫馨或已復(fù)婚

離婚3年!佟麗婭被拍為陳思誠整理衣服,一家三口同框溫馨或已復(fù)婚

八卦王者
2025-10-28 10:08:44
德國政府審查安世半導(dǎo)體與德國研究機構(gòu)的合作

德國政府審查安世半導(dǎo)體與德國研究機構(gòu)的合作

新浪財經(jīng)
2025-10-28 13:49:30
西甲積分榜更新:馬競勝貝蒂斯,巴薩負,皇馬保持領(lǐng)先

西甲積分榜更新:馬競勝貝蒂斯,巴薩負,皇馬保持領(lǐng)先

李斄在北漂
2025-10-28 08:01:57
佘詩曼哽咽不舍許紹雄:我很想你但我不會再哭了

佘詩曼哽咽不舍許紹雄:我很想你但我不會再哭了

看看新聞Knews
2025-10-28 17:36:05
許紹雄凌晨去世,周潤發(fā)來晚了,他的背影都是悲傷,佘詩曼沒遺憾

許紹雄凌晨去世,周潤發(fā)來晚了,他的背影都是悲傷,佘詩曼沒遺憾

娛圈小愚
2025-10-28 13:35:46
2025-10-29 04:03:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13728文章數(shù) 66230關(guān)注度
往期回顧 全部

科技要聞

30000人,一夜失業(yè)!亞馬遜AI“砍刀”落下

頭條要聞

“這是日本的恥辱,高市早苗成了美國的奴仆”

頭條要聞

“這是日本的恥辱,高市早苗成了美國的奴仆”

體育要聞

米蘭對陣亞特蘭大已遭遇5場不勝,上次客場獲勝還是奪冠賽季

娛樂要聞

76歲歡喜哥去世!眾星悼念

財經(jīng)要聞

信息量巨大!“十五五”規(guī)劃建議發(fā)布

汽車要聞

煥新極氪7X 22.98萬起 全系升級900V

態(tài)度原創(chuàng)

教育
家居
藝術(shù)
房產(chǎn)
公開課

教育要聞

美國旅游簽轉(zhuǎn)學(xué)簽,B2延期都很難獲批?

家居要聞

純白質(zhì)感 簡約而不簡單

藝術(shù)要聞

驚艷!這些美女人體畫絕對讓你目不轉(zhuǎn)睛!

房產(chǎn)要聞

太猛了!狂賣1194億!海南樓市,創(chuàng)7年新高!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 波多野结衣在线播放| 黄色美女网站在线观看| 你懂的网址精品一区| 国产剧麻豆剧果冻传媒星空视频| 午夜无码一区二区三区在线| 国产人成高清在线视频99最全资源| 亚洲熟女AV一区二区| 欧美不卡视频一区发布| 成全高清在线播放电视剧| 亚洲国产A∨无码影院| 国产熟女av一区二区三区| 双飞蜜桃在线观看| 精品人妻日韩中文字幕| 黑吊AV在綫| 欧美狠狠的操| 波多野结衣的av一区二区三区| 亚国产亚洲亚洲精品视频| 强辱丰满人妻hd中文字幕| 亚洲成a人片在线观看天堂无码不卡| 清纯粉嫩极品夜夜嗨AV| 人人草在线观看| 久热这里只有精品12| 国产精品高清操b| 色欲av无码一区二区| 免费无码黄十八禁网站| 欧美特级AAA片| 国产精品免费无遮挡无码永久视频 | 欧美黑人巨大| 东京热毛片无码DVD一二三区| 天津老熟女高潮嗷嗷叫| 开心婷婷九月亚洲综合| 午夜福利你懂的在线观看| 99久久人妻精品免费一区| 河南老熟女高潮大叫| 国产av综合第一页| 午夜av电影| 日韩免费毛片| 国产一区二区三区精品综合| 精品人一区二区三区伦蜜桃免费| 浪潮久久精品日日躁夜夜躁| 亚洲综合久久精品国产高清|