夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

僅0.2B就比GPT-4.1強(qiáng)?加州大學(xué)新指標(biāo):組合推理基準(zhǔn)首次超越人類(lèi)

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】加州大學(xué)河濱分校團(tuán)隊(duì)發(fā)現(xiàn),AI組合推理表現(xiàn)不佳部分源于評(píng)測(cè)指標(biāo)過(guò)于苛刻。他們提出新指標(biāo)GroupMatch和Test-Time Matching算法,挖掘模型潛力,使GPT-4.1在Winoground測(cè)試中首次超越人類(lèi),0.2B參數(shù)的SigLIP-B16在MMVP-VLM基準(zhǔn)測(cè)試上超越GPT-4.1并刷新最優(yōu)結(jié)果。這表明模型的組合推理能力早已存在,只需合適方法在測(cè)試階段解鎖。

前沿的人工智能模型雖然在眾多任務(wù)上取得了顯著進(jìn)展,但研究發(fā)現(xiàn),它們?cè)诮M合推理 (compositional reasoning) 方面仍表現(xiàn)不佳,在多個(gè)經(jīng)典基準(zhǔn)測(cè)試上甚至低于隨機(jī)猜測(cè)水平。

加州大學(xué)河濱分校Yinglun Zhu研究團(tuán)隊(duì)重新審視了這一問(wèn)題,發(fā)現(xiàn)其根源之一在于評(píng)測(cè)指標(biāo)本身——它系統(tǒng)性地低估了模型的真實(shí)能力。


博客鏈接:https://yinglunz.com/blogs/ttm.html

論文鏈接:https://arxiv.org/pdf/2510.07632

代碼鏈接:https://github.com/yinglunz/test-time-matching

團(tuán)隊(duì)據(jù)此提出了新的GroupMatch指標(biāo),能夠挖掘被現(xiàn)有評(píng)測(cè)掩蓋的潛在能力,使GPT-4.1首次在Winoground基準(zhǔn)測(cè)試上超越人類(lèi)表現(xiàn)。

基于這一洞見(jiàn),團(tuán)隊(duì)進(jìn)一步提出一種無(wú)需外部監(jiān)督、能夠自我改進(jìn)的迭代算法Test-Time Matching(TTM),可在模型推理階段顯著提升性能。

得益于TTM,僅0.2B參數(shù)的SigLIP-B16就在MMVP-VLM基準(zhǔn)測(cè)試上超越了GPT-4.1,刷新了當(dāng)前最優(yōu)結(jié)果。

研究背景

組合推理(compositional reasoning)體現(xiàn)了AI是否具備「舉一反三」的能力——能否將對(duì)象、屬性和關(guān)系重新組合,去理解新的情境。

像Winoground這樣的基準(zhǔn)測(cè)試通過(guò)2×2群組設(shè)計(jì)來(lái)考察這種能力:其中兩條文本用詞相同但順序不同,每條只對(duì)應(yīng)其中一張圖像。

盡管這些模型在多模態(tài)任務(wù)中表現(xiàn)出強(qiáng)大能力,但對(duì)比式視覺(jué)語(yǔ)言模型(VLMs)和多模態(tài)大語(yǔ)言模型(MLLMs)在這類(lèi)基準(zhǔn)測(cè)試中表現(xiàn)依然有限。

在Winoground基準(zhǔn)測(cè)試上,即便是前沿模型的得分也遠(yuǎn)低于人類(lèi)水平(約85.5分);

此前的最佳結(jié)果僅為58.75,且是通過(guò)對(duì)GPT-4V進(jìn)行scaffolding和prompt tuning實(shí)現(xiàn)的。

重新審視評(píng)測(cè)指標(biāo)

從隨機(jī)猜測(cè)到群組匹配

加州大學(xué)河濱分校(UCR)研究團(tuán)隊(duì)發(fā)現(xiàn),模型在組合推理任務(wù)中的低分,部分源自評(píng)測(cè)指標(biāo)本身。

當(dāng)前廣泛使用的GroupScore指標(biāo)過(guò)于嚴(yán)格:它要求每張圖像都與正確的文本匹配、每段文本也與正確的圖像匹配,但并不檢查整個(gè)群組的全局一致性。

只要有一次錯(cuò)配,整組得分就會(huì)被判為0。

假設(shè)每組包含k張圖像和k條文本描述,GroupScore只逐一檢查圖像與文本之間的匹配情況,而忽略整體關(guān)系。

在隨機(jī)匹配下,成功率僅為 (k?1)! / (2k?1)!;當(dāng)k = 2時(shí),這個(gè)概率只有六分之一。

為解決這一問(wèn)題,團(tuán)隊(duì)提出了新的GroupMatch指標(biāo),用于評(píng)估群組內(nèi)的整體最優(yōu)匹配,而不是孤立的成對(duì)比較。

GroupMatch會(huì)考慮所有可能的匹配方式(共k!種),并選擇最可能的那一個(gè)。

這樣,在隨機(jī)猜測(cè)下的成功率提升為1 / k!——當(dāng)k = 2時(shí)為二分之一,比原來(lái)的六分之一大幅提高。

更關(guān)鍵的是,如果模型能在GroupMatch下找到正確匹配,只需在測(cè)試階段對(duì)該匹配進(jìn)行過(guò)擬合,就能在原始GroupScore下獲得滿(mǎn)分。

基于這一發(fā)現(xiàn),團(tuán)隊(duì)提出了一個(gè)簡(jiǎn)單的SimpleMatch兩步法:

1. 使用 GroupMatch 選擇最可能的匹配;

2. 在測(cè)試階段對(duì)該匹配進(jìn)行過(guò)擬合。


如上圖所示,SimpleMatch揭示了模型中大量「被隱藏」的潛力——它讓僅有0.2B參數(shù)的SigLIP-B16超越了此前所有結(jié)果,并使GPT-4.1首次在Winoground上超過(guò)人類(lèi)表現(xiàn)。

Test-Time Matching

在測(cè)試階段自我迭代提升模型能力

為進(jìn)一步提升模型表現(xiàn),UCR研究團(tuán)隊(duì)提出了一種無(wú)需外部監(jiān)督、能夠自我改進(jìn)的迭代算法Test-Time Matching (TTM)

每次迭代包括三個(gè)步驟:

1. 模型對(duì)所有群組進(jìn)行匹配預(yù)測(cè);

2. 僅保留置信度高的匹配(即得分差距超過(guò)閾值)作為偽標(biāo)簽,并在這些偽標(biāo)簽上自我微調(diào);

3. 隨著迭代進(jìn)行,逐步放寬閾值,以納入更多樣本。

TTM的核心在于兩點(diǎn):

1. 基于GroupMatch的偽標(biāo)簽?zāi)芨行У乩萌航M結(jié)構(gòu),提供更強(qiáng)的監(jiān)督信號(hào);

2. 閾值的逐步衰減機(jī)制讓模型先從高置信數(shù)據(jù)學(xué)習(xí),再逐步擴(kuò)展覆蓋范圍。

這一算法可以看作測(cè)試時(shí)訓(xùn)練 (test-time training) 的一種形式,結(jié)合了自訓(xùn)練 (self-training)、半監(jiān)督學(xué)習(xí) (semi-supervised learning) 和主動(dòng)學(xué)習(xí) (active learning) 的思想。

從實(shí)驗(yàn)結(jié)果來(lái)看,TTM在多個(gè)數(shù)據(jù)集和模型上都穩(wěn)定優(yōu)于 SimpleMatch:相對(duì)性能提升最高可達(dá) 10.5%,相對(duì)錯(cuò)誤率下降54.8%

值得注意的是,TTM讓SigLIP-L16在ColorSwap數(shù)據(jù)集上提升至GPT-4.1的水平,并使SigLIP-B16(僅0.2B參數(shù))在MMVP-VLM上超越GPT-4.1,刷新了當(dāng)前最優(yōu)結(jié)果。


TTM的廣泛適用性

雖然前面的結(jié)果主要基于方形群組(k×k)的組合推理任務(wù),但TTM同樣適用于矩形群組,甚至是沒(méi)有群組結(jié)構(gòu)的數(shù)據(jù)集。

指標(biāo)變化不帶來(lái)提升的情況

在只有1×k結(jié)構(gòu)的群組中,GroupMatch與GroupScore等價(jià),因此單純更換指標(biāo)并不會(huì)改進(jìn)結(jié)果。

即便如此,TTM在SugarCrepe和WhatsUp等數(shù)據(jù)集上依然帶來(lái)了顯著提升,其中在WhatsUp上的相對(duì)增幅高達(dá)85.7%,讓原本困難的任務(wù)變得可解。


無(wú)群組結(jié)構(gòu)的情況

TTM還能將整個(gè)數(shù)據(jù)集視為一個(gè)全局的「圖像-文本匹配問(wèn)題」(assignment problem),并在多項(xiàng)式時(shí)間內(nèi)求解。

即使將Winoground、MMVP-VLM和ColorSwap等數(shù)據(jù)集全部「打平」為無(wú)群組結(jié)構(gòu),TTM依然能顯著提升表現(xiàn),最高可帶來(lái)33.3%的相對(duì)錯(cuò)誤率下降。


討論與展望

UCR研究團(tuán)隊(duì)重新審視了多模態(tài)模型在組合推理上的長(zhǎng)期難題,指出:許多被認(rèn)為的「失敗」,其實(shí)源自評(píng)測(cè)指標(biāo)的局限。

團(tuán)隊(duì)提出的GroupMatch指標(biāo)與Test-Time Matching (TTM) 算法表明,模型的組合推理能力早已存在——只需要在測(cè)試階段,用合適的方法將其「解鎖」。

在覆蓋16個(gè)不同數(shù)據(jù)集變體的系統(tǒng)實(shí)驗(yàn)中,TTM在多種設(shè)置下都展現(xiàn)出穩(wěn)定而顯著的改進(jìn),推動(dòng)了多模態(tài)推理研究的前沿進(jìn)展。

展望未來(lái),團(tuán)隊(duì)認(rèn)為有兩個(gè)方向值得進(jìn)一步探索:

  • 重新思考模型評(píng)估:同一個(gè)模型在不同指標(biāo)下可能表現(xiàn)出截然不同的能力,這提醒我們需要建立更穩(wěn)健、更統(tǒng)一的評(píng)測(cè)框架。

  • 將TTM推廣至組合推理之外:雖然TTM起源于組合推理,但它的核心思想——在測(cè)試階段進(jìn)行匹配式自訓(xùn)練——具有普適性。該思路有望在更廣泛的多模態(tài)和語(yǔ)言任務(wù)中發(fā)揮作用,推動(dòng)AI模型邁向真正的「自適應(yīng)、自進(jìn)化」。

參考資料:

https://arxiv.org/pdf/2510.07632

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
維C是蘋(píng)果9倍!冬天使勁吃,一健脾養(yǎng)胃,二養(yǎng)肝護(hù)肝,三補(bǔ)鉀補(bǔ)鐵

維C是蘋(píng)果9倍!冬天使勁吃,一健脾養(yǎng)胃,二養(yǎng)肝護(hù)肝,三補(bǔ)鉀補(bǔ)鐵

阿龍美食記
2025-11-11 13:47:30
琉球群島地位未定,中方在聯(lián)合國(guó)亮明態(tài)度,日媒破防

琉球群島地位未定,中方在聯(lián)合國(guó)亮明態(tài)度,日媒破防

頭條爆料007
2025-11-10 22:03:53
全世界最大的笑話(huà)就是中國(guó)人學(xué)英語(yǔ)。

全世界最大的笑話(huà)就是中國(guó)人學(xué)英語(yǔ)。

玉辭心
2025-10-22 07:09:40
驟降!江蘇氣象發(fā)布:0℃以下!

驟降!江蘇氣象發(fā)布:0℃以下!

江蘇警方
2025-11-11 20:35:25
最邪惡的實(shí)驗(yàn):六女四男船上共渡100天,無(wú)法律約束,結(jié)局會(huì)怎樣

最邪惡的實(shí)驗(yàn):六女四男船上共渡100天,無(wú)法律約束,結(jié)局會(huì)怎樣

貓眼觀史
2024-08-17 10:30:56
被辛芷蕾反擊后,“一言不發(fā)”的郝蕾,終于不再顧忌所謂的體面

被辛芷蕾反擊后,“一言不發(fā)”的郝蕾,終于不再顧忌所謂的體面

查爾菲的筆記
2025-11-11 21:06:46
妻子舉報(bào)南科大教授出軌,公開(kāi)丈夫與小三約會(huì)照,資產(chǎn)高達(dá)2千萬(wàn)

妻子舉報(bào)南科大教授出軌,公開(kāi)丈夫與小三約會(huì)照,資產(chǎn)高達(dá)2千萬(wàn)

180視角
2025-11-10 14:06:59
嘴硬心慌的沈伯洋連問(wèn):我這種情況怎么辦?

嘴硬心慌的沈伯洋連問(wèn):我這種情況怎么辦?

吃貨的分享
2025-11-12 03:56:59
四野資深旅長(zhǎng),得知授少校軍銜,苦笑道:太丟臉了,請(qǐng)?jiān)试S我轉(zhuǎn)業(yè)

四野資深旅長(zhǎng),得知授少校軍銜,苦笑道:太丟臉了,請(qǐng)?jiān)试S我轉(zhuǎn)業(yè)

阿校談史
2025-11-10 17:27:42
1945年,法國(guó)巴黎,伊娃的衣服被人扒下來(lái),豐腴的身體沒(méi)任何遮擋

1945年,法國(guó)巴黎,伊娃的衣服被人扒下來(lái),豐腴的身體沒(méi)任何遮擋

百態(tài)人間
2025-11-03 16:15:12
官媒發(fā)文,63歲何超瓊再破天花板,讓許晉亨和整個(gè)豪門(mén)圈沉默了

官媒發(fā)文,63歲何超瓊再破天花板,讓許晉亨和整個(gè)豪門(mén)圈沉默了

小鬼頭體育
2025-11-10 04:33:10
陳雨菲橫掃高昉潔難救主,江蘇隊(duì)3-2力克浙江隊(duì),奪小組頭名晉級(jí)

陳雨菲橫掃高昉潔難救主,江蘇隊(duì)3-2力克浙江隊(duì),奪小組頭名晉級(jí)

釘釘陌上花開(kāi)
2025-11-11 20:14:46
稅務(wù)部門(mén)提醒:未依法申報(bào)境外所得的居民個(gè)人要及時(shí)申報(bào)繳稅

稅務(wù)部門(mén)提醒:未依法申報(bào)境外所得的居民個(gè)人要及時(shí)申報(bào)繳稅

第一財(cái)經(jīng)資訊
2025-11-11 16:40:08
巔峰對(duì)決即將上演!拜仁之矛遇到阿森納之盾,誰(shuí)能戰(zhàn)勝對(duì)手的

巔峰對(duì)決即將上演!拜仁之矛遇到阿森納之盾,誰(shuí)能戰(zhàn)勝對(duì)手的

里芃芃體育
2025-11-12 05:00:03
江蘇一個(gè)3歲孩童,被扣上“慣犯”的帽子,心狠到令人憤怒

江蘇一個(gè)3歲孩童,被扣上“慣犯”的帽子,心狠到令人憤怒

娜烏和西卡
2025-11-11 16:41:58
不出3年,中國(guó)貶值最快的不是房子、現(xiàn)金,而是這3樣?xùn)|西

不出3年,中國(guó)貶值最快的不是房子、現(xiàn)金,而是這3樣?xùn)|西

詩(shī)意世界
2025-08-29 17:42:06
深夜22點(diǎn),遼籃公布趙繼偉傷情,果然是拉傷,恐無(wú)緣銅牌爭(zhēng)奪戰(zhàn)

深夜22點(diǎn),遼籃公布趙繼偉傷情,果然是拉傷,恐無(wú)緣銅牌爭(zhēng)奪戰(zhàn)

萌蘭聊個(gè)球
2025-11-11 22:43:44
起拍價(jià)超6000萬(wàn)!浙江一光伏資產(chǎn)被法拍!

起拍價(jià)超6000萬(wàn)!浙江一光伏資產(chǎn)被法拍!

新浪財(cái)經(jīng)
2025-11-11 18:13:34
醫(yī)生調(diào)查發(fā)現(xiàn):經(jīng)常吃辣椒的人,用不了多久,血管或有這4個(gè)變化

醫(yī)生調(diào)查發(fā)現(xiàn):經(jīng)常吃辣椒的人,用不了多久,血管或有這4個(gè)變化

泠泠說(shuō)史
2025-11-01 15:17:17
罕見(jiàn)!兩位球迷在總決賽現(xiàn)場(chǎng)不幸逝世;弗里茨辛納輕松過(guò)關(guān)

罕見(jiàn)!兩位球迷在總決賽現(xiàn)場(chǎng)不幸逝世;弗里茨辛納輕松過(guò)關(guān)

網(wǎng)球之家
2025-11-11 20:06:41
2025-11-12 05:12:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13845文章數(shù) 66242關(guān)注度
往期回顧 全部

科技要聞

蘋(píng)果新品慘敗,產(chǎn)線(xiàn)拆光、二代擱淺!

頭條要聞

攜6.1萬(wàn)枚比特幣出逃英國(guó) 富婆奢靡生活披露

頭條要聞

攜6.1萬(wàn)枚比特幣出逃英國(guó) 富婆奢靡生活披露

體育要聞

一個(gè)14歲的小男孩,決定了誰(shuí)能晉級(jí)世界杯

娛樂(lè)要聞

古二曝秦雯多次炫耀襲警經(jīng)歷

財(cái)經(jīng)要聞

南昌三瑞智能IPO:委外代工模式存疑

汽車(chē)要聞

盈利"大考",汽車(chē)智能化企業(yè)的中場(chǎng)戰(zhàn)事

態(tài)度原創(chuàng)

家居
本地
房產(chǎn)
健康
公開(kāi)課

家居要聞

國(guó)美學(xué)子 打造筑夢(mèng)空間

本地新聞

云游安徽 | 凌灘玉魄淬千年,詩(shī)意鋼城馬鞍山

房產(chǎn)要聞

??跒?,1300畝巨無(wú)霸地塊登場(chǎng)!

超聲探頭會(huì)加重受傷情況嗎?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 九九热在线视频观看这里只有精品 | 凹凸视频天堂| 国产成人无码区免费内射一片色欲| 亚州v在线电影| 久久aⅴ乱码一区二区三区| 2021年国产精品每日更新| 少妇淫荡视频| 永久成人无码激情视频免费| 国产成人综合免费| 午夜精品久久久久久久久99热精品| jizz在线观看| 又内射了一个少妇视频| 精品国产乱码久久久久久1区2区-亚洲 | 99re只有精品| 国产做a爱视频免费无遮挡| 99re这里只有精品7| 亚洲国产精品VA在线看黑人张液| 久久国产劲爆∧v内射-百度| 久久天天躁夜夜躁狠狠 | 把老熟妇日出白浆16p| ASS年轻少妇浓毛PICS| 韩国av无码| 国产精品无码专区在线观看不卡| 国产精品处女乱伦大片| 欧美黑人巨大xxxxx| 日本欧美综合在线视频| 亚洲成人av环境| 久久av嫩草影院| 亚洲AV午夜成人片精品一区蜜臀| 中文字幕欧美夫妻草逼片 | 亚洲av无码专区国产不卡顿| 亚洲精品乱码久久久久久中文字幕 | 国产对白做受| 图图国产亚洲综合网站| 黑人上司大战丰满人妻| 成人色国产综合| 国产99精品| 精品人妻av一区二区三区| 成人无区777| 疯狂三人交性欧美| 久久综合国产精品一区二区|