網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

僅0.2B就比GPT-4.1強(qiáng)？加州大學(xué)新指標(biāo)：組合推理基準(zhǔn)首次超越人類(lèi)

2025-11-08 19:10:54　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：LRST

【新智元導(dǎo)讀】加州大學(xué)河濱分校團(tuán)隊(duì)發(fā)現(xiàn)，AI組合推理表現(xiàn)不佳部分源于評(píng)測(cè)指標(biāo)過(guò)于苛刻。他們提出新指標(biāo)GroupMatch和Test-Time Matching算法，挖掘模型潛力，使GPT-4.1在Winoground測(cè)試中首次超越人類(lèi)，0.2B參數(shù)的SigLIP-B16在MMVP-VLM基準(zhǔn)測(cè)試上超越GPT-4.1并刷新最優(yōu)結(jié)果。這表明模型的組合推理能力早已存在，只需合適方法在測(cè)試階段解鎖。

前沿的人工智能模型雖然在眾多任務(wù)上取得了顯著進(jìn)展，但研究發(fā)現(xiàn)，它們?cè)诮M合推理 (compositional reasoning) 方面仍表現(xiàn)不佳，在多個(gè)經(jīng)典基準(zhǔn)測(cè)試上甚至低于隨機(jī)猜測(cè)水平。

加州大學(xué)河濱分校Yinglun Zhu研究團(tuán)隊(duì)重新審視了這一問(wèn)題，發(fā)現(xiàn)其根源之一在于評(píng)測(cè)指標(biāo)本身——它系統(tǒng)性地低估了模型的真實(shí)能力。

博客鏈接：https://yinglunz.com/blogs/ttm.html

論文鏈接：https://arxiv.org/pdf/2510.07632

代碼鏈接：https://github.com/yinglunz/test-time-matching

團(tuán)隊(duì)據(jù)此提出了新的GroupMatch指標(biāo)，能夠挖掘被現(xiàn)有評(píng)測(cè)掩蓋的潛在能力，使GPT-4.1首次在Winoground基準(zhǔn)測(cè)試上超越人類(lèi)表現(xiàn)。

基于這一洞見(jiàn)，團(tuán)隊(duì)進(jìn)一步提出一種無(wú)需外部監(jiān)督、能夠自我改進(jìn)的迭代算法Test-Time Matching（TTM），可在模型推理階段顯著提升性能。

得益于TTM，僅0.2B參數(shù)的SigLIP-B16就在MMVP-VLM基準(zhǔn)測(cè)試上超越了GPT-4.1，刷新了當(dāng)前最優(yōu)結(jié)果。

研究背景

組合推理（compositional reasoning）體現(xiàn)了AI是否具備「舉一反三」的能力——能否將對(duì)象、屬性和關(guān)系重新組合，去理解新的情境。

像Winoground這樣的基準(zhǔn)測(cè)試通過(guò)2×2群組設(shè)計(jì)來(lái)考察這種能力：其中兩條文本用詞相同但順序不同，每條只對(duì)應(yīng)其中一張圖像。

盡管這些模型在多模態(tài)任務(wù)中表現(xiàn)出強(qiáng)大能力，但對(duì)比式視覺(jué)語(yǔ)言模型（VLMs）和多模態(tài)大語(yǔ)言模型（MLLMs）在這類(lèi)基準(zhǔn)測(cè)試中表現(xiàn)依然有限。

在Winoground基準(zhǔn)測(cè)試上，即便是前沿模型的得分也遠(yuǎn)低于人類(lèi)水平（約85.5分）；

此前的最佳結(jié)果僅為58.75，且是通過(guò)對(duì)GPT-4V進(jìn)行scaffolding和prompt tuning實(shí)現(xiàn)的。

重新審視評(píng)測(cè)指標(biāo)

從隨機(jī)猜測(cè)到群組匹配

加州大學(xué)河濱分校（UCR）研究團(tuán)隊(duì)發(fā)現(xiàn)，模型在組合推理任務(wù)中的低分，部分源自評(píng)測(cè)指標(biāo)本身。

當(dāng)前廣泛使用的GroupScore指標(biāo)過(guò)于嚴(yán)格：它要求每張圖像都與正確的文本匹配、每段文本也與正確的圖像匹配，但并不檢查整個(gè)群組的全局一致性。

只要有一次錯(cuò)配，整組得分就會(huì)被判為0。

假設(shè)每組包含k張圖像和k條文本描述，GroupScore只逐一檢查圖像與文本之間的匹配情況，而忽略整體關(guān)系。

在隨機(jī)匹配下，成功率僅為 (k?1)! / (2k?1)!；當(dāng)k = 2時(shí)，這個(gè)概率只有六分之一。

為解決這一問(wèn)題，團(tuán)隊(duì)提出了新的GroupMatch指標(biāo)，用于評(píng)估群組內(nèi)的整體最優(yōu)匹配，而不是孤立的成對(duì)比較。

GroupMatch會(huì)考慮所有可能的匹配方式（共k!種），并選擇最可能的那一個(gè)。

這樣，在隨機(jī)猜測(cè)下的成功率提升為1 / k!——當(dāng)k = 2時(shí)為二分之一，比原來(lái)的六分之一大幅提高。

更關(guān)鍵的是，如果模型能在GroupMatch下找到正確匹配，只需在測(cè)試階段對(duì)該匹配進(jìn)行過(guò)擬合，就能在原始GroupScore下獲得滿(mǎn)分。

基于這一發(fā)現(xiàn)，團(tuán)隊(duì)提出了一個(gè)簡(jiǎn)單的SimpleMatch兩步法：

1. 使用 GroupMatch 選擇最可能的匹配；

2. 在測(cè)試階段對(duì)該匹配進(jìn)行過(guò)擬合。

如上圖所示，SimpleMatch揭示了模型中大量「被隱藏」的潛力——它讓僅有0.2B參數(shù)的SigLIP-B16超越了此前所有結(jié)果，并使GPT-4.1首次在Winoground上超過(guò)人類(lèi)表現(xiàn)。

Test-Time Matching

在測(cè)試階段自我迭代提升模型能力

為進(jìn)一步提升模型表現(xiàn)，UCR研究團(tuán)隊(duì)提出了一種無(wú)需外部監(jiān)督、能夠自我改進(jìn)的迭代算法Test-Time Matching (TTM)。

每次迭代包括三個(gè)步驟：

1. 模型對(duì)所有群組進(jìn)行匹配預(yù)測(cè)；

2. 僅保留置信度高的匹配（即得分差距超過(guò)閾值）作為偽標(biāo)簽，并在這些偽標(biāo)簽上自我微調(diào)；

3. 隨著迭代進(jìn)行，逐步放寬閾值，以納入更多樣本。

TTM的核心在于兩點(diǎn)：

1. 基于GroupMatch的偽標(biāo)簽?zāi)芨行У乩萌航M結(jié)構(gòu)，提供更強(qiáng)的監(jiān)督信號(hào)；

2. 閾值的逐步衰減機(jī)制讓模型先從高置信數(shù)據(jù)學(xué)習(xí)，再逐步擴(kuò)展覆蓋范圍。

這一算法可以看作測(cè)試時(shí)訓(xùn)練 (test-time training) 的一種形式，結(jié)合了自訓(xùn)練 (self-training)、半監(jiān)督學(xué)習(xí) (semi-supervised learning) 和主動(dòng)學(xué)習(xí) (active learning) 的思想。

從實(shí)驗(yàn)結(jié)果來(lái)看，TTM在多個(gè)數(shù)據(jù)集和模型上都穩(wěn)定優(yōu)于 SimpleMatch：相對(duì)性能提升最高可達(dá) 10.5%，相對(duì)錯(cuò)誤率下降54.8%

值得注意的是，TTM讓SigLIP-L16在ColorSwap數(shù)據(jù)集上提升至GPT-4.1的水平，并使SigLIP-B16（僅0.2B參數(shù)）在MMVP-VLM上超越GPT-4.1，刷新了當(dāng)前最優(yōu)結(jié)果。

TTM的廣泛適用性

雖然前面的結(jié)果主要基于方形群組（k×k）的組合推理任務(wù)，但TTM同樣適用于矩形群組，甚至是沒(méi)有群組結(jié)構(gòu)的數(shù)據(jù)集。

指標(biāo)變化不帶來(lái)提升的情況

在只有1×k結(jié)構(gòu)的群組中，GroupMatch與GroupScore等價(jià)，因此單純更換指標(biāo)并不會(huì)改進(jìn)結(jié)果。

即便如此，TTM在SugarCrepe和WhatsUp等數(shù)據(jù)集上依然帶來(lái)了顯著提升，其中在WhatsUp上的相對(duì)增幅高達(dá)85.7%，讓原本困難的任務(wù)變得可解。

無(wú)群組結(jié)構(gòu)的情況

TTM還能將整個(gè)數(shù)據(jù)集視為一個(gè)全局的「圖像-文本匹配問(wèn)題」（assignment problem），并在多項(xiàng)式時(shí)間內(nèi)求解。

即使將Winoground、MMVP-VLM和ColorSwap等數(shù)據(jù)集全部「打平」為無(wú)群組結(jié)構(gòu)，TTM依然能顯著提升表現(xiàn)，最高可帶來(lái)33.3%的相對(duì)錯(cuò)誤率下降。

討論與展望

UCR研究團(tuán)隊(duì)重新審視了多模態(tài)模型在組合推理上的長(zhǎng)期難題，指出：許多被認(rèn)為的「失敗」，其實(shí)源自評(píng)測(cè)指標(biāo)的局限。

團(tuán)隊(duì)提出的GroupMatch指標(biāo)與Test-Time Matching (TTM) 算法表明，模型的組合推理能力早已存在——只需要在測(cè)試階段，用合適的方法將其「解鎖」。

在覆蓋16個(gè)不同數(shù)據(jù)集變體的系統(tǒng)實(shí)驗(yàn)中，TTM在多種設(shè)置下都展現(xiàn)出穩(wěn)定而顯著的改進(jìn)，推動(dòng)了多模態(tài)推理研究的前沿進(jìn)展。

展望未來(lái)，團(tuán)隊(duì)認(rèn)為有兩個(gè)方向值得進(jìn)一步探索：

重新思考模型評(píng)估：同一個(gè)模型在不同指標(biāo)下可能表現(xiàn)出截然不同的能力，這提醒我們需要建立更穩(wěn)健、更統(tǒng)一的評(píng)測(cè)框架。
將TTM推廣至組合推理之外：雖然TTM起源于組合推理，但它的核心思想——在測(cè)試階段進(jìn)行匹配式自訓(xùn)練——具有普適性。該思路有望在更廣泛的多模態(tài)和語(yǔ)言任務(wù)中發(fā)揮作用，推動(dòng)AI模型邁向真正的「自適應(yīng)、自進(jìn)化」。

參考資料：

https://arxiv.org/pdf/2510.07632

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.