夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

推理型模型是測試?yán)谜撸簩Χ囗椷x擇題的重新思考

0
分享至

Reasoning Models are Test Exploiters:Rethinking Multiple Choice

推理模型是測試?yán)谜撸簩x擇題的再思考

https://arxiv.org/pdf/2507.15337

《Reasoning Models are Test Exploiters: Rethinking Multiple Choice》系統(tǒng)性地質(zhì)疑了當(dāng)前大語言模型(LLMs)評估中廣泛依賴的多項選擇題問答(MCQA)范式,并揭示了一個關(guān)鍵現(xiàn)象:最先進(jìn)的推理型模型在 MCQA 任務(wù)中的高分,很大程度上源于對選項結(jié)構(gòu)的“利用”(exploitation),而非真實的問題求解能力

核心發(fā)現(xiàn)與重點概述:

  1. MCQA 高分會夸大模型的真實推理能力
    當(dāng)模型在看到選項之后再進(jìn)行思維鏈(CoT)推理(即 QMC-CoT 設(shè)置)時,其準(zhǔn)確率顯著高于完全自由作答(Q-CoT)。這種差距在大型推理模型(如 o3、Qwen3 等)中尤為明顯,可達(dá) 30–40 個百分點。這表明模型并非僅靠內(nèi)部知識推理,而是利用選項中的線索、統(tǒng)計模式或排除策略來“反向推導(dǎo)”答案。

  2. 推理型模型是更強(qiáng)的“測試?yán)谜摺?/strong>
    與直覺相反,參數(shù)規(guī)模更大的模型并不一定更“誠實”;恰恰是那些具備強(qiáng)推理能力的模型,更善于從選項中提取信號。例如,Qwen3 系列(尤其是較小版本)在僅憑選項(無題干)的情況下仍能大幅超越隨機(jī)猜測,顯示出極強(qiáng)的選項利用能力。

  3. 選項設(shè)計深刻影響評估效度

    • 引入“以上皆非”(NOTA)選項可有效削弱模型對選項的依賴,縮小推理型與非推理型模型之間的性能差距。

    • 即使將干擾項變得更難(如 MMLU-Pro 將選項從 4 個增至 10 個),也不能可靠抑制利用行為——某些模型反而更擅長從中篩選正確答案。

  4. “兩階段”評估揭示真實推理能力
    通過先讓模型自由推理(Q-CoT),再呈現(xiàn)選項供其選擇(Q-CoT-MC-1T 或 Q-CoT-MCNA-CoT),可以分離“真實推理”與“選項利用”。實驗表明,當(dāng)正確答案被 NOTA 替代時,許多模型性能顯著下降,說明其第二階段依賴選項而非初始推理。

  5. 對評估實踐的三大建議

    • 解耦推理與選擇

      :應(yīng)分別報告模型在自由生成和選項選擇階段的表現(xiàn)。

    • 設(shè)計選項無關(guān)的題目

      :題干不應(yīng)暗示選項存在,并優(yōu)先采用自由文本答案或事后映射評分。

    • 警惕“更難干擾項”的局限性

      :僅靠增加干擾項難度無法根治利用問題,需結(jié)合格式設(shè)計(如 NOTA)與評估協(xié)議改進(jìn)。

總結(jié):

該論文呼吁研究界重新審視 MCQA 作為 LLM 能力代理指標(biāo)的有效性。它指出,當(dāng)前排行榜上的高性能可能部分反映的是模型“應(yīng)試技巧”而非真實理解力。為構(gòu)建更可靠、更貼近現(xiàn)實任務(wù)(以自由生成為主)的評估體系,必須超越傳統(tǒng)多項選擇范式,發(fā)展更能隔離真實推理能力的評測方法。



摘要

在評估大語言模型(LLMs)于問答任務(wù)中的表現(xiàn)時,通常會讓模型從一組固定選項中進(jìn)行選擇(即所謂的多項選擇題問答,MCQA)。盡管實際下游任務(wù)通常不會向系統(tǒng)明確提供可供選擇的選項,但這種方法仍被廣泛采用,因為它使自動評分變得簡單直接,并且往往能產(chǎn)生具有挑戰(zhàn)性的基準(zhǔn)測試,這些測試與下游任務(wù)的表現(xiàn)具有足夠良好的相關(guān)性。本文研究了這一趨勢在當(dāng)前最先進(jìn)的推理模型中是否依然成立,系統(tǒng)性地評估了15個不同的問答基準(zhǔn)(例如 MMLU、GSM8K、MATH、STEER-ME)和27個不同的大語言模型(包括小型模型如 Qwen-2.5 7B Instruct、中型模型如 Llama-3.3 70B Instruct,以及大型前沿模型如 OpenAI 的 o3)。對于每一對模型與基準(zhǔn),我們考慮了5種不同的問題呈現(xiàn)方式,包括:是否向模型提供多個選項;是否有時用“以上皆非”替代正確答案;以及是否允許模型在選項呈現(xiàn)之前和/或之后進(jìn)行思維鏈(chain-of-thought)推理。研究發(fā)現(xiàn),只要模型僅被允許在看到選項之前進(jìn)行思維鏈推理,MCQA 仍然是衡量模型下游表現(xiàn)的良好代理指標(biāo)。然而,對于那些能夠在看到選項之后再進(jìn)行推理的大型模型而言,它們的表現(xiàn)顯著優(yōu)于其自由文本生成的表現(xiàn),這是因為它們利用了選項中所包含的信息。本文識別并量化了模型在回答 MCQA 問題時所依賴的信號,并就如何分析 MCQA 結(jié)果提出了實用指南,以更準(zhǔn)確地反映大語言模型的真實推理能力。

1 引言

早期的機(jī)器閱讀理解研究采用多項選擇題問答(MCQA)方法,因其評分簡便、自動化程度高,并能模擬人們熟悉的考試形式。MCTest 語料庫率先引入了這一范式,包含 660 篇兒童故事及四選項問題,證明將答案限制在固定標(biāo)簽集中可避免自由文本的歧義性并簡化評估(Richardson, Burges, and Renshaw 2013)。后續(xù)工作如 RACE 和 ARC 進(jìn)一步擴(kuò)大了數(shù)據(jù)規(guī)模和領(lǐng)域覆蓋范圍(Lai et al. 2017;Clark et al. 2018),而 MMLU 則將范圍擴(kuò)展至 57 個學(xué)科,以多項選擇題形式衡量通用知識與推理能力(Hendrycks et al. 2020)。如今,MCQA 基準(zhǔn)已被廣泛用于大語言模型(LLMs)的評估(Liang et al. 2022;Li et al. 2024),其中 MMLU(Hendrycks et al. 2020)、GPQA(Rein et al. 2023)和 ARC(Clark et al. 2018)已成為標(biāo)準(zhǔn)性能標(biāo)尺。

歷史上,MCQA 基準(zhǔn)上的高準(zhǔn)確率通常被視為良好推理能力的信號(例如,GPT-4 在 MMLU 上達(dá)到 88.7% 的準(zhǔn)確率,顯著優(yōu)于 Gemma (7B) 的 66.0%)。然而,近期這一信號的可靠性受到質(zhì)疑。性能提升的原因多種多樣:一方面,LLMs 確實在下游任務(wù)上真正取得了進(jìn)步;另一方面,它們也可能受益于在用于評估的相同基準(zhǔn)上進(jìn)行訓(xùn)練。

第三個原因正日益受到關(guān)注:MCQA 格式本身可能為模型提供了利用測試結(jié)構(gòu)的機(jī)會。即使不提供問題,僅憑選項文本中的啟發(fā)式排除規(guī)則或統(tǒng)計“人工痕跡”(artifacts),模型也能在純選項輸入上取得遠(yuǎn)高于隨機(jī)水平的表現(xiàn)(Balepur, Ravichander, and Rudinger 2024;Myrzakhan, Bsharat, and Shen 2024)。通過打亂或隨機(jī)化選項順序,可以揭示出模型的選擇偏差,而這類偏差需要通過去偏方法(如 PriDe)加以處理(Zheng et al. 2024)。Turner 和 Kurzeja

025)發(fā)現(xiàn),一個決策樹甚至無需閱讀問題就能在 TruthfulQA 上達(dá)到近 80% 的準(zhǔn)確率。與此相呼應(yīng),近期研究還表明,引入“以上皆非”(None-of-the-Above, NOTA)選項會顯著降低 LLMs 的表現(xiàn)(Raman et al. 2024, 2025;Tam et al. 2025),這明確將選項設(shè)計與虛高的分?jǐn)?shù)聯(lián)系起來。然而,模型的魯棒性差異很大:當(dāng)干擾項(distractors)被強(qiáng)化或隨機(jī)化時,某些經(jīng)過指令微調(diào)的模型仍表現(xiàn)出出人意料的穩(wěn)定性能(Wang et al. 2024a)。最相關(guān)的是,Raman 等人(2025)最近觀察到,模型通過“代入驗證”(plug-and-chug)策略和對所提供選項的“上下文錨定”(contextual anchoring)來提升 MCQA 表現(xiàn)。

盡管存在上述及其他問題,許多排行榜和模型發(fā)布仍繼續(xù)強(qiáng)調(diào) MCQA 任務(wù)。例如,在 OpenAI 關(guān)于“用 LLM 學(xué)習(xí)推理”的 o1-preview 博客文章中,MCQA 占所用 4 個數(shù)據(jù)集中的 3 個(OpenAI 2024);在 Meta 發(fā)布 Llama 3.1 的公告中,MCQA 占全部任務(wù)的 66%(Meta 2024);而在 HELM 評估中也占 32%(Perlitz et al. 2024)。相比之下,真實世界使用情況的研究卻呈現(xiàn)出鮮明對比:ShareGPT 數(shù)據(jù)集中的用戶查詢主要以自由生成輸出為主,而非驗證類任務(wù);MCQA 風(fēng)格的查詢僅占全部任務(wù)的 7.2%(Ouyang et al. 2023)。

當(dāng)前一種流行的“改進(jìn)”MCQA 的方法是通過引入更難的干擾項來擴(kuò)充選項集(Wang et al. 2024c;Gema et al. 2024)。另一些基準(zhǔn)則進(jìn)一步轉(zhuǎn)向真正的自由文本問答(FTQA),設(shè)計完全開放回答的評測(Myrzakhan, Bsharat, and Shen 2024)。諸如 SQuAD(Rajpurkar et al. 2016)、HotpotQA(Yang et al. 2018)和 DROP(Dua et al. 2019)等片段抽取型基準(zhǔn)要求模型從段落中定位答案片段,并通過精確匹配(exact-match)或詞元級 F1 分?jǐn)?shù)進(jìn)行評估。在數(shù)學(xué)領(lǐng)域,GSM8K(Cobbe et al. 2021)、STEER-ME(Raman et al. 2024)和 MATH(Hendrycks et al. 2021)使用自由格式的數(shù)字或短文本答案,并基于標(biāo)準(zhǔn)化后的精確匹配進(jìn)行評判;在程序合成領(lǐng)域,HumanEval(Chen et al. 2021)和 MBPP(Austin et al. 2021)則依賴基于執(zhí)行的單元測試作為評判標(biāo)準(zhǔn)。混合型基準(zhǔn)(如 HLE)結(jié)合封閉式與開放式問題,以減少猜測和選擇偏差(Phan et al. 2025)。盡管如此,F(xiàn)TQA 目前主要適用于響應(yīng)內(nèi)容為數(shù)值或易于解析的受限領(lǐng)域(例如 Hendrycks et al. 2021;Raman et al. 2025)。

鑒于上述張力,研究人員已提出一些有前景的、基于 LLM 的 MCQA 替代方案,試圖兼顧兩者優(yōu)點(Ko?isky et al. 2018;Li, Zhang et al. 2023;Chandak et al. 2025)。然而,本文的目標(biāo)并非提出另一種替代方案,而是校準(zhǔn) MCQA 究竟衡量了什么:鑒于基于 LLM 的替代方法可能引入新的偏差(Chen et al. 2024),我們轉(zhuǎn)而量化 MCQA 的可利用性,精確定位選項驅(qū)動的性能增益究竟在何時、何處出現(xiàn)——特別聚焦于思維鏈(CoT)推理時機(jī)與選項設(shè)計的影響。

我們在第 2 節(jié)介紹所選基準(zhǔn),第 3 節(jié)描述評估方法與模型陣容。我們比較了五種評估格式下的模型表現(xiàn):(1) MC-CoT:模型僅看到選項而無問題,需從中選擇;(2) QMC-CoT:模型看到問題并從固定選項中選擇答案;(3) Q-CoT:模型對問題生成完全自由形式的答案,無選項提供;(4) Q-CoT-MC-1T:模型先自由推理,再從提供的選項中選擇;(5) 引入“以上皆非”(NOTA)占位選項,以校準(zhǔn)評估基線并減少對排除策略的依賴。

總計,我們在 OpenAI API 調(diào)用上花費了 2,146.51 美元,并使用了相當(dāng)于 4.92 GPU 年的算力來評估開源模型。隨后,我們通過準(zhǔn)確率差異分析揭示:當(dāng)允許 LLM 對選項進(jìn)行推理時,MCQA 如何夸大其表觀能力。第 4 節(jié)討論這些發(fā)現(xiàn),并總結(jié)若干亮點:當(dāng)選項先于 CoT 出現(xiàn)(QMC-CoT)時,即使考慮事后“最接近答案”的映射,推理模型的表現(xiàn)仍顯著優(yōu)于 Q-CoT,表明存在一種明顯的二次捷徑;引入 NOTA 干預(yù)可削弱該捷徑,并縮小推理模型與非推理模型之間的差距;而單純使選項集“更難”并不能可靠抑制可利用性,對某些模型甚至反而加劇了這一問題。

最后,我們在第 5 節(jié)就基準(zhǔn)設(shè)計提出若干實用建議。

2 基準(zhǔn)測試

我們在15個基準(zhǔn)上評估了大語言模型(LLMs),這些基準(zhǔn)覆蓋了多樣化的領(lǐng)域和問題形式。除非另有說明,每個基準(zhǔn)完全由四選項的多項選擇題組成。

2.1 多項選擇題問答(MCQA)基準(zhǔn)

MMLU 是一個包含 15,908 道多項選擇題的數(shù)據(jù)集,涵蓋 57 個領(lǐng)域(Hendrycks et al. 2020)。

MMLU-Pro 是 MMLU 的擴(kuò)展版本,通過剔除大多數(shù)模型認(rèn)為簡單的問題,并將每道題的選項數(shù)量從 4 個增加到 10 個,從而提高了難度(Wang et al. 2024c)。

Open-LLM 是一套包含多個基準(zhǔn)的評測套件:ARC、WinoGrande、PIQA、CommonsenseQA、RACE、MedMCQA 和 OpenbookQA(Myrzakhan, Bsharat, and Shen 2024)。

GPQA Diamond 是研究生水平“谷歌無法解答”問答(GPQA)基準(zhǔn)中最難的一個子集。該 Diamond 子集包含 198 道題目,涵蓋高等生物學(xué)、化學(xué)和物理學(xué)(Rein et al. 2023)。

2.2 自由文本問答(FTQA)基準(zhǔn)

GSM8K 是一個小學(xué)數(shù)學(xué)應(yīng)用題數(shù)據(jù)集;答案為一個數(shù)字或簡短短語(Cobbe et al. 2021)。

MATH 是一個包含 12,500 道競賽級數(shù)學(xué)問題的數(shù)據(jù)集,答案通常為一個簡短的數(shù)字或表達(dá)式(Hendrycks et al. 2021)。

PythonIO 是一個程序輸出預(yù)測任務(wù),由 HumanEval(Chen et al. 2021)和 MBPP(Austin et al. 2021)轉(zhuǎn)換而來(Zhang et al. 2024)。

STEER-ME 是一個測試經(jīng)濟(jì)推理能力的基準(zhǔn),其問題答案為數(shù)值或函數(shù)形式。該數(shù)據(jù)集針對 58 種場景,每種場景包含 1,000 至 5,000 道題目(Raman et al. 2025)。

3 方法論
我們的目標(biāo)是衡量大語言模型(LLM)在多項選擇題問答(MCQA)中的表現(xiàn)有多少源于真實的問題求解能力,又有多少源于對選項結(jié)構(gòu)的利用(exploitation)。我們首先明確評估格式(輸入內(nèi)容與允許的響應(yīng)形式),然后定義基于這些格式構(gòu)建的一階段和兩階段配置;接著描述我們的評估指標(biāo)(準(zhǔn)確率與可利用性)、MCQA 與自由文本問答(FTQA)之間的轉(zhuǎn)換方法,以及實驗設(shè)置。

3.1 評估格式
如何向 LLM 呈現(xiàn) MCQA 和 FTQA 問題,構(gòu)成了一個龐大的設(shè)計空間。我們聚焦于該空間中的兩個關(guān)鍵維度:問題的呈現(xiàn)格式,以及允許 LLM 生成的響應(yīng)形式。

問題格式
我們將 MCQA 問題以三種格式呈現(xiàn)給模型。
第一種格式僅提供某道題的 k 個多項選擇選項,而隱藏實際的問題題干(例如“2+2 等于多少?”)。該格式旨在識別選項本身所包含的可被利用的信息量,類似于 Balepur、Ravichander 和 Rudinger(2024)以及 Chandak 等人(2025)的工作。

第二種格式則先呈現(xiàn)問題題干,再給出其 k 個選項。

根據(jù) Raman 等人(2024, 2025)以及 Tam 等人(2025)的研究,在第三種格式中,我們在多項選擇題中插入一個“以上皆非”(None of the Above, NOTA)占位選項。具體而言,對于給定基準(zhǔn)中 1/k 的題目,我們將正確答案替換為 NOTA;在其余題目中,我們隨機(jī)均勻地選擇一個錯誤選項,將其替換為 NOTA。

在我們的分析中,每一道 MCQA 題目均被格式化為以下四種格式:


響應(yīng)格式我們考慮大語言模型(LLM)如何對給定上下文作出響應(yīng),將其視為一個函數(shù):該函數(shù)將輸入字符串映射為輸出字符串,或映射為下一個詞元(token)的概率分布。該函數(shù)的具體輸出不僅取決于輸入的上下文,也取決于所使用的 LLM 本身。推理型模型(例如 OpenAI 的 o 系列、DeepSeek 的 R1)經(jīng)過微調(diào),總是會輸出思維鏈(chain-of-thought)詞元;我們將任何在答案前包含思維鏈的響應(yīng)格式記為 CoT。非推理型模型則可通過提示(prompting)使其僅輸出單個詞元,不進(jìn)行任何思維鏈推理;我們將此類響應(yīng)格式記為 1T。

我們遵循 Wang 等人(2024a, b)的做法,明確指示模型僅輸出單個詞元,以避免 1T 和 CoT 格式下所獲得的答案字母不一致的問題。具體提示語詳見附錄 A。

評估配置評估配置是指一個(輸入,響應(yīng))對,調(diào)用該配置后會產(chǎn)生一個可被評估的輸出。我們同時考慮單階段(one-stage)和雙階段(two-stage)配置。我們首先定義單階段配置,然后利用這些概念來定義我們的雙階段配置。


MCQA 和 FTQA 是標(biāo)準(zhǔn)的單階段評估配置。區(qū)分 MCQA 與 FTQA 的一個關(guān)鍵設(shè)計維度在于:模型是否能在推理過程中利用選項信息(QMC-CoT),還是在完全不知曉選項的情況下進(jìn)行推理(Q-CoT)。

我們考慮了五種單階段評估配置:


需要注意的是,MC-CoT 與 Balepur、Ravichander 和 Rudinger(2024)提出的方法類似;然而,他們將 LLM 限制為使用 1T 響應(yīng)函數(shù),而我們關(guān)注的是模型對選項進(jìn)行推理所產(chǎn)生的影響,因此將響應(yīng)函數(shù)限制為 CoT。

基于上述單階段配置,我們還可以構(gòu)建雙階段配置:首先要求模型執(zhí)行一個 Q-CoT 步驟(即在無選項情況下進(jìn)行自由推理),隨后向模型呈現(xiàn)選項,并要求其以 CoT 或 1T 的形式給出最終答案。

Raman 等人(2024)提出了 Q-CoT-MC-1T(曾被稱為“hidden”),這是一種雙階段配置,其第二階段的響應(yīng)為 1T。然而,第二階段所使用的響應(yīng)函數(shù)實際上取決于具體的 LLM,因為推理型模型無法僅輸出 1T。表 4 描述了我們所考慮的四種雙階段配置。


一個顯著的局限性在于:由于第二階段將選項重新提供給同一個生成了思維鏈(chain-of-thought)的模型,推理型模型在選擇最終標(biāo)簽時仍可能利用選項中的“人工痕跡”(artifacts)或應(yīng)用排除啟發(fā)式策略。這意味著,任何雙階段配置主要適用于衡量非推理型模型的可利用性(exploitation)。

然而,Q-CoT-MCNA-CoT 仍能為理解推理型模型利用選項的能力提供洞見。在這種配置下,模型僅有在 1?1/k的題目中,其第二階段的選項集合里包含正確答案;因此,若模型依賴排除法而非基于先前推理軌跡來確定答案,則更有可能失敗。

3.2 評估指標(biāo)我們從兩個指標(biāo)對大語言模型(LLMs)進(jìn)行評估:

準(zhǔn)確率(Accuracy):主要指標(biāo)是正確回答問題的百分比。對于 MCQA,判斷標(biāo)準(zhǔn)很簡單:若模型所選選項的字母與正確選項字母一致,則視為正確。對于 FTQA,若模型的回答與已知正確答案匹配,則視為正確。對于數(shù)值型答案,我們要求在將正確答案四舍五入到模型所報告的有效數(shù)字位數(shù)后,二者在數(shù)值上相等。這一規(guī)則懲罰過度精確:如果 LLM 報告了多于必要的有效數(shù)字且結(jié)果錯誤,則該差異被視為錯誤。對于函數(shù)型答案,我們將文本轉(zhuǎn)換為 SymPy 表達(dá)式并進(jìn)行簡化,再利用 SymPy 內(nèi)置功能測試其等價性。具體所用 Python 評分函數(shù)詳見附錄 C.1。

可利用性(Exploitation):這是指在獲得選項訪問權(quán)限后所能提取出的額外準(zhǔn)確率。我們可通過多種方式定義“額外”部分,但自然的基線是隨機(jī)猜測。無論選擇何種基線,我們都將“可利用性”定義為:存在選項的配置下的準(zhǔn)確率與不存在選項的配置下的準(zhǔn)確率之間的附加差值。例如,對于每個包含 k 個選項的問題,令 AMC為模型在 QMC-CoT 配置下的準(zhǔn)確率,AFT為其在 Q-CoT 配置下的準(zhǔn)確率,而 1/k為隨機(jī)猜測基線:


E 為正值意味著:LLM 在看到選項時、超出隨機(jī)猜測水平的正確率,超過了其在沒有選項時所能達(dá)到的水平;換句話說,這部分準(zhǔn)確率依賴于選項本身,而非模型的底層知識。其單位為百分點:E = 0.12 表示每 100 道題中,有 12 道題的正確回答會因隱藏選項而消失。

3.3 問題格式轉(zhuǎn)換
我們方法論的一個核心方面是:以多項選擇題(MCQA)和自由文本(FTQA)兩種格式向大語言模型(LLMs)提問,以考察僅格式本身對性能的影響。本節(jié)描述我們?nèi)绾螌⒌?2 節(jié)列出的基準(zhǔn)數(shù)據(jù)集轉(zhuǎn)換為另一種格式。

MCQA → FTQA:我們從 Open-LLM 中的數(shù)據(jù)集開始。該數(shù)據(jù)集套件是通過對多個原始數(shù)據(jù)集進(jìn)行篩選而構(gòu)建的,剔除了不適合開放式回答的問題。然而,他們所采用的篩選過程仍保留了許多無法有效轉(zhuǎn)換為 FTQA 的 MCQA 問題。因此,我們進(jìn)一步實施了兩步過濾程序:
(1)通過子字符串搜索,移除所有題干中顯式或隱式提及選項的題目(例如包含 “Which of the following”、“What can be concluded from the passage” 等表述);
(2)移除所有未以句號或問號結(jié)尾的題干(例如 “While training the rats, the trainers have to be” 這類不完整句子)。

經(jīng)過這一過濾流程后,原始數(shù)據(jù)集中同時適用于 MCQA 和 FTQA 的題目保留了 62.81%。更多細(xì)節(jié)及各數(shù)據(jù)集的具體分解見附錄中的圖 5。需要注意的是,該過程很可能遺漏了一些本可轉(zhuǎn)換的 MCQA 題目。


我們對 MMLU-Pro 也采用了相同的兩步過濾方法,將其原始測試集的 12,032 道題目減少至 7,130 道。

FTQA → MCQA:對于第 2.2 節(jié)中列出的大多數(shù)原本以 FTQA 形式構(gòu)建的數(shù)據(jù)集(STEER-ME 除外),我們使用了 Zhang 等人(2024)創(chuàng)建的 MCQA 版本。這些數(shù)據(jù)集是通過收集 60 個開源模型在 GSM8K、MATH、HumanEval 和 MBPP 上的答案及錯誤預(yù)測構(gòu)建而成。最后,STEER-ME 基準(zhǔn)本身包含程序化生成的多項選擇題選項。

我們強(qiáng)調(diào):對于任何基準(zhǔn),我們均未修改問題內(nèi)容或其正確答案;僅改變了呈現(xiàn)形式。這使“多項選擇題格式的可利用性”成為唯一關(guān)注的變量。此外,由于我們并未使用 LLM 或其他基于模型的工具來評估自由文本答案,因此存在許多通過過濾步驟的 MCQA 問題無法在自由文本形式下進(jìn)行評估。例如,當(dāng)一個問題既要求給出答案又要求提供理由時:“州法院應(yīng)依據(jù)聯(lián)邦法還是州法來判定判決的效力?”可能的完整回答為:“州法,因為 X...” 或 “州法,因為 Y...”。對于這類問題,我們僅在模型能看到選項的格式下評估其正確性(例如 Q-CoT-MC-CoT 或 Q-CoT-MC-1T)。

我們進(jìn)行了最后一輪過濾:運(yùn)行我們的評分函數(shù)對所有正確答案進(jìn)行檢測,以確認(rèn)它們是否能被轉(zhuǎn)換為可評分的格式。我們將通過此過濾步驟的問題稱為“CoT 可提取問題”。

3.4 實驗設(shè)置

總計,我們評估了 27 個大語言模型(LLMs)。我們在表 6 中簡要列出了這些模型,完整的模型列表(含模型卡片與配置)詳見附錄 B 的表 7。表 5 列出了我們在每種模型類型上運(yùn)行的評估配置。



除 STEER-ME 外,所有數(shù)據(jù)集中,我們對每個開源 LLM 在每數(shù)據(jù)集上評估 5,000 道題目,對閉源 LLM(o3 和 gpt-4o)則評估每數(shù)據(jù)集 1,000 道題目。對于 STEER-ME,我們讓所有開源 LLM 在每個場景元素上評估 100 道題,閉源模型則評估每個元素 20 道題,最終分別得到總計 5,800 道和 1,160 道題目。

我們從 HuggingFace Hub(Wolf et al. 2019)獲取了 23 個開源 LLM,并在 1 至 4 塊 L40 GPU 上運(yùn)行。對于 o3 和 gpt-4o,我們使用 OpenAI 的 API。所有提示中,我們將 softmax 溫度 T 設(shè)置為推薦值:非推理模型采用貪心解碼(T = 0),推理模型則設(shè)為 T = 0.6–0.8。

答案提取方法

對于 CoT 格式,我們要求模型將答案置于 ‘\boxed{}’ 中。為從模型生成的推理內(nèi)容中提取答案,我們首先使用正則表達(dá)式匹配,直到找到正確的閉合花括號。若該正則表達(dá)式未能提取有效響應(yīng),我們將使用第二個正則表達(dá)式 ‘.[aA]nswer:\s[?]+’ 進(jìn)行二次嘗試以提取答案。對于 1T 格式,我們解碼“Answer: ”以及“Answer:\n”之后的下一個詞元的概率分布,并選擇賦予正確詞元最高概率的那個作為最終輸出。

4 結(jié)果
圖 1 報告了每個大語言模型(LLM)在 QMC-CoT 格式和 Q-CoT 格式下的 pass@1 準(zhǔn)確率。一個清晰的趨勢顯現(xiàn)出來:規(guī)模最大的模型——同時也是表現(xiàn)最強(qiáng)的模型——在 QMC-CoT 與 Q-CoT 之間的準(zhǔn)確率差距最為顯著(見圖 2)。所有參數(shù)量大約超過 50B 的模型,在選項先于思維鏈(CoT)呈現(xiàn)時,其得分高出 30 至 40 個百分點;對于推理型模型,這一差距甚至更大。


人們可能會認(rèn)為,造成這一差距的一個合理解釋是:模型在 CoT 推理后選擇與其推理結(jié)果最接近的選項。然而,這種啟發(fā)式策略并不常見,尤其在推理型模型中更是如此。我們觀察到,當(dāng)推理型模型在 QMC-CoT 中答對但在 Q-CoT 中答錯時,僅約 23% 的情況屬于“選擇最接近答案”的行為(各模型的具體分解見表 8)。此外,即使我們通過引入隨機(jī)猜測的優(yōu)勢來提升 Q-CoT 的表現(xiàn)(記為 Q-CoT+k),幾乎所有模型在 QMC-CoT 下的表現(xiàn)仍然更優(yōu)。


4.1 利用行為的證據(jù)
我們進(jìn)一步探究模型在利用過程中所依賴的信息信號。首先,我們分析所有模型在 MC-CoT 格式下的表現(xiàn),以量化僅通過對選項進(jìn)行推理所能產(chǎn)生的利用程度。接著,我們通過比較 LLM 在 QMC-CoT 與 Q-CoT-MC-1T(對推理型模型為 Q-CoT-MC-CoT)上的表現(xiàn),來量化由問題文本中額外信息所帶來的殘余利用程度。

僅基于選項的利用(MC-only Exploitation)
圖 6 量化了每個 LLM 利用選項中的信息超越隨機(jī)猜測的能力,展示了各模型在 MC-CoT 格式下相對于隨機(jī)猜測的準(zhǔn)確率提升。盡管大多數(shù)模型的表現(xiàn)優(yōu)于隨機(jī)猜測,但表現(xiàn)最差的推理型模型在 MC-CoT 上的準(zhǔn)確率仍高于表現(xiàn)最好的非推理型模型。在推理型模型中,我們觀察到 Qwen3 系列是最佳的“僅選項”利用者,其中 Qwen3(32B)比隨機(jī)猜測高出 13 個百分點。圖 7 進(jìn)一步按數(shù)據(jù)集分解了各模型相對于隨機(jī)猜測的性能增益。總體而言,最初即以 MCQA 形式構(gòu)建的數(shù)據(jù)集最容易被利用。事實上,ARC、HellaSwag 和 PIQA 是最易受“僅選項”利用影響的數(shù)據(jù)集:所有模型在這些數(shù)據(jù)集上的準(zhǔn)確率均顯著高于隨機(jī)水平,且除一個推理型模型外,其余所有推理型模型在 PIQA 上的準(zhǔn)確率均超過 80%。

基于完整題干與選項的利用(QMC-based Exploitation)
隨后,我們分析當(dāng) LLM 同時獲得問題文本和選項時所產(chǎn)生的殘余利用行為。為此,我們在雙階段配置上運(yùn)行 LLM:如果某模型在 Q-CoT-MC-1T(對推理型模型為 Q-CoT-MC-CoT)上的表現(xiàn)——經(jīng)其“僅選項”利用能力校正后——仍低于其在 QMC-CoT 上的表現(xiàn),則可視為存在基于完整題干與選項(QMC-based)的利用行為。

我們通過以下方式校正“僅選項”利用:從模型的 QMC-CoT 準(zhǔn)確率中減去其 MC-CoT 準(zhǔn)確率,并從其 Q-CoT-MC-1T 準(zhǔn)確率中減去隨機(jī)猜測基線(1/k)。為排除因答案映射問題導(dǎo)致的性能下降,我們對 Q-CoT-MC-1T 與 Q-CoT 進(jìn)行“超評分”(super-scoring):只要模型在任一格式下答對該題,即視為正確。因此,我們將基于 QMC 的利用定義為:


其中 AS為超評分后的準(zhǔn)確率。



4.2 選項設(shè)計對可利用性的影響

鑒于大語言模型(LLMs)能夠僅通過對選項進(jìn)行推理就實現(xiàn)利用,我們進(jìn)一步探究特定的選項集如何促成這種利用行為。我們首先重新審視了“僅選項”(MC-only)和“題干+選項”(QMC-based)兩類探測實驗,以量化正確答案的存在與否對利用程度的影響;隨后,我們比較了兩種廣泛使用的多項選擇題套件——它們采用不同的干擾項(distractor)設(shè)計(MMLU 與 MMLU-Pro)。

“以上皆非”(NOTA)的影響
在 MCNA-CoT 設(shè)置下(即部分題目中正確答案被替換為 NOTA),模型相對于隨機(jī)猜測的性能顯著下降(見圖 8 及附錄中的圖 9)。盡管 ARC、HellaSwag 和 PIQA 仍然是高度可利用的數(shù)據(jù)集,但在其他數(shù)據(jù)集上的表現(xiàn)更接近隨機(jī)猜測水平。這一變化削弱了推理型模型的優(yōu)勢:在 MC-CoT 中,推理型模型比非推理型模型平均高出 12.63%;而在 MCNA-CoT 中,這一差距縮小至僅 5.29%。部分原因在于推理型模型選擇 NOTA 的頻率更高——平均而言,推理型模型選擇 NOTA 的比例為 55.82%,而非推理型模型為 30.05%(真實 NOTA 比例為 25%)。通過檢查其思維鏈(CoT)內(nèi)容可見,推理型模型更傾向于將 MCNA-CoT 設(shè)置視為“陷阱題”,并認(rèn)為 NOTA 是此類題目的常見答案。

我們進(jìn)一步考察 NOTA 對 QMC 型利用的影響。此前我們觀察到,在 Q-CoT-MC-CoT 中,推理型模型可通過重新審視選項來優(yōu)化其初始答案;而 Q-CoT-MCNA-CoT 則會破壞這種“二次修正”的捷徑(見圖 10)。大多數(shù)模型均表現(xiàn)出一定程度的性能下降,表明:盡管這些 LLM 在能訪問完整選項集時可取得高準(zhǔn)確率,但一旦正確答案被移除,其性能會下降 2 至 15 個百分點。

鑒于 MCNA-CoT 中的行為,我們進(jìn)一步檢驗性能下降究竟是因為 NOTA 本身具有吸引力,還是因為正確答案對 QMC 型利用至關(guān)重要。我們將 NOTA 選擇視為一個二分類任務(wù),并報告兩類(“應(yīng)選 NOTA” vs. “不應(yīng)選 NOTA”)的精確率與召回率(見表 10)。對于正確答案被替換為 NOTA 的題目,DeepSeek R1(70B)的精確率為 0.85,召回率為 0.58;而對于 NOTA 并非正確答案的題目,其精確率為 0.78,召回率為 0.94,表明當(dāng)存在正確選項時,該模型極少過度選擇 NOTA。綜合來看,這些結(jié)果表明:模型并非盲目偏好 NOTA 這一顯眼選項,而是有選擇地在其推理軌跡無法匹配任何有效選項時才使用 NOTA。這一模式在大多數(shù)推理型模型中普遍存在。

“更難選項”的影響
接下來,我們考察將選項集設(shè)計得“更難”(且更大)是否能降低“僅選項”利用。MMLU 與 MMLU-Pro 為此問題提供了天然的測試平臺。針對每個數(shù)據(jù)集,我們計算歸一化的利用度:,其中 k為選項數(shù)量。該指標(biāo)將隨機(jī)猜測設(shè)為 0,僅靠選項即可完美作答設(shè)為 1,從而使得 MMLU(k=4)與 MMLU-Pro(k=10)可在不受選項數(shù)量影響的統(tǒng)一尺度上進(jìn)行比較。

從圖 4 中可看出兩個顯著模式:(1)對于幾乎所有非推理型模型,盡管 MMLU-Pro 嚴(yán)格意義上比 MMLU 更難利用,但其選項集仍泄露了足夠信號,使其表現(xiàn)優(yōu)于隨機(jī)猜測(提升幅度在 5%–10% 范圍內(nèi))。值得注意的是,兩個 Mistral 模型是唯一(包括所有推理型模型在內(nèi))在 MMLU-Pro 上比在 MMLU 上更具可利用性的模型,這表明增加選項數(shù)量 k并替換為“更難”的干擾項,并不能普遍抑制“僅選項”利用。


(2)對于推理型模型,雖然 MMLU-Pro 通常比 MMLU 更難利用,但它們利用 MMLU-Pro 的能力仍強(qiáng)于非推理型模型利用原始 MMLU 的能力。綜合來看,這些結(jié)果表明:隨著模型推理能力的提升,它們更能有效挖掘選項集中的信息,并規(guī)避“困難”干擾項。

5 結(jié)論
盡管大語言模型(LLMs)在基準(zhǔn)測試中的表現(xiàn)達(dá)到了前所未有的高度,但其中部分提升源于它們對所提供選項的利用。我們的研究揭示了三條關(guān)于 LLM 評估設(shè)計與結(jié)果解讀的重要啟示:

(1)解耦至關(guān)重要。通過將思維鏈(CoT)與選項選擇分離——例如采用 Q-CoT-MC-1T,或在一定程度上使用 Q-CoT-MCNA-CoT——我們可以揭示模型潛在的推理能力,并區(qū)分基于第一性原理的推理與對測試結(jié)構(gòu)的利用。此外,推理能力與選項選擇的表現(xiàn)應(yīng)分別報告。

(2)鑒于 MCQA 很可能長期存在,應(yīng)以“選項無關(guān)的正確性”為目標(biāo)進(jìn)行設(shè)計:題干不應(yīng)引用選項內(nèi)容,并且要么明確定義一個標(biāo)準(zhǔn)的自由文本答案,要么通過事后映射(post-hoc mapping)進(jìn)行評分。

(3)僅依賴更難的干擾項作為抑制利用行為的對策是不夠的;盡管這類干擾項可能提高題目難度,但它們并不能可靠地減少對測試結(jié)構(gòu)的利用,必須謹(jǐn)慎使用。

歸根結(jié)底,我們所能觀察到的,僅限于我們所測量的內(nèi)容。若缺乏精心的設(shè)計,高測試分?jǐn)?shù)可能反映的是模型“鉆測試空子”的熟練程度,而非其真實能力。隨著 LLM 不斷進(jìn)步并被應(yīng)用于現(xiàn)實世界,確保我們所衡量的內(nèi)容與我們真正重視的能力保持一致,變得愈發(fā)重要。







原文鏈接:https://arxiv.org/pdf/2507.15337

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
一覺醒來,估計全國人民都知道了32歲的楊紫!

一覺醒來,估計全國人民都知道了32歲的楊紫!

動物奇奇怪怪
2025-10-31 02:51:26
原來升級矛盾就是解決的終極手段!網(wǎng)友分享絕了,以牙還牙最管用

原來升級矛盾就是解決的終極手段!網(wǎng)友分享絕了,以牙還牙最管用

夜深愛雜談
2025-11-05 07:56:38
蔡孝乾叛變吳石暴露,李克農(nóng)派出的潛臺小組,不辱使命絕境立功

蔡孝乾叛變吳石暴露,李克農(nóng)派出的潛臺小組,不辱使命絕境立功

黑句本
2025-11-03 10:45:13
雷軍演講,被罵上熱搜

雷軍演講,被罵上熱搜

梳子姐
2025-09-28 11:29:09
常揉此穴,一輩子遠(yuǎn)離心梗!沒事記得揉一揉

常揉此穴,一輩子遠(yuǎn)離心梗!沒事記得揉一揉

神奇故事
2025-11-04 22:03:24
慕了!清一色的ETF,女方的嫁妝清單...

慕了!清一色的ETF,女方的嫁妝清單...

金石隨筆
2025-11-05 00:09:15
中國共產(chǎn)黨中央軍事委員會副主席張升民簡歷

中國共產(chǎn)黨中央軍事委員會副主席張升民簡歷

上觀新聞
2025-10-23 18:17:07
壽命長不長,牙齒先知?60歲后,掉牙多的人活得久?告訴你答案

壽命長不長,牙齒先知?60歲后,掉牙多的人活得久?告訴你答案

涵豆說娛
2025-10-24 09:24:57
左小青很難再結(jié)婚了,不是因為她年紀(jì)大,也不是因為她還愛高權(quán)健

左小青很難再結(jié)婚了,不是因為她年紀(jì)大,也不是因為她還愛高權(quán)健

百態(tài)人間
2025-11-03 16:13:35
封殺4年后,49歲趙薇又有消息,因胃癌去世傳聞5個月前就真相大白

封殺4年后,49歲趙薇又有消息,因胃癌去世傳聞5個月前就真相大白

古木之草記
2025-11-05 19:54:34
拔出蘿卜帶出泥!釋永信被抓后,實名舉報的釋延魯也被抓到小辮

拔出蘿卜帶出泥!釋永信被抓后,實名舉報的釋延魯也被抓到小辮

冒泡泡的魚兒
2025-11-05 11:56:29
貴州茅臺:擬以15億至30億元回購股份并注銷

貴州茅臺:擬以15億至30億元回購股份并注銷

財聯(lián)社
2025-11-05 21:00:37
中山博愛路、北外環(huán)超速罰千元扣12分?車主直呼不敢踩油門!

中山博愛路、北外環(huán)超速罰千元扣12分?車主直呼不敢踩油門!

中山印象體育攝影師
2025-11-05 12:00:05
日本首任女首相居然沒有資格給日本相撲力士頒獎?

日本首任女首相居然沒有資格給日本相撲力士頒獎?

隨波蕩漾的漂流瓶
2025-11-04 16:55:03
澤塔·瓊斯的兩個孩子:女兒長得像父親,學(xué)霸兒子的五官很像她

澤塔·瓊斯的兩個孩子:女兒長得像父親,學(xué)霸兒子的五官很像她

小書生吃瓜
2025-10-04 19:04:08
45秒冷板凳焊死 楊瀚森發(fā)展聯(lián)盟零登場 我們高估他的“即戰(zhàn)力”了?

45秒冷板凳焊死 楊瀚森發(fā)展聯(lián)盟零登場 我們高估他的“即戰(zhàn)力”了?

生活新鮮市
2025-11-05 11:55:07
統(tǒng)一臺灣進(jìn)入快車道了

統(tǒng)一臺灣進(jìn)入快車道了

觀察者網(wǎng)
2025-11-05 11:10:17
日本沒想到,美國也沒想到,如今的中國陜西省,已成為全球焦點

日本沒想到,美國也沒想到,如今的中國陜西省,已成為全球焦點

林子說事
2025-11-05 14:11:54
你談過最拉胯的男朋友是啥樣?網(wǎng)友:對女人來說,錢才是最重要的

你談過最拉胯的男朋友是啥樣?網(wǎng)友:對女人來說,錢才是最重要的

帶你感受人間冷暖
2025-11-04 00:05:11
馮德萊恩終于等到?中美達(dá)成大交易,歐盟要求中方提供同等待遇

馮德萊恩終于等到?中美達(dá)成大交易,歐盟要求中方提供同等待遇

介知
2025-11-04 18:02:22
2025-11-05 22:55:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
953文章數(shù) 15關(guān)注度
往期回顧 全部

教育要聞

期中考前最后一兩周,語文考前沖刺六脈神劍,收好!

頭條要聞

考慮賣給沙特48架F-35戰(zhàn)機(jī) 美中東政策或出現(xiàn)重大轉(zhuǎn)變

頭條要聞

考慮賣給沙特48架F-35戰(zhàn)機(jī) 美中東政策或出現(xiàn)重大轉(zhuǎn)變

體育要聞

贏下皇馬,會是利物浦的轉(zhuǎn)折點嗎?

娛樂要聞

港星林尚武突發(fā)心臟病去世

財經(jīng)要聞

事關(guān)加快建設(shè)金融強(qiáng)國 中央金融辦發(fā)聲

科技要聞

大轉(zhuǎn)彎!特朗普再提名馬斯克盟友任NASA局長

汽車要聞

智己LS9入局"9系"混戰(zhàn) 全尺寸SUV市場迎來新變量

態(tài)度原創(chuàng)

教育
家居
數(shù)碼
親子
本地

教育要聞

爸爸的嫂子叫什么

家居要聞

別樣府院 暢享詩意生活

數(shù)碼要聞

華為充電寶零召回!李小龍爆料內(nèi)部標(biāo)準(zhǔn),這底氣太足了

親子要聞

溫暖守護(hù)小患者 上海這家醫(yī)院的眼科有個“兒童樂園”

本地新聞

這屆干飯人,已經(jīng)把博物館吃成了食堂

無障礙瀏覽 進(jìn)入關(guān)懷版 午夜免费国产体验区免费的| 足交国产一区| 奇米在线7777在线精品| 国产精品国产三级国产av主播| 成人妇女免费播放久久久,| 在线观看日本亚洲一区| 欧美日韩1AV| 国产在线观看黄| 成人午夜激情小视频| 久久视精品| 久久男人av资源站| 国产有粗有大有爽免费视频| 后入大屁股在线| 69精品丰满人妻无码视频a片| 最新av偷拍av偷窥av网站| 厨房大战少妇11P| 天堂中文字幕| xxx毛片网站在线观看免费| 看AV的网址| 国产97色在线 | 免费| 强开少妇嫩苞又嫩又紧九色| 日韩久久无码免费毛片软件| 亚洲十八禁| 欧美操逼小视频| 亚洲精品日韩中文字幕| 中文字幕一区二区三区视频播放| 免费看8MAv片成人| 两个老外一夜把我玩肿了| 99久久久国产精品免费四虎| 三年高清视频大全| 狠狠狠狠噜噜噜噜啦啦啦| 妓女草逼视频播放| 亚洲熟女舔AV| 国产偷亚洲偷欧美偷精品 | 午夜精品一区二区三区的区别| 国产精品麻豆成人av电影艾秋| 国产一区二区三区奇米久涩| 免费无码又爽又刺激网站| 天天综合网天天综合色| 欧美熟妇乱子伦XX视频| 国产精品视频一区二区三区|