夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型碰到真難題了,測了500道,o3 Pro僅通過15%

0
分享至




機器之心報道

機器之心編輯部

基準測試是檢驗大模型能力的一種方式,一般而言,一個有用的基準既要足夠難,又要貼近現(xiàn)實:問題既能挑戰(zhàn)前沿模型,又要反映真實世界的使用場景。

然而,現(xiàn)有測試面臨著「難度–真實性」的矛盾:側(cè)重于考試的基準往往被人為設(shè)置得很難,但實際價值有限;而基于真實用戶交互的基準又往往偏向于簡單的高頻問題。

在此背景下,來自斯坦福大學(xué)、華盛頓大學(xué)等機構(gòu)的研究者探索了一種截然不同的方式:在未解決的問題上評估模型的能力。

與一次性打分的靜態(tài)基準不同,該研究不斷收集未解決的問題,然后通過驗證器輔助篩選與社區(qū)驗證機制,實現(xiàn)對模型的持續(xù)異步評估。

具體而言,本文提出了 UQ(Unsolved Questions),這是一個由 500 道題組成的測試集,涵蓋計算機理論、數(shù)學(xué)、科幻、歷史等主題,用于考察模型在推理、事實準確性以及瀏覽等方面的能力。UQ 在設(shè)計上兼具難度大與貼近真實兩大特點:這些問題大多是人類遇到但尚未解決的難題,因此攻克它們可直接產(chǎn)生現(xiàn)實價值。



  • 論文標題:UQ: Assessing Language Models on Unsolved Questions
  • 論文地址:https://arxiv.org/pdf/2508.17580v1
  • 項目地址:https://uq.stanford.edu/

總結(jié)而言,本文貢獻如下:

  • 提出了 UQ 數(shù)據(jù)集及其收集流程:結(jié)合規(guī)則過濾器、大語言模型評審以及人工審核,以確保最終問題的質(zhì)量;
  • UQ-Validators:復(fù)合驗證策略,利用生成器–驗證器之間的能力差距來構(gòu)建無真值驗證系統(tǒng)(一般而言模型驗證能力優(yōu)于生成能力),并對候選答案進行預(yù)篩選,以便后續(xù)人工審核;
  • UQ-Platform:一個開放平臺,讓專家能夠共同驗證問題與答案,從而實現(xiàn)持續(xù)的、異步的、社區(qū)驅(qū)動的評估。

實驗中,表現(xiàn)最好的模型僅在 15% 的問題上通過了 UQ 驗證,而初步人工核查已經(jīng)在這些通過驗證的答案中識別出一些正確解答。



數(shù)據(jù)集介紹

UQ 數(shù)據(jù)集由 500 道具有挑戰(zhàn)性的未解決問題組成,問題來源問答社區(qū) Stack Exchange,并且是經(jīng)過三輪篩選得到的。



在篩選流程上,本文首先人工選擇了 80 個 Stack Exchange 社區(qū)(例如 Math Overflow、Physics),并抓取其中未解答的問題,得到大約 300 萬個原始候選問題。

隨后,進入多階段篩選流程。篩選的每一階段都會逐步縮小問題池:基于規(guī)則的篩選將問題縮減至 33,916 個(占原始問題池的 1.13%);基于大語言模型的篩選進一步縮減至 7,685 個(占原始的 0.26%);最終通過人工審核(如剔除殘留的重復(fù)、過于簡單、偏題或違反規(guī)則的問題),得到一個精心整理的 500 道題集(占原始的 0.02%)。

隨著問題在篩選流程中逐步推進,它們的難度和質(zhì)量也在逐漸提升。尤其是基于大語言模型的篩選,顯著提高了問題的難度。



數(shù)據(jù)集組成如下所示,主要包含科學(xué)類問題,其次是技術(shù)類與生活藝術(shù)類。本文還發(fā)現(xiàn)不同領(lǐng)域的問題能探測模型的不同能力:例如數(shù)學(xué)問題通常需要開放式證明,而科幻奇幻類問題則偏重瀏覽檢索能力(如根據(jù)片段情節(jié)識別書籍名稱)。

一旦某個問題被判定為已解決,研究者就會在后續(xù)版本中將該問題移除,并用新的未解決問題替換。



UQ 驗證器

雖然 UQ 數(shù)據(jù)集非常具有價值,但要將其用作模型性能的基準,仍需配套的評分指標。然而,由于缺乏標準答案,無法像考試基準那樣進行自動驗證。

因此,本文轉(zhuǎn)向無監(jiān)督驗證器,即無需標準答案。由于未解問題往往極具挑戰(zhàn)性,這些驗證器的主要目標并非證明某個候選答案正確,而是排除錯誤的候選答案;因此,本文刻意使用 validator(驗證器)一詞,而非 judge 或 verifier。

需要特別指出的是,由于缺少標準答案,這類驗證器本身可能經(jīng)常出錯,但它們?nèi)阅茉诤罄m(xù)人工審核中發(fā)揮輔助作用。

據(jù)了解,本文之所以開發(fā)無需標準答案的驗證器,核心動機在于這樣一個假設(shè):對難題候選答案進行驗證可能比生成這些答案更容易。實驗中采用了這樣的流程,讓一系列能力遞增的模型(例如 o3-mini → o4-mini → o3)回答這 500 道題,記錄它們的答題準確率;接著,讓每個模型在不接觸標準答案的情況下,驗證其他所有模型給出的答案;最后,用真實答案對這些驗證結(jié)論進行打分,計算驗證準確率。

圖 5 左顯示:隨著模型能力的提升,它們在驗證準確率上的進步速度明顯快于答題準確率。



實驗中使用的驗證器 pipeline:



實驗及結(jié)果

實驗評估了 5 個模型,包括 o3、o4-mini、o3-mini、Gemini 2.5 Pro 和 Claude 3.7 Sonnet。

表 1 結(jié)果顯示,與原始基線相比,驗證策略能夠?qū)嵸|(zhì)性地提高驗證的準確率和精度。例如,對 Claude 3.7 Sonnet 而言,準確率從 21.6% 提升到 73.2%,精度從 13.26% 提升到 20%,但往往是以召回率下降為代價。



為了確認最終得到的最佳 UQ 驗證器對人類評審者有幫助,該研究邀請若干評審員對 25 個驗證問題進行評分,判斷其給出的判斷理由鏈是否在邏輯上成立。表 2 顯示,人類評審與驗證器的一致率及理由鏈的準確性都很高,表明該驗證器能為人類評審者提供有效支持。



將大語言模型用于答案驗證時,另一個挑戰(zhàn)是它們常常表現(xiàn)出明顯的評估偏見。當研究者把前沿模型直接應(yīng)用于本場景時,發(fā)現(xiàn)所有模型在評估自身或同系模型(即同一開發(fā)者的模型)時,都出現(xiàn)了過度樂觀現(xiàn)象:預(yù)測出的模型性能遠高于實際性能,如圖 7 所示。

  • Gemini 明顯偏向自身,相對于其他模型給出顯著更高的評分;
  • Claude 對所有答案模型(不僅僅是自身)都表現(xiàn)出過度樂觀;
  • OpenAI 的 o 系列模型則對其他 o 系列同門模型給出過高評價。

隨著模型能力遞增(o3-mini → o3),這種偏見雖有所降低,但并未徹底消除。

本文進一步發(fā)現(xiàn),采用復(fù)合驗證器能夠顯著削弱答案驗證中的自我偏見與過度樂觀。



最后,本文還發(fā)現(xiàn),一個更強的答案生成模型并不一定就是更強的答案驗證模型。

本文通過基線提示法和 3 輪迭代驗證流程繪制了模型在 500 個 HLE 問題上的驗證準確率與答案準確率關(guān)系圖。雖然更好的答案性能通常預(yù)示著更好的驗證性能(整體呈上升趨勢),但并非絕對。

例如:在沒有流程驗證時,o3 作為答案模型弱于 Gemini 2.5 Pro,但作為驗證模型卻更強;采用流程驗證后,o3-mini 與 Claude 3.7 Sonnet 之間觀察到同樣的逆轉(zhuǎn)趨勢。此外,盡管 Claude 3.7 Sonnet 在答案準確率上顯著落后于 Gemini 2.5 Pro,但其基于流程驗證的表現(xiàn)卻超越了 Gemini 2.5 Pro 的基線驗證性能。



了解更多內(nèi)容,請參考原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
新藥實驗操作中兩員工窒息死亡,調(diào)查報告公布!知名上市公司總裁被建議處罰,其年薪超190萬元,公司曾因兩女員工實驗室互毆刷屏

新藥實驗操作中兩員工窒息死亡,調(diào)查報告公布!知名上市公司總裁被建議處罰,其年薪超190萬元,公司曾因兩女員工實驗室互毆刷屏

每日經(jīng)濟新聞
2025-09-21 10:58:43
干得漂亮!網(wǎng)傳南京理工一男生走錯女浴室被女生掛網(wǎng)上,結(jié)局亮了

干得漂亮!網(wǎng)傳南京理工一男生走錯女浴室被女生掛網(wǎng)上,結(jié)局亮了

火山詩話
2025-09-21 06:15:18
邁阿密國際3-2華盛頓特區(qū)聯(lián),梅西雙響+助攻,西爾維蒂失點

邁阿密國際3-2華盛頓特區(qū)聯(lián),梅西雙響+助攻,西爾維蒂失點

懂球帝
2025-09-21 09:57:28
白宮:H-1B簽證手續(xù)費10萬美元!一次性繳納,只適用于新申請者!

白宮:H-1B簽證手續(xù)費10萬美元!一次性繳納,只適用于新申請者!

AI商業(yè)論
2025-09-21 08:21:17
479元一根的蘋果17掛繩真有人買:王自如曬上身效果 感受下

479元一根的蘋果17掛繩真有人買:王自如曬上身效果 感受下

安兔兔
2025-09-20 22:08:08
上海炒股大賽冠軍肺腑之言:洗盤如果散戶洗不掉,莊家會怎么辦?

上海炒股大賽冠軍肺腑之言:洗盤如果散戶洗不掉,莊家會怎么辦?

股經(jīng)縱橫談
2025-09-20 17:34:28
36歲廣東男按摩師,從業(yè)幾十年,來按摩的女客人從來不單是為按摩

36歲廣東男按摩師,從業(yè)幾十年,來按摩的女客人從來不單是為按摩

云端小院
2025-09-21 07:43:37
看懂了敘利亞變天,也就懂了波蘭為何阻斷中歐班列,無非兩點原因

看懂了敘利亞變天,也就懂了波蘭為何阻斷中歐班列,無非兩點原因

時時有聊
2025-09-20 19:48:05
“風王”剛剛誕生,臺風今起影響廈門!大風!大雨!中雨!

“風王”剛剛誕生,臺風今起影響廈門!大風!大雨!中雨!

魯中晨報
2025-09-21 11:01:12
全智賢被抵制后續(xù):廣告撤回、代言下架,如今連迪士尼也被扯進去

全智賢被抵制后續(xù):廣告撤回、代言下架,如今連迪士尼也被扯進去

甜檸聊史
2025-09-20 23:25:09
爺青回 50歲小李子近照曝光,顏值回春瘦成閃電,這是受啥刺激了

爺青回 50歲小李子近照曝光,顏值回春瘦成閃電,這是受啥刺激了

洲洲影視娛評
2025-09-20 22:56:45
C919連續(xù)曝出零訂單新聞,網(wǎng)友們分析出背后原因了

C919連續(xù)曝出零訂單新聞,網(wǎng)友們分析出背后原因了

清暉有墨
2025-09-20 11:45:43
從福建跨省履新的他,有新職(附簡歷)

從福建跨省履新的他,有新職(附簡歷)

魯中晨報
2025-09-21 11:29:04
米格-31竄犯愛沙尼亞,進入F-35射程才離開!當年僅17秒就被擊落

米格-31竄犯愛沙尼亞,進入F-35射程才離開!當年僅17秒就被擊落

鷹眼Defence
2025-09-20 16:58:14
對手球迷高喊梅西!C羅雙響打臉,指著耳朵微笑:大聲點我聽不見

對手球迷高喊梅西!C羅雙響打臉,指著耳朵微笑:大聲點我聽不見

念洲
2025-09-21 07:47:52
5-1!40歲C羅雙響+生涯第945球,獲8.7分,率隊3戰(zhàn)全勝領(lǐng)跑沙特聯(lián)

5-1!40歲C羅雙響+生涯第945球,獲8.7分,率隊3戰(zhàn)全勝領(lǐng)跑沙特聯(lián)

我愛英超
2025-09-21 04:20:42
賺錢的公司都不要了,江蘇女老板套現(xiàn)3.3億,果斷離場

賺錢的公司都不要了,江蘇女老板套現(xiàn)3.3億,果斷離場

今日美食分享
2025-09-20 17:20:18
這才是大殺器!以色列“鐵束”激光系統(tǒng),兩美元摧毀百萬美元導(dǎo)彈

這才是大殺器!以色列“鐵束”激光系統(tǒng),兩美元摧毀百萬美元導(dǎo)彈

史政先鋒
2025-09-19 21:50:24
朱時茂沒想到,《731》上映僅1天,陳佩斯因一特殊舉動口碑暴漲

朱時茂沒想到,《731》上映僅1天,陳佩斯因一特殊舉動口碑暴漲

小丸子的娛樂圈
2025-09-19 13:32:48
剛剛,日本氫電池重大突破!氫動力氫能源時代或?qū)⒌絹恚?>
    </a>
        <h3>
      <a href=徐德文科學(xué)頻道
2025-09-20 21:23:36
2025-09-21 13:31:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11323文章數(shù) 142453關(guān)注度
往期回顧 全部

科技要聞

蔚來全新ES8正式上市:售價40.68萬元起

頭條要聞

11國將承認巴勒斯坦國之際 美國追加60億美元對以軍售

頭條要聞

11國將承認巴勒斯坦國之際 美國追加60億美元對以軍售

體育要聞

利物浦1.36億新援尷尬?0射1黃+7場仍0球

娛樂要聞

干啥都拿獎!85號賽車手王一博拿下季軍

財經(jīng)要聞

OpenAI想殺入蘋果“腹地”

汽車要聞

全系華為+寧德時代 阿維塔07 26款售21.99萬元起

態(tài)度原創(chuàng)

藝術(shù)
時尚
房產(chǎn)
教育
手機

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

今年秋天最流行的4件衛(wèi)衣,減齡又時髦!

房產(chǎn)要聞

全民撐廣州,不止于賽場!與“有態(tài)度”者共筑城市驕傲

教育要聞

山東高考政策大洗牌!2026夏季高考政策全解!

手機要聞

5-6K華為稱王,蘋果第二,小米第三

無障礙瀏覽 進入關(guān)懷版 亚洲98久久久久久久| 久久精品久久久久久久精品| 日韩精品亚洲一区在线综合| 国产精品VA最新| 欧美不卡视频一区发布| 人妻无码中文专区久久app| 亚洲国产熟女| 欧美黑人又粗又大久久久 | 2020无码专区| 亚洲 另类 熟女 字幕| 亚洲无码人妻一区二区| 羞羞视频在线观看| 超碰成人人人做人人爽| 99无码人妻| 超碰在线95| 肏老熟妇高潮喷水专区| 推油少妇久久99久久99久久| 一本精品99久久精品77| 少妇第二区456| 日韩精品一区二区三区四| 镇江少妇偷人精品视频| 乱伦国产一区二区三区| 卡一卡2卡3卡精品网站| 国产成人精品无人一区二区三区| 伊人色综合久久天天五月婷| 久久香蕉综合| 国产香蕉97碰碰久久人人| 丁香五月婷婷久久| 国产精品麻豆中文字幕| 久久国产亚洲AV无码四区色欲| 一区在线观看一区| 免费国产一级特黄aa大片在线| 色欲AV天天天久久久综合网| 久久水蜜臀亚洲AV无码精品| 沈阳45女人高潮越来越大| 西西成人无码| 欧美吃奶呻吟60分钟免费看| 欧美黑人又粗又大xxxx| 爱情岛论坛网址永久首页| 国产精品视频一区二区三区不卡| 色综合久久蜜芽国产精品|