網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

“為了全人類，提交你最難的問題”

2025-09-25 16:12:39　來源: 果殼

北京舉報(bào)

分享至

跑分都滿分則跑分無意義。

從AI剛剛面世，人們就執(zhí)著于用各種各樣的題庫(kù)來測(cè)試AI到底有多聰明，不管是ChatGPT、Gemini、Grok，還是DeepSeek、Kimi、文心一言，它們發(fā)布的同時(shí)，幾乎都會(huì)附上一個(gè)跑分成績(jī)。

而事到如今，市面上流行的題庫(kù)都快被AI做穿了，每一代新模型都要“霸榜碾壓”，“滿分橫掃”，在MMLU這樣的熱門基準(zhǔn)測(cè)試上，大部分模型的準(zhǔn)確率已經(jīng)超過 90%——換句話說，AI的聰明程度，人已經(jīng)快評(píng)估不出來了。

好懷念那些過去的好日子，AI只要顯得像個(gè)人就能通過測(cè)試（現(xiàn)在圖靈測(cè)試已經(jīng)好久沒人提了）｜x @PhysInHistory

“人工智能能力的評(píng)估基于基準(zhǔn)測(cè)試，然而基準(zhǔn)測(cè)試正在迅速飽和，失去了作為衡量工具的效用……”人類最后的考試網(wǎng)站首頁寫道，“在MMLU和GPQA這樣的測(cè)試中表現(xiàn)良好，已不再是取得進(jìn)步的有力信號(hào)，因?yàn)?strong>前沿模型在這些基準(zhǔn)測(cè)試中的表現(xiàn)已經(jīng)達(dá)到或超過了人類水平?！?/p>

在MMLU基準(zhǔn)測(cè)試上，前沿大模型的得分不相上下。吊詭的是，如果AI已經(jīng)比人類更聰明了，那我們是否有足夠的智慧去認(rèn)知這一點(diǎn)？｜bracai.eu

為了搞清楚高速進(jìn)化的AI到底發(fā)展到哪一步了，也為了給它們排個(gè)名次，拉開差距，我們需要上點(diǎn)更難的題了。

作為目前人類最高智慧和最先進(jìn)文明成果的代表，“人類最后的考試”（Humanity's Last Exam，以下簡(jiǎn)稱HLE）就在這個(gè)背景下誕生了。

人類智識(shí)最后的堡壘，文科也在里面

“人類最后的考試”是一個(gè)基準(zhǔn)測(cè)試，由Center for AI Safety和Scale AI聯(lián)合創(chuàng)建，它的測(cè)試內(nèi)容幾經(jīng)調(diào)整，最終在2025年3月4日確定為一套包含了2500個(gè)前沿學(xué)術(shù)難題的題庫(kù)。

這些題分布在100多個(gè)不同的學(xué)科領(lǐng)域，可以粗略分為以下幾大類：

數(shù)學(xué)（Mathematics）：大量高難度數(shù)學(xué)題，包括高等代數(shù)、拓?fù)?、范疇論、概率、圖論、數(shù)論等，強(qiáng)調(diào)推理深度。

自然科學(xué)（Natural Sciences）：物理、化學(xué)、生物、生態(tài)學(xué)、醫(yī)學(xué)等。

計(jì)算機(jī)科學(xué)與人工智能（Computer Science & AI）：算法、圖論、馬爾科夫鏈、程序推理等。

工程學(xué)（Engineering）：復(fù)雜系統(tǒng)和應(yīng)用性技術(shù)問題。

人文學(xué)科與社會(huì)科學(xué)（Humanities & Social Sciences）：語言學(xué)、歷史學(xué)、經(jīng)濟(jì)學(xué)、宗教研究、人類學(xué)、心理學(xué)、教育學(xué)、古典學(xué)、文化研究，應(yīng)有盡有。

其他：冷門知識(shí)或小眾學(xué)科（古文字、特定地方的風(fēng)俗考證之類）。

具體的題庫(kù)分布，其中數(shù)學(xué)題占了41%，人文領(lǐng)域題占了18%（可惡啊，輸?shù)袅耍麳LE

HLE最讓人印象深刻的是它的多模態(tài)，這些問題不只是基于文本，還包括圖表、古文字、圖像、公式，這意味著AI想要回答問題，就得先讀懂問題。

HLE的官網(wǎng)上公開了其中一部分問題。

比如下面這道古典學(xué)領(lǐng)域的題，要求AI把一段在墓碑上發(fā)現(xiàn)的羅馬銘文翻譯成帕米拉亞蘭語（還給了音譯，多貼心啊）。

問題由牛津大學(xué)墨頓學(xué)院博士Henry Tang提交｜HLE

還有這道考察AI對(duì)亂成一團(tuán)的古希臘男女關(guān)系的了解程度的民俗小知識(shí)題：在希臘神話中，伊阿宋的曾姥爺是誰？

由墨西哥國(guó)立理工學(xué)院醫(yī)學(xué)部的Darling D提交（我沒有找到這個(gè)人，不知道為什么醫(yī)學(xué)院的人會(huì)出這種題）｜HLE

這道讀起來像GRE考試題一樣，每個(gè)詞都似是而非，讀著后面忘著前面的生物題，大概是問蜂鳥的籽骨支撐著多少對(duì)肌腱，明確要求用數(shù)字來回答。

由麻省理工大學(xué)計(jì)算機(jī)系的博士Edward Vendrow提交，真是一位很博學(xué)又很會(huì)針對(duì)AI的學(xué)者，至于為什么這道題針對(duì)了AI我們等下講｜HLE

還有這道考察圖論+馬爾可夫鏈的題：

由倫敦瑪麗女王大學(xué)計(jì)算機(jī)系講師Dr. Marc Roth提交｜HLE

如果你還想做更多的題，或者對(duì)題庫(kù)好奇，再或者想憑一人之力和AI決一高下，可以上HLE官網(wǎng)查看題庫(kù)。

雖然這些問題已經(jīng)公開發(fā)布，供開發(fā)者測(cè)試大模型用，但是HLE稱，“為了應(yīng)對(duì)訓(xùn)練數(shù)據(jù)污染和基準(zhǔn)測(cè)試黑客攻擊問題”，他們也保留了一個(gè)private set，用于定期測(cè)量模型與公共數(shù)據(jù)集的過擬合情況，不對(duì)外公布，而這一部分才是真正用于AI模型排行榜和最終評(píng)分的核心數(shù)據(jù)。

題庫(kù)里的題主要有兩種形式，選擇題和簡(jiǎn)答題。

選擇題需要從五個(gè)以上的選項(xiàng)中進(jìn)行選擇（題庫(kù)中24%的題目是多選題），而簡(jiǎn)答題需要模型輸出和答案完全一致的字符串，不能語義模糊、不能不準(zhǔn)確。在題庫(kù)中，還有約14%的題目要求同時(shí)理解文字和圖像。

可以說是全選C戰(zhàn)術(shù)和誰字多誰得分戰(zhàn)術(shù)都沒用了。

“為了全人類，提交你最難的問題”

不得不說“人類最后的考試”這個(gè)名字起得真的很好，要不是這厲害中透著中二氣息的名字，我可能永遠(yuǎn)也不會(huì)好奇一個(gè)冷冰冰的大模型的基準(zhǔn)測(cè)試到底在考什么。

但HLE的發(fā)起人丹·亨德里克斯（Dan Hendrycks）一開始想的名字更厲害，叫“人類最后一戰(zhàn)”（Humanity’s Last Stand），后來大家都覺得這個(gè)名字過分抓馬，勸他放棄了。

丹·亨德里克斯，他還寫了一篇文章叫《災(zāi)難性人工智能風(fēng)險(xiǎn)概述》，也還蠻有意思｜The New York Times

丹·亨德里克斯也是一個(gè)神人。

25歲的時(shí)候，他聯(lián)合編寫了現(xiàn)在最熱門的AI大模型基準(zhǔn)測(cè)試MMLU，截至2024年7月，MMLU下載量已超過1億次。30歲的時(shí)候，他發(fā)現(xiàn)目前AI的能力已經(jīng)溢出了基準(zhǔn)測(cè)試，MMLU已經(jīng)不好使了，于是他決定做個(gè)新的測(cè)試（他還在一次采訪中表示，他做HLE是因?yàn)轳R斯克覺得現(xiàn)在的基準(zhǔn)測(cè)試都太簡(jiǎn)單了）。

目前，亨德里克斯在馬斯克的人工智能公司xAI擔(dān)任安全顧問，他同時(shí)也是Scale AI的顧問，為避免潛在的利益沖突，他每月只象征性地領(lǐng)一美元薪水，而且不持有任何公司股權(quán)。

再說回HLE。

HLE計(jì)劃發(fā)起初期，也就是2024年9月，亨德里克斯公開發(fā)布文章，號(hào)召全世界的學(xué)者“為人類最后的考試交出你最難的問題”（這個(gè)說法相當(dāng)有毒，因?yàn)槿思也⒉恢繦LE就是題庫(kù)的名字，只看題目仿佛事關(guān)人類存亡）。

“未來的人工智能系統(tǒng)最終將超越所有能夠創(chuàng)建的靜態(tài)基準(zhǔn)，因此突破基準(zhǔn)和評(píng)估的界限至關(guān)重要。為了追蹤人工智能系統(tǒng)距離專家級(jí)能力的差距，我們正在組建史上規(guī)模最大、范圍最廣的專家聯(lián)盟。”在文章中他寫道，“如果你覺得某個(gè)問題能被AI解答會(huì)讓你印象深刻，歡迎你提交?！?/p>

為了全人類，提交你最難的問題｜scale.com

交問題也不是白交的，亨德里克斯宣布，所出題目評(píng)分最高的研究者，可以瓜分50萬美元的獎(jiǎng)金——排名前50位的問題，每題可獲得5000美元獎(jiǎng)金，之后的500個(gè)問題，每題可獲得500美元獎(jiǎng)金。

關(guān)于問題本身，HLE則提出了更加嚴(yán)格的要求。

首先，問題的答案需要在網(wǎng)上搜不出來。其次，問題需要是原創(chuàng)的新問題，不能在以前的考試?yán)锍霈F(xiàn)過。再次，問題需要有明確的答案，而且答案應(yīng)被相關(guān)領(lǐng)域的其他專家廣泛接受，且不包含個(gè)人偏好、歧義或主觀性。最后，問題應(yīng)該有碩士級(jí)別以上難度，因?yàn)椤案鶕?jù)經(jīng)驗(yàn)，如果隨機(jī)選擇的本科生能夠理解題目?jī)?nèi)容，那么對(duì)大模型來說這個(gè)問題可能過于簡(jiǎn)單”。

每道題提交時(shí)都必須包含題目本身、題目答案（精確的回答，或者選擇題的正確選項(xiàng)）、詳細(xì)的解題推理、所屬學(xué)科，以及貢獻(xiàn)者的姓名和機(jī)構(gòu)信息。

對(duì)所有提交的問題，HLE會(huì)進(jìn)行兩步篩選：先把問題喂給最先進(jìn)的AI去解答，如果AI無法回答，或者在多選題里的得分比隨機(jī)猜的還差，那問題就會(huì)被交給人工審閱者，由他們審閱和驗(yàn)證答案。

在The New York Times的一次采訪中，加州大學(xué)伯克利分校理論粒子物理學(xué)博士后研究員Kevin Zhou表示，他提交了一些題目，其中三道題目被選中，而這些題目“都達(dá)到了研究生考試的上限”。

最終HLE收到了來自50多個(gè)國(guó)家、500多家研究機(jī)構(gòu)和企業(yè)的1000多位學(xué)者的回復(fù)，從中誕生了目前最難的AI基準(zhǔn)測(cè)試HLE。

對(duì)AI來說，HLE難在哪？

費(fèi)了這么大功夫，HLE真的難住AI了嗎？

單看結(jié)果而言，是難住了。

目前為止，主流前沿模型純文本模式下在HLE上的得分都還比較低，OpenAI最新的o3-mini（high）模型，準(zhǔn)確率只有13%，而前陣子震撼美國(guó)的DeepSeek-R1的準(zhǔn)確率也才9.4%。目前得分最高的是Grok4，正確率26.9%。

截止到今年一月論文發(fā)表時(shí)的數(shù)據(jù)，黑色柱形是HLE的準(zhǔn)確率｜HLE官網(wǎng)

這些題為什么這么難？

有一個(gè)原因是它們需要一定的推理深度，而且沒法在網(wǎng)上找到答案，還有一個(gè)原因是問題已經(jīng)經(jīng)過了篩選，留下的全部是現(xiàn)有的前沿模型表現(xiàn)差的問題。

還有一個(gè)原因是在問題上給AI挖了坑。

比如上文提過的蜂鳥籽骨問題，看似簡(jiǎn)單，但是有人測(cè)試了ChatGPT5和Gemini，它們都給出了一篇論文似的長(zhǎng)篇大論，而忽略了問題的最后一句話，“Answer with a number”，請(qǐng)直接用數(shù)字回答。

因此，所有不是“2”的答案都被算作是錯(cuò)的（盡管有些模型在長(zhǎng)篇大論之后給出了正確答案），這可能是一個(gè)產(chǎn)品設(shè)計(jì)問題，而不是AI表現(xiàn)問題。

Threads@raystormfang

另外，有些問題連人類自己都還沒達(dá)成一致呢。

最后的考試，可能也撐不了多久

最后的考試賞金很誘人，概念很科幻，目的很崇高，但是它帶來的爭(zhēng)議已經(jīng)開始浮現(xiàn)。

今年7月，專注人工智能應(yīng)用的非營(yíng)利組織FutureHouse發(fā)布了一篇調(diào)查報(bào)告，稱HLE里“化學(xué)生物領(lǐng)域的30%的答案可能是錯(cuò)的”。

他們組建了一個(gè)化學(xué)生物領(lǐng)域的專家評(píng)審團(tuán)，并且詳細(xì)研究了HLE題庫(kù)，最終得出結(jié)論，“29±3.7%（95%置信區(qū)間）的純文本化學(xué)和生物問題的答案與同行評(píng)審文獻(xiàn)中的證據(jù)直接沖突”。

比如這個(gè)問題：截至 2002 年，在地球物質(zhì)總量中所占比例最少的稀有氣體是哪一種（What was the rarest noble gas on Earth as a percentage of all terrestrial matter in 2002）？

你不知道，我不知道，AI也不知道，答案是Oganesson。

Oganesson，或者叫?，化學(xué)符號(hào)Og，原子序數(shù)118，是一種人工合成的放射性超重元素，位于元素周期表第七周期、稀有氣體族（0族）的末端。2002年，?在俄羅斯的一座核反應(yīng)堆中首次被合成并存在了幾毫秒，迄今為止，只有五個(gè)Oganesson原子被合成。而且它更可能是固體或液體，而不是氣體，還有一些學(xué)者認(rèn)為它不是惰性氣體，因?yàn)樗幕瘜W(xué)性質(zhì)并不穩(wěn)定。此外，還有多篇論文（包括2002年的論文）列出了地球上稀有氣體的比例，而?沒被算進(jìn)去——總而言之，?可能不是氣體，也可能不是惰性氣體，而且大多數(shù)同行評(píng)議的論文覺得它也不是地球物質(zhì)。

而AI答不答得出腦筋急轉(zhuǎn)彎問題又能證明什么？

還有另外一個(gè)迷思，對(duì)大多數(shù)前沿模型來說，HLE都太難了。大家得分都很低，和大家得分都很高的狀況是一樣的，還是沒拉開區(qū)分度，也沒想明白得分高的模型好在哪。而且HLE覆蓋的是學(xué)術(shù)考試可測(cè)內(nèi)容——它專注于已知的學(xué)術(shù)題目和閉合答案，對(duì)開放式創(chuàng)造力、生成類問題或非常新穎的研究課題的思考仍然難以評(píng)估。

雖然千辛萬苦花大價(jià)錢出了這么一套題，看來也要很快被打穿了。

HLE自己預(yù)測(cè)，雖然目前的AI在HLE上的準(zhǔn)確率非常低，但到2025年底，模型在HLE上的準(zhǔn)確率就有望超過50%。事實(shí)上，還沒到年底，Grok4在使用工具的情況下（比如代碼解釋器）正確率已經(jīng)升到了41.0%。

各個(gè)AI模型在2024年和2025年的HLE得分，按照這個(gè)進(jìn)步速度，HLE也很快被打穿了｜Reddit

亨德里克斯說，HLE或許是我們需要對(duì)模型進(jìn)行的最后一次學(xué)術(shù)考試，但它遠(yuǎn)非人工智能的最后一個(gè)基準(zhǔn)。等HLE又被超越，我們還有什么題出給AI呢？

作者：翻翻

編輯：odette

封面圖來源：Scale AI / CAIS

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.