跑分都滿分則跑分無意義。
從AI剛剛面世,人們就執(zhí)著于用各種各樣的題庫(kù)來測(cè)試AI到底有多聰明,不管是ChatGPT、Gemini、Grok,還是DeepSeek、Kimi、文心一言,它們發(fā)布的同時(shí),幾乎都會(huì)附上一個(gè)跑分成績(jī)。
而事到如今,市面上流行的題庫(kù)都快被AI做穿了,每一代新模型都要“霸榜碾壓”,“滿分橫掃”,在MMLU這樣的熱門基準(zhǔn)測(cè)試上,大部分模型的準(zhǔn)確率已經(jīng)超過 90%——換句話說,AI的聰明程度,人已經(jīng)快評(píng)估不出來了。
好懷念那些過去的好日子,AI只要顯得像個(gè)人就能通過測(cè)試(現(xiàn)在圖靈測(cè)試已經(jīng)好久沒人提了)|x @PhysInHistory
“人工智能能力的評(píng)估基于基準(zhǔn)測(cè)試,然而基準(zhǔn)測(cè)試正在迅速飽和,失去了作為衡量工具的效用……”人類最后的考試網(wǎng)站首頁寫道,“在MMLU和GPQA這樣的測(cè)試中表現(xiàn)良好,已不再是取得進(jìn)步的有力信號(hào),因?yàn)?strong>前沿模型在這些基準(zhǔn)測(cè)試中的表現(xiàn)已經(jīng)達(dá)到或超過了人類水平?!?/p>
在MMLU基準(zhǔn)測(cè)試上,前沿大模型的得分不相上下。吊詭的是,如果AI已經(jīng)比人類更聰明了,那我們是否有足夠的智慧去認(rèn)知這一點(diǎn)?|bracai.eu
為了搞清楚高速進(jìn)化的AI到底發(fā)展到哪一步了,也為了給它們排個(gè)名次,拉開差距,我們需要上點(diǎn)更難的題了。
作為目前人類最高智慧和最先進(jìn)文明成果的代表,“人類最后的考試”(Humanity's Last Exam,以下簡(jiǎn)稱HLE)就在這個(gè)背景下誕生了。
人類智識(shí)最后的堡壘,文科也在里面
“人類最后的考試”是一個(gè)基準(zhǔn)測(cè)試,由Center for AI Safety和Scale AI聯(lián)合創(chuàng)建,它的測(cè)試內(nèi)容幾經(jīng)調(diào)整,最終在2025年3月4日確定為一套包含了2500個(gè)前沿學(xué)術(shù)難題的題庫(kù)。
這些題分布在100多個(gè)不同的學(xué)科領(lǐng)域,可以粗略分為以下幾大類:
數(shù)學(xué)(Mathematics):大量高難度數(shù)學(xué)題,包括高等代數(shù)、拓?fù)?、范疇論、概率、圖論、數(shù)論等,強(qiáng)調(diào)推理深度。
自然科學(xué)(Natural Sciences):物理、化學(xué)、生物、生態(tài)學(xué)、醫(yī)學(xué)等。
計(jì)算機(jī)科學(xué)與人工智能(Computer Science & AI):算法、圖論、馬爾科夫鏈、程序推理等。
工程學(xué)(Engineering):復(fù)雜系統(tǒng)和應(yīng)用性技術(shù)問題。
人文學(xué)科與社會(huì)科學(xué)(Humanities & Social Sciences):語言學(xué)、歷史學(xué)、經(jīng)濟(jì)學(xué)、宗教研究、人類學(xué)、心理學(xué)、教育學(xué)、古典學(xué)、文化研究,應(yīng)有盡有。
其他:冷門知識(shí)或小眾學(xué)科(古文字、特定地方的風(fēng)俗考證之類)。
具體的題庫(kù)分布,其中數(shù)學(xué)題占了41%,人文領(lǐng)域題占了18%(可惡啊,輸?shù)袅耍麳LE
HLE最讓人印象深刻的是它的多模態(tài),這些問題不只是基于文本,還包括圖表、古文字、圖像、公式,這意味著AI想要回答問題,就得先讀懂問題。
HLE的官網(wǎng)上公開了其中一部分問題。
比如下面這道古典學(xué)領(lǐng)域的題,要求AI把一段在墓碑上發(fā)現(xiàn)的羅馬銘文翻譯成帕米拉亞蘭語(還給了音譯,多貼心啊)。
問題由牛津大學(xué)墨頓學(xué)院博士Henry Tang提交|HLE
還有這道考察AI對(duì)亂成一團(tuán)的古希臘男女關(guān)系的了解程度的民俗小知識(shí)題:在希臘神話中,伊阿宋的曾姥爺是誰?
由墨西哥國(guó)立理工學(xué)院醫(yī)學(xué)部的Darling D提交(我沒有找到這個(gè)人,不知道為什么醫(yī)學(xué)院的人會(huì)出這種題)|HLE
這道讀起來像GRE考試題一樣,每個(gè)詞都似是而非,讀著后面忘著前面的生物題,大概是問蜂鳥的籽骨支撐著多少對(duì)肌腱,明確要求用數(shù)字來回答。
由麻省理工大學(xué)計(jì)算機(jī)系的博士Edward Vendrow提交,真是一位很博學(xué)又很會(huì)針對(duì)AI的學(xué)者,至于為什么這道題針對(duì)了AI我們等下講|HLE
還有這道考察圖論+馬爾可夫鏈的題:
由倫敦瑪麗女王大學(xué)計(jì)算機(jī)系講師Dr. Marc Roth提交|HLE
如果你還想做更多的題,或者對(duì)題庫(kù)好奇,再或者想憑一人之力和AI決一高下,可以上HLE官網(wǎng)查看題庫(kù)。
雖然這些問題已經(jīng)公開發(fā)布,供開發(fā)者測(cè)試大模型用,但是HLE稱,“為了應(yīng)對(duì)訓(xùn)練數(shù)據(jù)污染和基準(zhǔn)測(cè)試黑客攻擊問題”,他們也保留了一個(gè)private set,用于定期測(cè)量模型與公共數(shù)據(jù)集的過擬合情況,不對(duì)外公布,而這一部分才是真正用于AI模型排行榜和最終評(píng)分的核心數(shù)據(jù)。
題庫(kù)里的題主要有兩種形式,選擇題和簡(jiǎn)答題。
選擇題需要從五個(gè)以上的選項(xiàng)中進(jìn)行選擇(題庫(kù)中24%的題目是多選題),而簡(jiǎn)答題需要模型輸出和答案完全一致的字符串,不能語義模糊、不能不準(zhǔn)確。在題庫(kù)中,還有約14%的題目要求同時(shí)理解文字和圖像。
可以說是全選C戰(zhàn)術(shù)和誰字多誰得分戰(zhàn)術(shù)都沒用了。
“為了全人類,提交你最難的問題”
不得不說“人類最后的考試”這個(gè)名字起得真的很好,要不是這厲害中透著中二氣息的名字,我可能永遠(yuǎn)也不會(huì)好奇一個(gè)冷冰冰的大模型的基準(zhǔn)測(cè)試到底在考什么。
但HLE的發(fā)起人丹·亨德里克斯(Dan Hendrycks)一開始想的名字更厲害,叫“人類最后一戰(zhàn)”(Humanity’s Last Stand),后來大家都覺得這個(gè)名字過分抓馬,勸他放棄了。
丹·亨德里克斯,他還寫了一篇文章叫《災(zāi)難性人工智能風(fēng)險(xiǎn)概述》,也還蠻有意思|The New York Times
丹·亨德里克斯也是一個(gè)神人。
25歲的時(shí)候,他聯(lián)合編寫了現(xiàn)在最熱門的AI大模型基準(zhǔn)測(cè)試MMLU,截至2024年7月,MMLU下載量已超過1億次。30歲的時(shí)候,他發(fā)現(xiàn)目前AI的能力已經(jīng)溢出了基準(zhǔn)測(cè)試,MMLU已經(jīng)不好使了,于是他決定做個(gè)新的測(cè)試(他還在一次采訪中表示,他做HLE是因?yàn)轳R斯克覺得現(xiàn)在的基準(zhǔn)測(cè)試都太簡(jiǎn)單了)。
目前,亨德里克斯在馬斯克的人工智能公司xAI擔(dān)任安全顧問,他同時(shí)也是Scale AI的顧問,為避免潛在的利益沖突,他每月只象征性地領(lǐng)一美元薪水,而且不持有任何公司股權(quán)。
再說回HLE。
HLE計(jì)劃發(fā)起初期,也就是2024年9月,亨德里克斯公開發(fā)布文章,號(hào)召全世界的學(xué)者“為人類最后的考試交出你最難的問題”(這個(gè)說法相當(dāng)有毒,因?yàn)槿思也⒉恢繦LE就是題庫(kù)的名字,只看題目仿佛事關(guān)人類存亡)。
“未來的人工智能系統(tǒng)最終將超越所有能夠創(chuàng)建的靜態(tài)基準(zhǔn),因此突破基準(zhǔn)和評(píng)估的界限至關(guān)重要。為了追蹤人工智能系統(tǒng)距離專家級(jí)能力的差距,我們正在組建史上規(guī)模最大、范圍最廣的專家聯(lián)盟。”在文章中他寫道,“如果你覺得某個(gè)問題能被AI解答會(huì)讓你印象深刻,歡迎你提交?!?/p>
為了全人類,提交你最難的問題|scale.com
交問題也不是白交的,亨德里克斯宣布,所出題目評(píng)分最高的研究者,可以瓜分50萬美元的獎(jiǎng)金——排名前50位的問題,每題可獲得5000美元獎(jiǎng)金,之后的500個(gè)問題,每題可獲得500美元獎(jiǎng)金。
關(guān)于問題本身,HLE則提出了更加嚴(yán)格的要求。
首先,問題的答案需要在網(wǎng)上搜不出來。其次,問題需要是原創(chuàng)的新問題,不能在以前的考試?yán)锍霈F(xiàn)過。再次,問題需要有明確的答案,而且答案應(yīng)被相關(guān)領(lǐng)域的其他專家廣泛接受,且不包含個(gè)人偏好、歧義或主觀性。最后,問題應(yīng)該有碩士級(jí)別以上難度,因?yàn)椤案鶕?jù)經(jīng)驗(yàn),如果隨機(jī)選擇的本科生能夠理解題目?jī)?nèi)容,那么對(duì)大模型來說這個(gè)問題可能過于簡(jiǎn)單”。
每道題提交時(shí)都必須包含題目本身、題目答案(精確的回答,或者選擇題的正確選項(xiàng))、詳細(xì)的解題推理、所屬學(xué)科,以及貢獻(xiàn)者的姓名和機(jī)構(gòu)信息。
對(duì)所有提交的問題,HLE會(huì)進(jìn)行兩步篩選:先把問題喂給最先進(jìn)的AI去解答,如果AI無法回答,或者在多選題里的得分比隨機(jī)猜的還差,那問題就會(huì)被交給人工審閱者,由他們審閱和驗(yàn)證答案。
在The New York Times的一次采訪中,加州大學(xué)伯克利分校理論粒子物理學(xué)博士后研究員Kevin Zhou表示,他提交了一些題目,其中三道題目被選中,而這些題目“都達(dá)到了研究生考試的上限”。
最終HLE收到了來自50多個(gè)國(guó)家、500多家研究機(jī)構(gòu)和企業(yè)的1000多位學(xué)者的回復(fù),從中誕生了目前最難的AI基準(zhǔn)測(cè)試HLE。
對(duì)AI來說,HLE難在哪?
費(fèi)了這么大功夫,HLE真的難住AI了嗎?
單看結(jié)果而言,是難住了。
目前為止,主流前沿模型純文本模式下在HLE上的得分都還比較低,OpenAI最新的o3-mini(high)模型,準(zhǔn)確率只有13%,而前陣子震撼美國(guó)的DeepSeek-R1的準(zhǔn)確率也才9.4%。目前得分最高的是Grok4,正確率26.9%。
截止到今年一月論文發(fā)表時(shí)的數(shù)據(jù),黑色柱形是HLE的準(zhǔn)確率|HLE官網(wǎng)
這些題為什么這么難?
有一個(gè)原因是它們需要一定的推理深度,而且沒法在網(wǎng)上找到答案,還有一個(gè)原因是問題已經(jīng)經(jīng)過了篩選,留下的全部是現(xiàn)有的前沿模型表現(xiàn)差的問題。
還有一個(gè)原因是在問題上給AI挖了坑。
比如上文提過的蜂鳥籽骨問題,看似簡(jiǎn)單,但是有人測(cè)試了ChatGPT5和Gemini,它們都給出了一篇論文似的長(zhǎng)篇大論,而忽略了問題的最后一句話,“Answer with a number”,請(qǐng)直接用數(shù)字回答。
因此,所有不是“2”的答案都被算作是錯(cuò)的(盡管有些模型在長(zhǎng)篇大論之后給出了正確答案),這可能是一個(gè)產(chǎn)品設(shè)計(jì)問題,而不是AI表現(xiàn)問題。
Threads@raystormfang
另外,有些問題連人類自己都還沒達(dá)成一致呢。
最后的考試,可能也撐不了多久
最后的考試賞金很誘人,概念很科幻,目的很崇高,但是它帶來的爭(zhēng)議已經(jīng)開始浮現(xiàn)。
今年7月,專注人工智能應(yīng)用的非營(yíng)利組織FutureHouse發(fā)布了一篇調(diào)查報(bào)告,稱HLE里“化學(xué)生物領(lǐng)域的30%的答案可能是錯(cuò)的”。
他們組建了一個(gè)化學(xué)生物領(lǐng)域的專家評(píng)審團(tuán),并且詳細(xì)研究了HLE題庫(kù),最終得出結(jié)論,“29±3.7%(95%置信區(qū)間)的純文本化學(xué)和生物問題的答案與同行評(píng)審文獻(xiàn)中的證據(jù)直接沖突”。
比如這個(gè)問題:截至 2002 年,在地球物質(zhì)總量中所占比例最少的稀有氣體是哪一種(What was the rarest noble gas on Earth as a percentage of all terrestrial matter in 2002)?
你不知道,我不知道,AI也不知道,答案是Oganesson。
Oganesson,或者叫?,化學(xué)符號(hào)Og,原子序數(shù)118,是一種人工合成的放射性超重元素,位于元素周期表第七周期、稀有氣體族(0族)的末端。2002年,?在俄羅斯的一座核反應(yīng)堆中首次被合成并存在了幾毫秒,迄今為止,只有五個(gè)Oganesson原子被合成。而且它更可能是固體或液體,而不是氣體,還有一些學(xué)者認(rèn)為它不是惰性氣體,因?yàn)樗幕瘜W(xué)性質(zhì)并不穩(wěn)定。此外,還有多篇論文(包括2002年的論文)列出了地球上稀有氣體的比例,而?沒被算進(jìn)去——總而言之,?可能不是氣體,也可能不是惰性氣體,而且大多數(shù)同行評(píng)議的論文覺得它也不是地球物質(zhì)。
而AI答不答得出腦筋急轉(zhuǎn)彎問題又能證明什么?
還有另外一個(gè)迷思,對(duì)大多數(shù)前沿模型來說,HLE都太難了。大家得分都很低,和大家得分都很高的狀況是一樣的,還是沒拉開區(qū)分度,也沒想明白得分高的模型好在哪。而且HLE覆蓋的是學(xué)術(shù)考試可測(cè)內(nèi)容——它專注于已知的學(xué)術(shù)題目和閉合答案,對(duì)開放式創(chuàng)造力、生成類問題或非常新穎的研究課題的思考仍然難以評(píng)估。
雖然千辛萬苦花大價(jià)錢出了這么一套題,看來也要很快被打穿了。
HLE自己預(yù)測(cè),雖然目前的AI在HLE上的準(zhǔn)確率非常低,但到2025年底,模型在HLE上的準(zhǔn)確率就有望超過50%。事實(shí)上,還沒到年底,Grok4在使用工具的情況下(比如代碼解釋器)正確率已經(jīng)升到了41.0%。
各個(gè)AI模型在2024年和2025年的HLE得分,按照這個(gè)進(jìn)步速度,HLE也很快被打穿了|Reddit
亨德里克斯說,HLE或許是我們需要對(duì)模型進(jìn)行的最后一次學(xué)術(shù)考試,但它遠(yuǎn)非人工智能的最后一個(gè)基準(zhǔn)。等HLE又被超越,我們還有什么題出給AI呢?
作者:翻翻
編輯:odette
封面圖來源:Scale AI / CAIS
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.