新智元報道
編輯:KingHZ 桃子
【新智元導讀】國際奧賽又一塊金牌,被AI奪下了!在國際天文與天體物理奧賽(IOAA)中,GPT-5和Gemini 2.5 Pro完勝人類選手,在理論和數(shù)據(jù)分析測試中,拿下了最高分。
IMO、IOI之后,AI再奪奧賽冠軍。
剛剛,在國際天文與天體物理奧林匹克競賽測試中,GPT-5和Gemini 2.5 Pro達到金牌水平!
在理論考試上,Gemini 2.5 Pro總體得分85.6%,GPT-5總體得分84.2%;
在數(shù)據(jù)分析考試中:GPT-5總體得分88.5%,Gemini 2.5 Pro總體得分75.7%。
在IOAA 2025上,AI的表現(xiàn)驚人,其水平竟高達人類金牌得主的2.7倍!
我們正在見證AI大爆炸——今日之奧賽,明日之科學,AI將推動全部學科的進展。
AI再奪IOAA金牌,見證歷史!
國際天文與天體物理奧林匹克競賽(International Olympiad on Astronomy and Astrophysics,IOAA),由國際天文學聯(lián)合會主辦的全球性青少年天文賽事,是國際科學奧林匹克競賽之一、全球天文科學領域最具有影響力的賽事之一。
競賽包含理論測試、實測數(shù)據(jù)分析、天文觀測三大核心環(huán)節(jié),并設置團隊協(xié)作項目以增強國際互動。
這些競賽試題極為嚴苛,通常只有全球最頂尖的學生才能解答。
它們需要深厚的概念理解能力、冗長的公式推導,以及需耗時數(shù)小時才能完成的天體物理學難題。
如今人工智能不僅能夠通過考試,更在全球200至300名人類參賽者中躋身前兩名。GPT-5平均得分85.6%,Gemini 2.5 Pro獲得84.2%——兩者均達到金牌標準。
我們已正式進入AI能與物理學和天文學領域最聰穎的年輕頭腦抗衡的時代。
這并非瑣碎知識的比拼,而是關(guān)于中子星、吸積流、磁場和軌道力學的尖端推理。
人工智能不再只是生成文字,它開始思考宇宙的奧秘。
但報告指出,在空間和時間推理方面,目前所有LLM都存在困難。
因此,ASI之路還很長,仍需上下求索。
五大LLM打擂臺,幾乎全線摘金
最新研究由俄亥俄州立大學團隊完成,重點考察了五大頂尖LLM,在天文和物理學方面的實力。
論文地址:https://arxiv.org/pdf/2510.05016
為此,他們選取了最近四屆IOAA理論考試(2022-2025)。之所以選擇IOAA來衡量,原因有三:
現(xiàn)有的基準,如AstroMLab、AstroBench等僅通過選擇、簡答和判斷題來考察LLM的天文學知識;
IOAA題目具備全面性,涵蓋了宇宙學、球面三角學、恒星天體物理學、天體力學、光度學和儀器學等廣泛的主題;
IOAA將理論物理、觀測約束和真實天文數(shù)據(jù)與數(shù)學計算融為一體,為評估LLM的科學問題解決能力提供了一個獨特的視角
除了以上提到的Gemini 2.5 Pro和GPT-5,團隊還讓o3、Claude-4.1-Opus、Claude-4-Sonnet等三款模型共同參戰(zhàn)。
它們均是在AstroBench表現(xiàn)最強模型之一,而且還具備了多模態(tài)能力。
所有模型的輸出,由兩名IOAA專家遵循官方評分細則進行獨立評分。
實驗結(jié)果:理論考試
在理論考試中,GPT-5和Gemini 2.5 Pro表現(xiàn)最佳,比分高出其他模型約7到25個百分點。
具體來說(見下表2),GPT-5在2022年(93.0%)、2023年(89.6%)和2025年(86.8%)取得最高分,而Gemini 2.5 Pro在2024年以83.0%奪冠。
在以幾何題為主的2024年試卷上,Gemini 2.5 Pro憑借更強的幾何問題解決能力,取得了最佳總體成績(85.6%);GPT-5在該年未能獲得高分。
盡管總體表現(xiàn)強勁,GPT-5在難題上的表現(xiàn)優(yōu)于簡單與中等難度題。
對此,研究人員分析出三點可能的原因。
第一,各難度級別的問題數(shù)量較少,容易產(chǎn)生表現(xiàn)波動:簡單題僅10道,中等題11道,分別約占總分185分和151分(總分為所有類別的1200分)。因此,少數(shù)錯誤就能顯著影響模型在該難度段的得分。
第二,GPT-5在2024年試卷上出現(xiàn)了若干重大失誤,這些失誤多來自涉及幾何與空間可視化的題目。
第三,GPT-5有時在天體物理學題上出錯。例如,2024年試卷的第9題(被歸為簡單題)中,GPT-5因概念性錯誤與計算錯誤共損失18分——這一題的錯誤幾乎占簡單題可得分數(shù)的10%。
基于這些原因,研究人員認為,GPT-5在簡單題和中等難度題上表現(xiàn)不佳,并非由于明顯的不當行為;更大的數(shù)據(jù)集,可能會減少偶爾錯誤的影響,并在難度類別之間實現(xiàn)更平衡的分布。
其他模型也具有競爭力:OpenAI o3總體得分77.5%,比Claude系列高出約13–17個百分點;其中Claude Opus 4.1得分64.7%,Claude Sonnet 4得分60.6%。
此外,這些模型的表現(xiàn)會隨著題目難度的增加而下降。
盡管三者在某些簡單基準(如帶多項選擇題的AstroMLab)上的表現(xiàn)相近并且積極,這次評估仍揭示了顯著的性能差距。
這提示需要更全面地評估天文學領域的LLM,以測試其在問題解決能力上超越單純知識回憶的能力。
實驗結(jié)果:數(shù)據(jù)分析考試
相比之下,數(shù)據(jù)分析考試更能揭示模型在細節(jié)與多模態(tài)任務上的能力與局限(見表1)。
GPT-5在數(shù)據(jù)分析部分表現(xiàn)出色,總體得分88.5%,高于其理論考試成績(84.2%)。
這一提升與其他模型形成鮮明對比:其他模型從理論到數(shù)據(jù)分析通常下降約10–15個百分點。
造成這種差異的原因在于:
數(shù)據(jù)分析考試,高度依賴圖表解讀與數(shù)據(jù)可視化;
GPT-5更強的多模態(tài)能力解釋了其優(yōu)勢。
為進一步推動天體物理領域中大語言模型的發(fā)展,研究人員呼吁開發(fā)更具生態(tài)效度的多模態(tài)天文數(shù)據(jù)分析基準,作為對模型更全面評估的補充。
媲美頂尖人類選手
AI實力卻是很強,那么它們是否可與人類一較高下?
為此,研究人員根據(jù)IOAA的評分標準,將模型得分與人類參賽者進行比較。
IOAA獎牌的評定基于參賽者總分(理論+數(shù)據(jù)分析+觀測考試之和),相對于中位數(shù)的表現(xiàn)——
銅牌為中位數(shù)的100%–130%,銀牌為130%–160%,金牌則為160%以上。
注:本次評估不包含觀測考試,作者分別為理論考試和數(shù)據(jù)分析考試計算了相應的獎牌門檻。
在理論考試中,幾乎所有LLM表現(xiàn)堪稱「學霸級別」,得分輕松跨過金牌線!
唯一例外的是Claude Sonnet 4,在2023 IOAA中拿下了銀牌。
總體來看,這些模型不僅達到了金牌水平,甚至與全球TOP 200-300頂尖人類參賽者中,名列前茅。
在2022、2024和2025年的考試中,各模型均穩(wěn)定排名前12。
更令人震撼的是,在2022、2023、2025理論考試中,GPT-5均超過了當年的IOAA最佳學生,堪稱「學神」!
Gemini 2.5 Pro在2022和2023年,同樣力壓最佳人類選手。
OpenAI o3在2023年考試中,亦超過了最佳學生。
Claude Opus 4.1與Claude Sonnet 4在2023年雖未能與頂尖學生相媲美,但它們的得分仍明顯高于中位數(shù),分別位列第45和第62。
LLM偶有失敗,仍需上下求索
為了更深入地了解LLM在天文問題解決中的長處和短處,根據(jù)IOAA理論考試中不同類型的問題,研究人員對LLM的表現(xiàn)進行了分析。
根據(jù)評分團隊專家的評估,這次研究將理論問題分為兩類:
? 第一類(幾何/空間):涉及空間可視化的問題,包括天球、球面三角學、時間計量系統(tǒng)和向量幾何。
? 第二類(物理/數(shù)學):主要涉及宇宙學和天體物理計算以及天體力學,不要求幾何可視化。
盡管這個分類(上表4)并不全面,但它清楚地揭示了系統(tǒng)性差異:
模型在第二類物理問題上的得分較高(67–91%),而在第一類幾何問題上的得分明顯較低(49–78%),兩者相差15–26個百分點。
這種差異在2024年的考試中尤為顯著,當時第一類問題占據(jù)了主導地位——只有Gemini 2.5 Pro保持了相對較高的性能(74.7%),而其他模型的性能則下降到了35–59%。
按年份、難度和類別劃分的IOAA理論問題分析
即便如此,Gemini在第一類問題上的性能也比第二類問題(91.3%)低12.7個百分點。
為什么LLM在幾何問題上表現(xiàn)不佳?
通過定性分析,研究人員發(fā)現(xiàn)除了計算錯誤外,LLM還面臨一些根本性的問題。
首先,模型在概念上難以理解球面三角學。例如,GPT-5會寫出違反基本幾何原理的球面三角學方程,并嘗試進行與大圓幾何不一致的角度計算。
此外,所有模型在時間計量系統(tǒng)上都表現(xiàn)出混淆,無法正確區(qū)分熱帶年和恒星年。一些解答甚至隱含地將日歷年和熱帶年視為相同。
最后,目前的LLM只能用自然語言進行推理,無法在思考時進行空間表示的視覺化或草圖繪制,這與人類參與者相比處于天然劣勢。
這些失敗模式表明,多模態(tài)推理,特別是空間和時間的,是提升LLM在天文問題解決能力的重要未來方向。
除了定性分析外,研究人員還將所有錯誤定量地分為八個類別,以系統(tǒng)地識別大語言模型的弱點。
圖1:所有模型在IOAA理論考試(2022-2025年,其中2023年得分標準化為300分)和數(shù)據(jù)分析考試(2022-2025年,其中2023年得分標準化為150分)中按錯誤類型丟失的分數(shù)分布。
在理論考試中,概念性錯誤和幾何/空間可視化錯誤在所有模型中占主導地位,共同占去了60-70%的總失分。GPT-5和Gemini 2.5 Pro顯示出最低的整體錯誤率,而Claude模型的錯誤率較高。
分布顯示,基本的推理錯誤(概念性和幾何性)遠遠超過了計算錯誤,特別是Claude模型在概念理解上存在困難,除了Gemini 2.5 Pro和GPT-5之外的所有模型都顯示出明顯的幾何/空間弱點。
在數(shù)據(jù)分析考試中,錯誤分布相對平衡,繪圖「Plotting」是OpenAI o3、Claude Opus 4.1和Claude Sonnet 4中最突出的錯誤類別。
在所有模型中,概念性錯誤最為普遍,反映了實現(xiàn)深度物理理解的難點。
與國際數(shù)學奧賽(IMO)等純數(shù)學競賽不同,物理和天體物理奧林匹克競賽要求將數(shù)學形式與物理直覺相結(jié)合,在評估科學推理能力方面別具價值。由于這些錯誤觸及理解的核心,它們通常出現(xiàn)在所有類型的問題中,并導致嚴重的扣分。
第二大錯誤來源是幾何或空間推理。這些錯誤完全集中在第一類問題中,這進一步證實了空間推理是大語言模型的一個關(guān)鍵弱點。
模型經(jīng)常無法可視化三維配置,錯誤識別天體坐標之間的角度,或在球面幾何中錯誤地應用向量運算。
這些失敗甚至發(fā)生在幾何問題被清晰地用文字描述的情況下。這在第一類問題中占大多數(shù),表明這些限制不僅在于多模態(tài),還在于LLM在處理與空間推理相關(guān)任務時的基本能力。
此外,天文學奧林匹克競賽非常重視近似和數(shù)量級推理,因為天文學涉及的尺度非常龐大。
盡管模型通常能夠合理地處理近似問題,但特定的失敗案例突顯了物理直覺方面的差距。
特別是,模型常常在數(shù)量級上錯誤判斷天文學距離,或者在問題約束下未能識別近似無效的情況。
在解釋圖表和圖像方面的錯誤,盡管僅限于有視覺輸入的問題,但也具有相當?shù)臋?quán)重。
這種模式與已知的LLM的多模態(tài)限制一致,比如記錄的圖表理解失敗,也符合莫拉維克悖論:
對人類來說簡單的任務,如視覺解釋,對人工智能來說仍然困難。
最后,當模型在沒有展示中間步驟的情況下直接給出最終表達式時,會觀察到缺失或不完整的推導,這表明數(shù)學推理的透明度存在限制。
其他類別,包括計算錯誤、符號精度和近似錯誤,導致的扣分較少,表明模型具有相當不錯的計算能力。
數(shù)據(jù)分析考試中的失敗模式
與理論考試不同,數(shù)據(jù)分析考試的錯誤分布(見圖1b)在多個類別中相對較為均勻。
正如預期的那樣,繪圖和圖表及圖像閱讀在數(shù)據(jù)分析考試中也會導致扣分。
能力較弱的三個模型,OpenAI o3、Claude Opus 4.1和Claude Sonnet 4,主要的錯誤類別是繪圖,而GPT-5和Gemini 2.5 Pro的主要扣分來源是圖像和圖表閱讀。
計算錯誤也在數(shù)據(jù)分析考試中導致了相當一部分的扣分。
對于Gemini 2.5 Pro,計算錯誤甚至與圖像和圖表閱讀一樣,是另一個主要的錯誤來源。這是因為許多數(shù)據(jù)分析問題涉及長表格,并且需要計算多個值以生成圖表。
值得注意的是,理論考試中主要的扣分原因——概念性錯誤和幾何錯誤——在數(shù)據(jù)分析考試中并不突出。
盡管概念性錯誤可能出現(xiàn)在任何問題中,并且仍然會導致大多數(shù)模型在數(shù)據(jù)分析考試中扣分,但對圖表閱讀和繪圖任務的強烈關(guān)注使得其他類型的錯誤更有可能發(fā)生。
參考資料:
https://x.com/gdb/status/1977052555898482727
https://x.com/VraserX/status/1977039338136322463
https://x.com/ai_for_success/status/1977066532628054401
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.