網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

永別了，人類冠軍！AI橫掃天文奧賽，GPT-5得分遠超金牌選手2.7倍

2025-10-12 12:17:17　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ 桃子

【新智元導讀】國際奧賽又一塊金牌，被AI奪下了！在國際天文與天體物理奧賽（IOAA）中，GPT-5和Gemini 2.5 Pro完勝人類選手，在理論和數(shù)據(jù)分析測試中，拿下了最高分。

IMO、IOI之后，AI再奪奧賽冠軍。

剛剛，在國際天文與天體物理奧林匹克競賽測試中，GPT-5和Gemini 2.5 Pro達到金牌水平！

在理論考試上，Gemini 2.5 Pro總體得分85.6%，GPT-5總體得分84.2%；

在數(shù)據(jù)分析考試中：GPT-5總體得分88.5%，Gemini 2.5 Pro總體得分75.7%。

在IOAA 2025上，AI的表現(xiàn)驚人，其水平竟高達人類金牌得主的2.7倍！

我們正在見證AI大爆炸——今日之奧賽，明日之科學，AI將推動全部學科的進展。

AI再奪IOAA金牌，見證歷史！

國際天文與天體物理奧林匹克競賽（International Olympiad on Astronomy and Astrophysics，IOAA），由國際天文學聯(lián)合會主辦的全球性青少年天文賽事，是國際科學奧林匹克競賽之一、全球天文科學領域最具有影響力的賽事之一。

競賽包含理論測試、實測數(shù)據(jù)分析、天文觀測三大核心環(huán)節(jié)，并設置團隊協(xié)作項目以增強國際互動。

這些競賽試題極為嚴苛，通常只有全球最頂尖的學生才能解答。

它們需要深厚的概念理解能力、冗長的公式推導，以及需耗時數(shù)小時才能完成的天體物理學難題。

如今人工智能不僅能夠通過考試，更在全球200至300名人類參賽者中躋身前兩名。GPT-5平均得分85.6%，Gemini 2.5 Pro獲得84.2%——兩者均達到金牌標準。

我們已正式進入AI能與物理學和天文學領域最聰穎的年輕頭腦抗衡的時代。

這并非瑣碎知識的比拼，而是關(guān)于中子星、吸積流、磁場和軌道力學的尖端推理。

人工智能不再只是生成文字，它開始思考宇宙的奧秘。

但報告指出，在空間和時間推理方面，目前所有LLM都存在困難。

因此，ASI之路還很長，仍需上下求索。

五大LLM打擂臺，幾乎全線摘金

最新研究由俄亥俄州立大學團隊完成，重點考察了五大頂尖LLM，在天文和物理學方面的實力。

論文地址：https://arxiv.org/pdf/2510.05016

為此，他們選取了最近四屆IOAA理論考試（2022-2025）。之所以選擇IOAA來衡量，原因有三：

現(xiàn)有的基準，如AstroMLab、AstroBench等僅通過選擇、簡答和判斷題來考察LLM的天文學知識；

IOAA題目具備全面性，涵蓋了宇宙學、球面三角學、恒星天體物理學、天體力學、光度學和儀器學等廣泛的主題；

IOAA將理論物理、觀測約束和真實天文數(shù)據(jù)與數(shù)學計算融為一體，為評估LLM的科學問題解決能力提供了一個獨特的視角

除了以上提到的Gemini 2.5 Pro和GPT-5，團隊還讓o3、Claude-4.1-Opus、Claude-4-Sonnet等三款模型共同參戰(zhàn)。

它們均是在AstroBench表現(xiàn)最強模型之一，而且還具備了多模態(tài)能力。

所有模型的輸出，由兩名IOAA專家遵循官方評分細則進行獨立評分。

實驗結(jié)果：理論考試

在理論考試中，GPT-5和Gemini 2.5 Pro表現(xiàn)最佳，比分高出其他模型約7到25個百分點。

具體來說（見下表2），GPT-5在2022年（93.0%）、2023年（89.6%）和2025年（86.8%）取得最高分，而Gemini 2.5 Pro在2024年以83.0%奪冠。

在以幾何題為主的2024年試卷上，Gemini 2.5 Pro憑借更強的幾何問題解決能力，取得了最佳總體成績（85.6%）；GPT-5在該年未能獲得高分。

盡管總體表現(xiàn)強勁，GPT-5在難題上的表現(xiàn)優(yōu)于簡單與中等難度題。

對此，研究人員分析出三點可能的原因。

第一，各難度級別的問題數(shù)量較少，容易產(chǎn)生表現(xiàn)波動：簡單題僅10道，中等題11道，分別約占總分185分和151分（總分為所有類別的1200分）。因此，少數(shù)錯誤就能顯著影響模型在該難度段的得分。

第二，GPT-5在2024年試卷上出現(xiàn)了若干重大失誤，這些失誤多來自涉及幾何與空間可視化的題目。

第三，GPT-5有時在天體物理學題上出錯。例如，2024年試卷的第9題（被歸為簡單題）中，GPT-5因概念性錯誤與計算錯誤共損失18分——這一題的錯誤幾乎占簡單題可得分數(shù)的10%。

基于這些原因，研究人員認為，GPT-5在簡單題和中等難度題上表現(xiàn)不佳，并非由于明顯的不當行為；更大的數(shù)據(jù)集，可能會減少偶爾錯誤的影響，并在難度類別之間實現(xiàn)更平衡的分布。

其他模型也具有競爭力：OpenAI o3總體得分77.5%，比Claude系列高出約13–17個百分點；其中Claude Opus 4.1得分64.7%，Claude Sonnet 4得分60.6%。

此外，這些模型的表現(xiàn)會隨著題目難度的增加而下降。

盡管三者在某些簡單基準（如帶多項選擇題的AstroMLab）上的表現(xiàn)相近并且積極，這次評估仍揭示了顯著的性能差距。

這提示需要更全面地評估天文學領域的LLM，以測試其在問題解決能力上超越單純知識回憶的能力。

實驗結(jié)果：數(shù)據(jù)分析考試

相比之下，數(shù)據(jù)分析考試更能揭示模型在細節(jié)與多模態(tài)任務上的能力與局限（見表1）。

GPT-5在數(shù)據(jù)分析部分表現(xiàn)出色，總體得分88.5%，高于其理論考試成績（84.2%）。

這一提升與其他模型形成鮮明對比：其他模型從理論到數(shù)據(jù)分析通常下降約10–15個百分點。

造成這種差異的原因在于：

數(shù)據(jù)分析考試，高度依賴圖表解讀與數(shù)據(jù)可視化；

GPT-5更強的多模態(tài)能力解釋了其優(yōu)勢。

為進一步推動天體物理領域中大語言模型的發(fā)展，研究人員呼吁開發(fā)更具生態(tài)效度的多模態(tài)天文數(shù)據(jù)分析基準，作為對模型更全面評估的補充。

媲美頂尖人類選手

AI實力卻是很強，那么它們是否可與人類一較高下？

為此，研究人員根據(jù)IOAA的評分標準，將模型得分與人類參賽者進行比較。

IOAA獎牌的評定基于參賽者總分（理論+數(shù)據(jù)分析+觀測考試之和），相對于中位數(shù)的表現(xiàn)——

銅牌為中位數(shù)的100%–130%，銀牌為130%–160%，金牌則為160%以上。

注：本次評估不包含觀測考試，作者分別為理論考試和數(shù)據(jù)分析考試計算了相應的獎牌門檻。

在理論考試中，幾乎所有LLM表現(xiàn)堪稱「學霸級別」，得分輕松跨過金牌線！

唯一例外的是Claude Sonnet 4，在2023 IOAA中拿下了銀牌。

總體來看，這些模型不僅達到了金牌水平，甚至與全球TOP 200-300頂尖人類參賽者中，名列前茅。

在2022、2024和2025年的考試中，各模型均穩(wěn)定排名前12。

更令人震撼的是，在2022、2023、2025理論考試中，GPT-5均超過了當年的IOAA最佳學生，堪稱「學神」！

Gemini 2.5 Pro在2022和2023年，同樣力壓最佳人類選手。

OpenAI o3在2023年考試中，亦超過了最佳學生。

Claude Opus 4.1與Claude Sonnet 4在2023年雖未能與頂尖學生相媲美，但它們的得分仍明顯高于中位數(shù)，分別位列第45和第62。

LLM偶有失敗，仍需上下求索

為了更深入地了解LLM在天文問題解決中的長處和短處，根據(jù)IOAA理論考試中不同類型的問題，研究人員對LLM的表現(xiàn)進行了分析。

根據(jù)評分團隊專家的評估，這次研究將理論問題分為兩類：

? 第一類（幾何/空間）：涉及空間可視化的問題，包括天球、球面三角學、時間計量系統(tǒng)和向量幾何。

? 第二類（物理/數(shù)學）：主要涉及宇宙學和天體物理計算以及天體力學，不要求幾何可視化。

盡管這個分類（上表4）并不全面，但它清楚地揭示了系統(tǒng)性差異：

模型在第二類物理問題上的得分較高（67–91%），而在第一類幾何問題上的得分明顯較低（49–78%），兩者相差15–26個百分點。

這種差異在2024年的考試中尤為顯著，當時第一類問題占據(jù)了主導地位——只有Gemini 2.5 Pro保持了相對較高的性能（74.7%），而其他模型的性能則下降到了35–59%。

按年份、難度和類別劃分的IOAA理論問題分析

即便如此，Gemini在第一類問題上的性能也比第二類問題（91.3%）低12.7個百分點。

為什么LLM在幾何問題上表現(xiàn)不佳？

通過定性分析，研究人員發(fā)現(xiàn)除了計算錯誤外，LLM還面臨一些根本性的問題。

首先，模型在概念上難以理解球面三角學。例如，GPT-5會寫出違反基本幾何原理的球面三角學方程，并嘗試進行與大圓幾何不一致的角度計算。

此外，所有模型在時間計量系統(tǒng)上都表現(xiàn)出混淆，無法正確區(qū)分熱帶年和恒星年。一些解答甚至隱含地將日歷年和熱帶年視為相同。

最后，目前的LLM只能用自然語言進行推理，無法在思考時進行空間表示的視覺化或草圖繪制，這與人類參與者相比處于天然劣勢。

這些失敗模式表明，多模態(tài)推理，特別是空間和時間的，是提升LLM在天文問題解決能力的重要未來方向。

除了定性分析外，研究人員還將所有錯誤定量地分為八個類別，以系統(tǒng)地識別大語言模型的弱點。

圖1：所有模型在IOAA理論考試（2022-2025年，其中2023年得分標準化為300分）和數(shù)據(jù)分析考試（2022-2025年，其中2023年得分標準化為150分）中按錯誤類型丟失的分數(shù)分布。

在理論考試中，概念性錯誤和幾何/空間可視化錯誤在所有模型中占主導地位，共同占去了60-70%的總失分。GPT-5和Gemini 2.5 Pro顯示出最低的整體錯誤率，而Claude模型的錯誤率較高。

分布顯示，基本的推理錯誤（概念性和幾何性）遠遠超過了計算錯誤，特別是Claude模型在概念理解上存在困難，除了Gemini 2.5 Pro和GPT-5之外的所有模型都顯示出明顯的幾何/空間弱點。

在數(shù)據(jù)分析考試中，錯誤分布相對平衡，繪圖「Plotting」是OpenAI o3、Claude Opus 4.1和Claude Sonnet 4中最突出的錯誤類別。

在所有模型中，概念性錯誤最為普遍，反映了實現(xiàn)深度物理理解的難點。

與國際數(shù)學奧賽（IMO）等純數(shù)學競賽不同，物理和天體物理奧林匹克競賽要求將數(shù)學形式與物理直覺相結(jié)合，在評估科學推理能力方面別具價值。由于這些錯誤觸及理解的核心，它們通常出現(xiàn)在所有類型的問題中，并導致嚴重的扣分。

第二大錯誤來源是幾何或空間推理。這些錯誤完全集中在第一類問題中，這進一步證實了空間推理是大語言模型的一個關(guān)鍵弱點。

模型經(jīng)常無法可視化三維配置，錯誤識別天體坐標之間的角度，或在球面幾何中錯誤地應用向量運算。

這些失敗甚至發(fā)生在幾何問題被清晰地用文字描述的情況下。這在第一類問題中占大多數(shù)，表明這些限制不僅在于多模態(tài)，還在于LLM在處理與空間推理相關(guān)任務時的基本能力。

此外，天文學奧林匹克競賽非常重視近似和數(shù)量級推理，因為天文學涉及的尺度非常龐大。

盡管模型通常能夠合理地處理近似問題，但特定的失敗案例突顯了物理直覺方面的差距。

特別是，模型常常在數(shù)量級上錯誤判斷天文學距離，或者在問題約束下未能識別近似無效的情況。

在解釋圖表和圖像方面的錯誤，盡管僅限于有視覺輸入的問題，但也具有相當?shù)臋?quán)重。

這種模式與已知的LLM的多模態(tài)限制一致，比如記錄的圖表理解失敗，也符合莫拉維克悖論：

對人類來說簡單的任務，如視覺解釋，對人工智能來說仍然困難。

最后，當模型在沒有展示中間步驟的情況下直接給出最終表達式時，會觀察到缺失或不完整的推導，這表明數(shù)學推理的透明度存在限制。

其他類別，包括計算錯誤、符號精度和近似錯誤，導致的扣分較少，表明模型具有相當不錯的計算能力。

數(shù)據(jù)分析考試中的失敗模式

與理論考試不同，數(shù)據(jù)分析考試的錯誤分布（見圖1b）在多個類別中相對較為均勻。

正如預期的那樣，繪圖和圖表及圖像閱讀在數(shù)據(jù)分析考試中也會導致扣分。

能力較弱的三個模型，OpenAI o3、Claude Opus 4.1和Claude Sonnet 4，主要的錯誤類別是繪圖，而GPT-5和Gemini 2.5 Pro的主要扣分來源是圖像和圖表閱讀。

計算錯誤也在數(shù)據(jù)分析考試中導致了相當一部分的扣分。

對于Gemini 2.5 Pro，計算錯誤甚至與圖像和圖表閱讀一樣，是另一個主要的錯誤來源。這是因為許多數(shù)據(jù)分析問題涉及長表格，并且需要計算多個值以生成圖表。

值得注意的是，理論考試中主要的扣分原因——概念性錯誤和幾何錯誤——在數(shù)據(jù)分析考試中并不突出。

盡管概念性錯誤可能出現(xiàn)在任何問題中，并且仍然會導致大多數(shù)模型在數(shù)據(jù)分析考試中扣分，但對圖表閱讀和繪圖任務的強烈關(guān)注使得其他類型的錯誤更有可能發(fā)生。

參考資料：

https://x.com/gdb/status/1977052555898482727

https://x.com/VraserX/status/1977039338136322463

https://x.com/ai_for_success/status/1977066532628054401

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

新晉諾得主警告：別做夢了，AI難有「經(jīng)濟奇點」！

新智元 2025-10-15 13:26:51
28 跟貼 28
萬億級思考模型，螞蟻首次開源！20萬億token攪局開源AI

新智元 2025-10-15 13:30:58
1 跟貼 1

NTU等聯(lián)合提出A-MemGuard：為AI記憶上鎖，投毒攻擊成功率暴降95%

新智元 2025-10-16 01:29:19
0 跟貼 0

美的、長江商學院、CCV專家領銜評審：誰在用AI幫客戶多賣一單？

虎嗅APP 2025-10-16 03:36:08
0 跟貼 0
告訴你一個保送清北的好方法

碰個冷知識 2025-10-14 16:48:00
2 跟貼 2

在量子世界拋一枚硬幣，到底有多少種可能性？| 物理問答室（2）

墨子沙龍 2025-10-14 14:02:04
0 跟貼 0

每秒600公里，宇宙深處有什么在吸引銀河系，讓它飛速靠近？

萬物研究 2025-10-14 19:31:41
33 跟貼 33
哈勃望遠鏡可以觀測到100億光年遠，為什么我們眼睛是瞬間看到？

老友地理 2025-10-12 12:24:46
54 跟貼 54

物體以光速的99.9%運動會怎樣？實驗揭開百年物理謎團

質(zhì)子教授 2025-10-14 18:34:44
0 跟貼 0
冥王星的衛(wèi)星冥衛(wèi)一卡戎有沒有可能入選矮行星的行列？

萬物研究 2025-10-15 12:29:34
2 跟貼 2
《青少年創(chuàng)造力培育法》第三篇（3）愛因斯坦：研究性學習的奇跡

我讀我在 2025-10-15 12:27:33
0 跟貼 0
不同的圖形代表不同的數(shù)，求這三種圖形各代表什么數(shù)

公考客棧店小二 2025-10-15 15:00:00
0 跟貼 0
如果人類進入四維空間，會怎么樣？

宇宙時空 2025-10-15 16:28:13
2 跟貼 2
科學已經(jīng)無法解答這叫聲了

拖鞋追劇 2025-10-13 17:43:09
0 跟貼 0
長方形ABCD面積是24，陰影部分的兩個頂點為中點，求陰影部分面積

公考客棧店小二 2025-10-12 21:22:51
1 跟貼 1
小學數(shù)學競賽題，求梯形面積？尖子生也干瞪眼

大力小學數(shù)學 2025-10-12 07:30:00
16 跟貼 16
北大彭一杰教授課題組提出RiskPO，風險度量優(yōu)化重塑大模型后訓練

機器之心Pro 2025-10-15 13:43:16
0 跟貼 0
關(guān)于解方程組的一道題目，怎么快速求解？

三樂大掌柜 2025-10-13 14:39:59
4 跟貼 4
數(shù)學難題挑戰(zhàn)：已知a+b=99，求ab的值

郎老師趣味數(shù)學課堂 2025-10-13 11:26:16
1 跟貼 1
小學數(shù)學思維提升，每個符號里分別填多少呢

公考客棧店小二 2025-10-15 18:00:00
0 跟貼 0
類星體，這就是宇宙中最恐怖的天體，黑洞在其面前如同螻蟻一般

六六冷知識 2025-10-13 23:38:46
1 跟貼 1
在資料上看到一只小蟲，不管誰看到這蟲子，都得先楞三秒！

搞笑者大聯(lián)盟 2025-10-13 09:38:40
4 跟貼 4
德國競賽題，90%以上的人都做錯了，做對的寥寥無幾

郎老師趣味數(shù)學課堂 2025-10-14 22:37:37
0 跟貼 0
孫子定理，中國剩余定理！

噗噗小露西 2025-10-14 00:44:47
0 跟貼 0
1152顆脈沖星的科技密碼：全球為何造不出第二個“中國天眼”？

民言民語 2025-10-13 14:57:18
0 跟貼 0
數(shù)學小知識:畫圖法，數(shù)型結(jié)合

噗噗小露西 2025-10-14 00:51:27
0 跟貼 0
易錯題，得零分的比比皆是，看看答案到底是什么？

智慧的小老虎 2025-10-15 20:55:03
0 跟貼 0
上海市數(shù)學競賽題，計算題也適用于換元法

三樂大掌柜 2025-10-13 14:49:49
2 跟貼 2
基本不等式入門篇

阿航觀世界 2025-10-14 10:21:10
3 跟貼 3
山東大學，簽約杜倫大學！

雙一流高校 2025-10-15 22:48:12
0 跟貼 0
時間去哪兒了？

孤獨大腦 2025-09-10 23:29:47
0 跟貼 0
數(shù)學小知識:找規(guī)律，觀察推理邏輯能力

噗噗小露西 2025-10-16 00:29:10
0 跟貼 0
速求平面法向量

阿航觀世界 2025-10-13 09:37:25
3 跟貼 3
不同望遠鏡下的星空截然不同，其實不僅恒星會發(fā)光，其它天體也會

科學信仰 2025-10-14 15:57:41
7 跟貼 7
二次函數(shù)總結(jié)，abc符號判斷

阿航觀世界 2025-10-13 09:41:25
2 跟貼 2
余弦函數(shù)萬能公式，做題效率翻倍

阿航觀世界 2025-10-12 09:32:08
4 跟貼 4
熱烈祝賀壽縣一中朱勛帥同學榮獲2025年全國中學生數(shù)學奧林匹克競賽省一等獎

壽州人 2025-10-15 22:16:10
0 跟貼 0
找到你了，暗天體！

牧夫天文 2025-10-14 12:07:47
0 跟貼 0
2026高考數(shù)學世紀金榜一輪復習第十二節(jié)導數(shù)的與函數(shù)的單調(diào)性(1)

鄒老實課堂 2025-10-14 10:54:38
7 跟貼 7
從科學角度解釋前世今生真的存在

彭彭師姐說情感 2025-10-14 18:00:00
0 跟貼 0

新智元

AI產(chǎn)業(yè)主平臺領航智能+時代

13625文章數(shù) 66217關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

房產(chǎn)

家居

旅游

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
為何密封包裝的大米也會生蟲？該如何防治？
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

永別了，人類冠軍！AI橫掃天文奧賽，GPT-5得分遠超金牌選手2.7倍

14英寸M5芯片MacBook Pro發(fā)布：12999元起

車企研發(fā)：小米車門鎖在某些看不見的地方省去了成本

車企研發(fā)：小米車門鎖在某些看不見的地方省去了成本

C羅:為葡萄牙出戰(zhàn)意義非凡 11月鎖定世界杯席位

男明星靠做飯人設狂賺？

9月M2-M1剪刀差大幅收窄 存款搬家引關(guān)注

預售價7.68萬元起/三種動力可選 星光730開啟預售

態(tài)度原創(chuàng)

怎么移呢

刷新認知！塔尖群體向往的高定度假豪宅，現(xiàn)身海南！

超級社區(qū) 構(gòu)筑美好生活

熱聞|清明假期將至，熱門目的地有哪些?

永別了，人類冠軍！AI橫掃天文奧賽，GPT-5得分遠超金牌選手2.7倍

男明星靠做飯人設狂賺？

9月M2-M1剪刀差大幅收窄存款搬家引關(guān)注

預售價7.68萬元起/三種動力可選星光730開啟預售

刷新認知！塔尖群體向往的高定度假豪宅，現(xiàn)身海南！