夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

永別了,人類冠軍!AI橫掃天文奧賽,GPT-5得分遠超金牌選手2.7倍

0
分享至


新智元報道

編輯:KingHZ 桃子

【新智元導讀】國際奧賽又一塊金牌,被AI奪下了!在國際天文與天體物理奧賽(IOAA)中,GPT-5和Gemini 2.5 Pro完勝人類選手,在理論和數(shù)據(jù)分析測試中,拿下了最高分。

IMO、IOI之后,AI再奪奧賽冠軍。

剛剛,在國際天文與天體物理奧林匹克競賽測試中,GPT-5和Gemini 2.5 Pro達到金牌水平!


在理論考試上,Gemini 2.5 Pro總體得分85.6%,GPT-5總體得分84.2%;

在數(shù)據(jù)分析考試中:GPT-5總體得分88.5%,Gemini 2.5 Pro總體得分75.7%。


在IOAA 2025上,AI的表現(xiàn)驚人,其水平竟高達人類金牌得主的2.7倍!


我們正在見證AI大爆炸——今日之奧賽,明日之科學,AI將推動全部學科的進展。





AI再奪IOAA金牌,見證歷史!

國際天文與天體物理奧林匹克競賽(International Olympiad on Astronomy and Astrophysics,IOAA),由國際天文學聯(lián)合會主辦的全球性青少年天文賽事,是國際科學奧林匹克競賽之一、全球天文科學領域最具有影響力的賽事之一。


競賽包含理論測試、實測數(shù)據(jù)分析、天文觀測三大核心環(huán)節(jié),并設置團隊協(xié)作項目以增強國際互動。

這些競賽試題極為嚴苛,通常只有全球最頂尖的學生才能解答。

它們需要深厚的概念理解能力、冗長的公式推導,以及需耗時數(shù)小時才能完成的天體物理學難題。

如今人工智能不僅能夠通過考試,更在全球200至300名人類參賽者中躋身前兩名。GPT-5平均得分85.6%,Gemini 2.5 Pro獲得84.2%——兩者均達到金牌標準。

我們已正式進入AI能與物理學和天文學領域最聰穎的年輕頭腦抗衡的時代。

這并非瑣碎知識的比拼,而是關(guān)于中子星、吸積流、磁場和軌道力學的尖端推理。


人工智能不再只是生成文字,它開始思考宇宙的奧秘。

但報告指出,在空間和時間推理方面,目前所有LLM都存在困難。


因此,ASI之路還很長,仍需上下求索。

五大LLM打擂臺,幾乎全線摘金

最新研究由俄亥俄州立大學團隊完成,重點考察了五大頂尖LLM,在天文和物理學方面的實力。


論文地址:https://arxiv.org/pdf/2510.05016

為此,他們選取了最近四屆IOAA理論考試(2022-2025)。之所以選擇IOAA來衡量,原因有三:

  • 現(xiàn)有的基準,如AstroMLab、AstroBench等僅通過選擇、簡答和判斷題來考察LLM的天文學知識;

  • IOAA題目具備全面性,涵蓋了宇宙學、球面三角學、恒星天體物理學、天體力學、光度學和儀器學等廣泛的主題;

  • IOAA將理論物理、觀測約束和真實天文數(shù)據(jù)與數(shù)學計算融為一體,為評估LLM的科學問題解決能力提供了一個獨特的視角


除了以上提到的Gemini 2.5 Pro和GPT-5,團隊還讓o3、Claude-4.1-Opus、Claude-4-Sonnet等三款模型共同參戰(zhàn)。

它們均是在AstroBench表現(xiàn)最強模型之一,而且還具備了多模態(tài)能力。

所有模型的輸出,由兩名IOAA專家遵循官方評分細則進行獨立評分。

實驗結(jié)果:理論考試

在理論考試中,GPT-5和Gemini 2.5 Pro表現(xiàn)最佳,比分高出其他模型約7到25個百分點。

具體來說(見下表2),GPT-5在2022年(93.0%)、2023年(89.6%)和2025年(86.8%)取得最高分,而Gemini 2.5 Pro在2024年以83.0%奪冠。

在以幾何題為主的2024年試卷上,Gemini 2.5 Pro憑借更強的幾何問題解決能力,取得了最佳總體成績(85.6%);GPT-5在該年未能獲得高分。


盡管總體表現(xiàn)強勁,GPT-5在難題上的表現(xiàn)優(yōu)于簡單與中等難度題。

對此,研究人員分析出三點可能的原因。

第一,各難度級別的問題數(shù)量較少,容易產(chǎn)生表現(xiàn)波動:簡單題僅10道,中等題11道,分別約占總分185分和151分(總分為所有類別的1200分)。因此,少數(shù)錯誤就能顯著影響模型在該難度段的得分。

第二,GPT-5在2024年試卷上出現(xiàn)了若干重大失誤,這些失誤多來自涉及幾何與空間可視化的題目。

第三,GPT-5有時在天體物理學題上出錯。例如,2024年試卷的第9題(被歸為簡單題)中,GPT-5因概念性錯誤與計算錯誤共損失18分——這一題的錯誤幾乎占簡單題可得分數(shù)的10%。

基于這些原因,研究人員認為,GPT-5在簡單題和中等難度題上表現(xiàn)不佳,并非由于明顯的不當行為;更大的數(shù)據(jù)集,可能會減少偶爾錯誤的影響,并在難度類別之間實現(xiàn)更平衡的分布。

其他模型也具有競爭力:OpenAI o3總體得分77.5%,比Claude系列高出約13–17個百分點;其中Claude Opus 4.1得分64.7%,Claude Sonnet 4得分60.6%。

此外,這些模型的表現(xiàn)會隨著題目難度的增加而下降。

盡管三者在某些簡單基準(如帶多項選擇題的AstroMLab)上的表現(xiàn)相近并且積極,這次評估仍揭示了顯著的性能差距。

這提示需要更全面地評估天文學領域的LLM,以測試其在問題解決能力上超越單純知識回憶的能力。

實驗結(jié)果:數(shù)據(jù)分析考試

相比之下,數(shù)據(jù)分析考試更能揭示模型在細節(jié)與多模態(tài)任務上的能力與局限(見表1)。


GPT-5在數(shù)據(jù)分析部分表現(xiàn)出色,總體得分88.5%,高于其理論考試成績(84.2%)。

這一提升與其他模型形成鮮明對比:其他模型從理論到數(shù)據(jù)分析通常下降約10–15個百分點。

造成這種差異的原因在于:

數(shù)據(jù)分析考試,高度依賴圖表解讀與數(shù)據(jù)可視化;

GPT-5更強的多模態(tài)能力解釋了其優(yōu)勢。

為進一步推動天體物理領域中大語言模型的發(fā)展,研究人員呼吁開發(fā)更具生態(tài)效度的多模態(tài)天文數(shù)據(jù)分析基準,作為對模型更全面評估的補充。

媲美頂尖人類選手

AI實力卻是很強,那么它們是否可與人類一較高下?

為此,研究人員根據(jù)IOAA的評分標準,將模型得分與人類參賽者進行比較。

IOAA獎牌的評定基于參賽者總分(理論+數(shù)據(jù)分析+觀測考試之和),相對于中位數(shù)的表現(xiàn)——

銅牌為中位數(shù)的100%–130%,銀牌為130%–160%,金牌則為160%以上。

注:本次評估不包含觀測考試,作者分別為理論考試和數(shù)據(jù)分析考試計算了相應的獎牌門檻。

在理論考試中,幾乎所有LLM表現(xiàn)堪稱「學霸級別」,得分輕松跨過金牌線!

唯一例外的是Claude Sonnet 4,在2023 IOAA中拿下了銀牌。


總體來看,這些模型不僅達到了金牌水平,甚至與全球TOP 200-300頂尖人類參賽者中,名列前茅。

在2022、2024和2025年的考試中,各模型均穩(wěn)定排名前12。

更令人震撼的是,在2022、2023、2025理論考試中,GPT-5均超過了當年的IOAA最佳學生,堪稱「學神」!

Gemini 2.5 Pro在2022和2023年,同樣力壓最佳人類選手。

OpenAI o3在2023年考試中,亦超過了最佳學生。

Claude Opus 4.1與Claude Sonnet 4在2023年雖未能與頂尖學生相媲美,但它們的得分仍明顯高于中位數(shù),分別位列第45和第62。

LLM偶有失敗,仍需上下求索

為了更深入地了解LLM在天文問題解決中的長處和短處,根據(jù)IOAA理論考試中不同類型的問題,研究人員對LLM的表現(xiàn)進行了分析。

根據(jù)評分團隊專家的評估,這次研究將理論問題分為兩類:

? 第一類(幾何/空間):涉及空間可視化的問題,包括天球、球面三角學、時間計量系統(tǒng)和向量幾何。

? 第二類(物理/數(shù)學):主要涉及宇宙學和天體物理計算以及天體力學,不要求幾何可視化。


盡管這個分類(上表4)并不全面,但它清楚地揭示了系統(tǒng)性差異:

模型在第二類物理問題上的得分較高(67–91%),而在第一類幾何問題上的得分明顯較低(49–78%),兩者相差15–26個百分點。

這種差異在2024年的考試中尤為顯著,當時第一類問題占據(jù)了主導地位——只有Gemini 2.5 Pro保持了相對較高的性能(74.7%),而其他模型的性能則下降到了35–59%。


按年份、難度和類別劃分的IOAA理論問題分析

即便如此,Gemini在第一類問題上的性能也比第二類問題(91.3%)低12.7個百分點。

為什么LLM在幾何問題上表現(xiàn)不佳?

通過定性分析,研究人員發(fā)現(xiàn)除了計算錯誤外,LLM還面臨一些根本性的問題。

首先,模型在概念上難以理解球面三角學。例如,GPT-5會寫出違反基本幾何原理的球面三角學方程,并嘗試進行與大圓幾何不一致的角度計算。


此外,所有模型在時間計量系統(tǒng)上都表現(xiàn)出混淆,無法正確區(qū)分熱帶年和恒星年。一些解答甚至隱含地將日歷年和熱帶年視為相同。

最后,目前的LLM只能用自然語言進行推理,無法在思考時進行空間表示的視覺化或草圖繪制,這與人類參與者相比處于天然劣勢。

這些失敗模式表明,多模態(tài)推理,特別是空間和時間的,是提升LLM在天文問題解決能力的重要未來方向。

除了定性分析外,研究人員還將所有錯誤定量地分為八個類別,以系統(tǒng)地識別大語言模型的弱點。


圖1:所有模型在IOAA理論考試(2022-2025年,其中2023年得分標準化為300分)和數(shù)據(jù)分析考試(2022-2025年,其中2023年得分標準化為150分)中按錯誤類型丟失的分數(shù)分布。

在理論考試中,概念性錯誤和幾何/空間可視化錯誤在所有模型中占主導地位,共同占去了60-70%的總失分。GPT-5和Gemini 2.5 Pro顯示出最低的整體錯誤率,而Claude模型的錯誤率較高。

分布顯示,基本的推理錯誤(概念性和幾何性)遠遠超過了計算錯誤,特別是Claude模型在概念理解上存在困難,除了Gemini 2.5 Pro和GPT-5之外的所有模型都顯示出明顯的幾何/空間弱點。

在數(shù)據(jù)分析考試中,錯誤分布相對平衡,繪圖「Plotting」是OpenAI o3、Claude Opus 4.1和Claude Sonnet 4中最突出的錯誤類別。

在所有模型中,概念性錯誤最為普遍,反映了實現(xiàn)深度物理理解的難點。

與國際數(shù)學奧賽(IMO)等純數(shù)學競賽不同,物理和天體物理奧林匹克競賽要求將數(shù)學形式與物理直覺相結(jié)合,在評估科學推理能力方面別具價值。由于這些錯誤觸及理解的核心,它們通常出現(xiàn)在所有類型的問題中,并導致嚴重的扣分。

第二大錯誤來源是幾何或空間推理。這些錯誤完全集中在第一類問題中,這進一步證實了空間推理是大語言模型的一個關(guān)鍵弱點。

模型經(jīng)常無法可視化三維配置,錯誤識別天體坐標之間的角度,或在球面幾何中錯誤地應用向量運算。


這些失敗甚至發(fā)生在幾何問題被清晰地用文字描述的情況下。這在第一類問題中占大多數(shù),表明這些限制不僅在于多模態(tài),還在于LLM在處理與空間推理相關(guān)任務時的基本能力。

此外,天文學奧林匹克競賽非常重視近似和數(shù)量級推理,因為天文學涉及的尺度非常龐大。

盡管模型通常能夠合理地處理近似問題,但特定的失敗案例突顯了物理直覺方面的差距。

特別是,模型常常在數(shù)量級上錯誤判斷天文學距離,或者在問題約束下未能識別近似無效的情況。


解釋圖表和圖像方面的錯誤,盡管僅限于有視覺輸入的問題,但也具有相當?shù)臋?quán)重。

這種模式與已知的LLM的多模態(tài)限制一致,比如記錄的圖表理解失敗,也符合莫拉維克悖論:

對人類來說簡單的任務,如視覺解釋,對人工智能來說仍然困難。

最后,當模型在沒有展示中間步驟的情況下直接給出最終表達式時,會觀察到缺失或不完整的推導,這表明數(shù)學推理的透明度存在限制。

其他類別,包括計算錯誤、符號精度和近似錯誤,導致的扣分較少,表明模型具有相當不錯的計算能力。

數(shù)據(jù)分析考試中的失敗模式

與理論考試不同,數(shù)據(jù)分析考試的錯誤分布(見圖1b)在多個類別中相對較為均勻。

正如預期的那樣,繪圖和圖表及圖像閱讀在數(shù)據(jù)分析考試中也會導致扣分。

能力較弱的三個模型,OpenAI o3、Claude Opus 4.1和Claude Sonnet 4,主要的錯誤類別是繪圖,而GPT-5和Gemini 2.5 Pro的主要扣分來源是圖像和圖表閱讀。

計算錯誤也在數(shù)據(jù)分析考試中導致了相當一部分的扣分。

對于Gemini 2.5 Pro,計算錯誤甚至與圖像和圖表閱讀一樣,是另一個主要的錯誤來源。這是因為許多數(shù)據(jù)分析問題涉及長表格,并且需要計算多個值以生成圖表。

值得注意的是,理論考試中主要的扣分原因——概念性錯誤和幾何錯誤——在數(shù)據(jù)分析考試中并不突出。

盡管概念性錯誤可能出現(xiàn)在任何問題中,并且仍然會導致大多數(shù)模型在數(shù)據(jù)分析考試中扣分,但對圖表閱讀和繪圖任務的強烈關(guān)注使得其他類型的錯誤更有可能發(fā)生。

參考資料:

https://x.com/gdb/status/1977052555898482727

https://x.com/VraserX/status/1977039338136322463

https://x.com/ai_for_success/status/1977066532628054401

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
亞錦賽,沒想到日本媒體會這樣評價中國男乒,世界球迷都沸騰了

亞錦賽,沒想到日本媒體會這樣評價中國男乒,世界球迷都沸騰了

李詋窮游天下
2025-10-15 14:41:49
中美關(guān)系為何變得這么差?你看當年布熱津斯基說了些啥,太現(xiàn)實了

中美關(guān)系為何變得這么差?你看當年布熱津斯基說了些啥,太現(xiàn)實了

介知
2025-10-15 16:23:53
被區(qū)別對待、掛滿不歡迎中國人,德韓街頭滿是“針對”,誰還去

被區(qū)別對待、掛滿不歡迎中國人,德韓街頭滿是“針對”,誰還去

姩姩有娛
2025-10-13 18:36:22
央視實錘!23款洗臉巾21款檢出化學殘留,你天天擦臉的“衛(wèi)生神器”,可能會破壞皮膚健康!教你怎么選→

央視實錘!23款洗臉巾21款檢出化學殘留,你天天擦臉的“衛(wèi)生神器”,可能會破壞皮膚健康!教你怎么選→

CHTV百姓健康
2025-10-14 18:15:02
黑導游李海被抓!在泰國威脅中國游客,局長帶隊調(diào)查,還是個慣犯

黑導游李海被抓!在泰國威脅中國游客,局長帶隊調(diào)查,還是個慣犯

好賢觀史記
2025-10-15 17:45:02
每體:門德斯已抵達巴塞羅那,將與巴薩高層會面

每體:門德斯已抵達巴塞羅那,將與巴薩高層會面

懂球帝
2025-10-15 21:38:09
新疆大字標語被破壞后續(xù)!肇事男子賬號被扒,依舊狡辯不承認

新疆大字標語被破壞后續(xù)!肇事男子賬號被扒,依舊狡辯不承認

奇思妙想草葉君
2025-10-14 19:16:33
7輪7分出局!他們脫亞入歐23年,從未殺進世界杯,實力卻比國足強

7輪7分出局!他們脫亞入歐23年,從未殺進世界杯,實力卻比國足強

侃球熊弟
2025-10-15 22:52:08
網(wǎng)盤中的加密文件,二十年后依然回味無窮

網(wǎng)盤中的加密文件,二十年后依然回味無窮

街機時代
2025-04-27 16:10:02
《爸爸去哪兒》村長李銳當總裁了!在迪拜拿下超12億訂單

《爸爸去哪兒》村長李銳當總裁了!在迪拜拿下超12億訂單

魯中晨報
2025-10-15 15:36:04
哈馬斯在加沙對巴勒斯坦人大開殺戒,“愛心人士”集體沉默

哈馬斯在加沙對巴勒斯坦人大開殺戒,“愛心人士”集體沉默

近距離
2025-10-15 17:10:51
踢到鐵板,韓國人被騙到柬埔寨園區(qū),韓國媒體大幅度報道,鬧大了

踢到鐵板,韓國人被騙到柬埔寨園區(qū),韓國媒體大幅度報道,鬧大了

你食不食油餅
2025-10-15 07:37:47
網(wǎng)傳新娘給攝影師發(fā)特殊服務信息:住址和價格曝光,聊天內(nèi)容流出

網(wǎng)傳新娘給攝影師發(fā)特殊服務信息:住址和價格曝光,聊天內(nèi)容流出

博士觀察
2025-10-15 17:40:31
伊朗走投無路

伊朗走投無路

格隆匯
2025-10-15 19:16:21
老頭得巨大酒渣鼻,半張臉都是鼻子,嘴都看不見!割完他終于爽了

老頭得巨大酒渣鼻,半張臉都是鼻子,嘴都看不見!割完他終于爽了

英國那些事兒
2025-10-15 23:22:32
美國稀土股跌幅一度達16%,創(chuàng)6月17日以來最大跌幅

美國稀土股跌幅一度達16%,創(chuàng)6月17日以來最大跌幅

每日經(jīng)濟新聞
2025-10-15 22:22:06
媒體人:以后要去NBA追夢的球員,一定要避開籃網(wǎng)隊

媒體人:以后要去NBA追夢的球員,一定要避開籃網(wǎng)隊

懂球帝
2025-10-15 23:25:09
尋親遇親叔后續(xù):空手上門、晚輩先動筷,網(wǎng)友曝靠詆毀中國賺外幣

尋親遇親叔后續(xù):空手上門、晚輩先動筷,網(wǎng)友曝靠詆毀中國賺外幣

以茶帶書
2025-10-15 16:08:37
56歲孫楠瘦身后驚現(xiàn)街頭!顏值逆襲驚呆網(wǎng)友:這哪是大叔?

56歲孫楠瘦身后驚現(xiàn)街頭!顏值逆襲驚呆網(wǎng)友:這哪是大叔?

動物奇奇怪怪
2025-10-16 03:37:12
章子怡談女兒哽咽落淚,判給汪峰的9歲女兒,變成了她的“救贖”

章子怡談女兒哽咽落淚,判給汪峰的9歲女兒,變成了她的“救贖”

白面書誏
2025-10-15 19:18:11
2025-10-16 06:44:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領航智能+時代
13625文章數(shù) 66217關(guān)注度
往期回顧 全部

科技要聞

14英寸M5芯片MacBook Pro發(fā)布:12999元起

頭條要聞

車企研發(fā):小米車門鎖在某些看不見的地方省去了成本

頭條要聞

車企研發(fā):小米車門鎖在某些看不見的地方省去了成本

體育要聞

C羅:為葡萄牙出戰(zhàn)意義非凡 11月鎖定世界杯席位

娛樂要聞

男明星靠做飯人設狂賺?

財經(jīng)要聞

9月M2-M1剪刀差大幅收窄 存款搬家引關(guān)注

汽車要聞

預售價7.68萬元起/三種動力可選 星光730開啟預售

態(tài)度原創(chuàng)

親子
房產(chǎn)
家居
旅游
公開課

親子要聞

怎么移呢

房產(chǎn)要聞

刷新認知!塔尖群體向往的高定度假豪宅,現(xiàn)身海南!

家居要聞

超級社區(qū) 構(gòu)筑美好生活

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 久久综合噜噜激激的五月天 | 人人妻人人藻| 国产成人av片免费| 91小视频在线播放| 胸大美女又黄的网站| 国产精品美女久久久网站动漫| 精品一区二区不卡无吗AV| 日韩40熟女| 亚洲无码第一页在线视频观看| 国产精品欧美成人片| 国产精品无码精久精久精久爽午夜| 久久婷婷人人澡人人爱91| 丰满少妇毛片| 无码国产精品一区二区免费网曝| 无码人妻一区二区三区手机视频| 少妇被躁到高潮无码| 国产韩国美女高潮无套视频| 国产精品传媒AV在线| 久久精品噜噜噜成人AV色欲| 女女女女女女bbbbbb毛| 人人妻人人玩人人爽| 久久精品亚洲精品无码| 高清日韩一区二区视频| 日韩精品无码综合福利网| 狠狠躁夜夜躁无码中文字幕| 一本无码AV中文出轨人妻 | 婷婷 丁香 六月| 无码人妻一区二区三区四区AV| 人人操人人插人人| 高潮videossex潮喷另类| 三级片在线看| 操50岁老熟女| 精品无码国产自产野外拍在线| 亚洲第一福利专区| 四虎永久免费影库二三区| 无套内射极品少妇chinese| 999在线视频精品免费播放观看 | 97超碰大香蕉| 精品国产中文字幕在线看| 人妻内射.porn| 国产精品18岁禁区视频|