夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

開源模型首次物理奧賽奪金!上海AI Lab 235B模型擊敗GPT5和Grok4

0
分享至

P1團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

開源模型首次在國(guó)際物理奧林匹克競(jìng)賽奪金了。

來自上海AI Lab的P1-235B-A22B取得了21.2分的成績(jī),成功跨越金牌線。

在覆蓋2024-2025年全球13場(chǎng)頂級(jí)物理競(jìng)賽的HiPhO基準(zhǔn)測(cè)試中,P1-235B-A22B獲12金1銀,與谷歌Gemini-2.5-Pro并列獎(jiǎng)牌榜第一。



這個(gè)成績(jī)超越了GPT-5的11金以及Grok-4的10金,標(biāo)志著開源模型在物理推理能力上已經(jīng)達(dá)到甚至超越閉源模型的水平。

同時(shí),團(tuán)隊(duì)提出的協(xié)同進(jìn)化多智能體系統(tǒng)PhysicsMinions,在IPhO 2025及HiPhO綜合得分上雙雙問鼎,展現(xiàn)了“模型+系統(tǒng)”框架在應(yīng)對(duì)復(fù)雜科學(xué)問題的卓越潛力。

物理推理是理解與塑造現(xiàn)實(shí)世界的核心能力。國(guó)際物理奧林匹克(IPhO)等頂尖賽事,以其對(duì)復(fù)雜推理和深度物理理解的高標(biāo)準(zhǔn),成為檢驗(yàn)物理智能對(duì)現(xiàn)實(shí)認(rèn)知能力的重要標(biāo)尺。AI在此類競(jìng)賽中奪得金牌,不僅是實(shí)現(xiàn)通用物理智能道路上的關(guān)鍵里程碑,更表明模型已初步具備應(yīng)對(duì)現(xiàn)實(shí)世界中復(fù)雜物理問題的潛力。

P1系列:模型、算法、評(píng)測(cè)集和智能體框架的全鏈路開源體系

首個(gè)物理奧賽基準(zhǔn)測(cè)試:HiPhO

為了準(zhǔn)確評(píng)估物理奧賽的表現(xiàn),研究團(tuán)隊(duì)構(gòu)建了HiPhO(High School Physics Olympiad)基準(zhǔn)測(cè)試,這是首個(gè)專注于最新物理奧賽、采用人類對(duì)齊評(píng)估的基準(zhǔn)。

HiPhO涵蓋了2024-2025年最新的13場(chǎng)奧林匹克級(jí)別的物理競(jìng)賽,包括 IPhO、APhO、EuPhO 等國(guó)際和區(qū)域賽事。評(píng)估時(shí)采用官方評(píng)分標(biāo)準(zhǔn),對(duì)答案和過程進(jìn)行細(xì)粒度評(píng)分,與人類評(píng)審嚴(yán)格對(duì)齊,確保得分準(zhǔn)確。由此,每個(gè)模型的考試得分可直接與人類選手以及金銀銅牌分?jǐn)?shù)線進(jìn)行比較。



△HiPhO 基準(zhǔn)測(cè)試概覽,包含2024-2025年13場(chǎng)物理奧賽,覆蓋國(guó)際和區(qū)域競(jìng)賽。

多階段強(qiáng)化學(xué)習(xí)訓(xùn)練

研究團(tuán)隊(duì)通過高質(zhì)量的提取和標(biāo)注流程,構(gòu)建了包含數(shù)千條奧賽級(jí)別題目的訓(xùn)練數(shù)據(jù)集。每條數(shù)據(jù)均具有完整的上下文信息、可驗(yàn)證答案以及標(biāo)準(zhǔn)解題過程,用于強(qiáng)化學(xué)習(xí)訓(xùn)練。

P1系列模型采用多階段強(qiáng)化學(xué)習(xí)流程進(jìn)行訓(xùn)練。為了實(shí)現(xiàn)穩(wěn)定高效的訓(xùn)練,團(tuán)隊(duì)在每個(gè)階段應(yīng)用兩項(xiàng)關(guān)鍵策略:

  • 上下文窗口擴(kuò)展:
  • 隨著訓(xùn)練的推進(jìn),逐步擴(kuò)展模型最大生成長(zhǎng)度,使模型能夠探索更長(zhǎng)的推理鏈。這種擴(kuò)展提高了高復(fù)雜度問題的可解性,減少了因截?cái)鄬?dǎo)致的錯(cuò)誤。
  • 通過率過濾:
  • 在訓(xùn)練前,基于通過率統(tǒng)計(jì)對(duì)數(shù)據(jù)進(jìn)行篩選,排除過于簡(jiǎn)單或過于困難的任務(wù)。

基于這種多階段強(qiáng)化學(xué)習(xí)策略,P1模型實(shí)現(xiàn)了在基座語言模型的基礎(chǔ)上長(zhǎng)期、持續(xù)的性能提升



協(xié)同進(jìn)化的多智能體系統(tǒng):PhysicsMinions

為了突破單模型的極限,研究團(tuán)隊(duì)開發(fā)了PhysicsMinions,這是一個(gè)專為物理推理設(shè)計(jì)的協(xié)同進(jìn)化多智能體系統(tǒng)。它由三個(gè)交互式模塊組成,通過自我驗(yàn)證與反思迭代,實(shí)現(xiàn)了物理推理能力的躍升:

  • 視覺模塊(Visual Studio)
  • – 觀察和驗(yàn)證多模態(tài)問題,提取結(jié)構(gòu)化的視覺信息(在P1模型實(shí)驗(yàn)中未使用視覺模塊)。
  • 邏輯模塊(Logic Studio)
  • – 生成初始解決方案,并通過自我改進(jìn)和自我反思逐步改進(jìn)解答。
  • 審核模塊(Review Studio)
  • – 執(zhí)行雙階段驗(yàn)證:物理驗(yàn)證器檢查物理一致性(比如常數(shù)、單位),而通用驗(yàn)證器檢查邏輯、推理和計(jì)算。

如果任一階段驗(yàn)證失敗,詳細(xì)的錯(cuò)誤報(bào)告會(huì)被發(fā)送回邏輯模塊,進(jìn)行反思修訂解答。通過這種協(xié)同進(jìn)化協(xié)作,PhysicsMinions 持續(xù)提升復(fù)雜物理問題的推理質(zhì)量和魯棒性。



△PhysicsMinions 協(xié)同進(jìn)化多智能體系統(tǒng)概覽,展示了三個(gè)模塊之間的交互流程。

評(píng)測(cè)結(jié)果:引領(lǐng) HiPhO 基準(zhǔn),物理推理能力世界第一

下表總結(jié)了在 HiPhO 基準(zhǔn)上所有競(jìng)賽的平均表現(xiàn),展示出 P1 系列模型和多智能體系統(tǒng)的出色性能。



△P1 系列模型在 HiPhO 基準(zhǔn)測(cè)試上的綜合表現(xiàn),包括與開源和閉源模型的對(duì)比。

P1-235B-A22B展現(xiàn)出卓越的物理推理能力,與Gemini-2.5-Pro和Gemini-2.5-Flash-Thinking并列第一,斬獲12金1銀,金牌數(shù)超越GPT-5(11金)、Grok-4(10金)和Claude-4-Sonnet-Thinking(8金)等主流閉源模型。

在IPhO 2025上,P1-235B-A22B得分21.2/30,成為首個(gè)也是唯一獲得金牌的開源模型。

P1-30B-A3B在HiPhO基準(zhǔn)上同樣表現(xiàn)出色,獲得8金4銀1銅,在現(xiàn)有開源模型中排名第三。

僅次于參數(shù)規(guī)模更大的Qwen3-235B-A22B-Thinking-2507DeepSeek-R1,甚至超越了o4-miniClaude-4-Sonnet等閉源模型,突顯了其在中等規(guī)模下的強(qiáng)大物理推理能力。

配備PhysicsMinions多智能體系統(tǒng)后,P1模型性能實(shí)現(xiàn)跨越式提升。P1-235B-A22B模型在 HiPhO 基準(zhǔn)上取得了35.9分的平均得分,而配備 PhysicsMinions 后,其性能大幅提升至38.4分,在所有模型中取得綜合第一,超越了Gemini-2.5-Pro(37.7)和 GPT-5(37.4)等頂尖閉源模型。

通專融合,P1模型通用能力持續(xù)提升

除了強(qiáng)大的物理推理能力,P1模型在多個(gè)領(lǐng)域的能力也得到進(jìn)一步提升。如下圖所示,P1-30B-A3B相比于基座模型Qwen3-30B-A3B-Thinking-2507,在數(shù)學(xué)、代碼、STEM等基準(zhǔn)測(cè)試上均取得顯著優(yōu)勢(shì),證明了物理推理能力的強(qiáng)大泛化性。



Project Page: https://prime-rl.github.io/P1
Github: https://github.com/PRIME-RL/P1

HiPhO:
論文:https://arxiv.org/abs/2509.07894
數(shù)據(jù)集:https://huggingface.co/datasets/SciYu/HiPhO
排行榜:https://phyarena.github.io/

PhysicsMinions
https://arxiv.org/abs/2509.24855

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
北電?;ê闷粒?身高169cm,體重50kg 美的讓人移不開眼

北電?;ê闷?, 身高169cm,體重50kg 美的讓人移不開眼

喜歡歷史的阿繁
2025-10-27 09:18:12
消失45年的彭加木:一場(chǎng)精心策劃的逃亡?隱藏在羅布泊的離奇秘密

消失45年的彭加木:一場(chǎng)精心策劃的逃亡?隱藏在羅布泊的離奇秘密

顧史
2025-08-13 12:51:12
秘書告知周總理,劉亞樓病危是否去看望,總理:我不會(huì)再去看他了

秘書告知周總理,劉亞樓病危是否去看望,總理:我不會(huì)再去看他了

小豫講故事
2025-10-22 06:00:03
最大包圍!俄軍5個(gè)軍布下天羅地網(wǎng):10個(gè)烏軍旅死磕缺口瘋狂突圍

最大包圍!俄軍5個(gè)軍布下天羅地網(wǎng):10個(gè)烏軍旅死磕缺口瘋狂突圍

聞識(shí)
2025-10-27 16:15:38
新城市志︱中國(guó)科技城,爭(zhēng)當(dāng)文旅優(yōu)等生

新城市志︱中國(guó)科技城,爭(zhēng)當(dāng)文旅優(yōu)等生

澎湃新聞
2025-10-26 17:34:33
工資又回到了3000元時(shí)代

工資又回到了3000元時(shí)代

亞哥談古論今
2025-09-06 17:38:41
傳奇落幕!卡森時(shí)隔18年,兩奪歐冠,利物浦奇跡見證者,全部退役

傳奇落幕!卡森時(shí)隔18年,兩奪歐冠,利物浦奇跡見證者,全部退役

嗨皮看球
2025-10-27 18:27:31
中美吉隆坡磋商硬碰硬!中方代表兩句話:美方強(qiáng)硬,中方堅(jiān)定!

中美吉隆坡磋商硬碰硬!中方代表兩句話:美方強(qiáng)硬,中方堅(jiān)定!

時(shí)時(shí)有聊
2025-10-26 20:18:03
特朗普離開吉隆坡前往東京,對(duì)臺(tái)表態(tài)罕見用“非常危險(xiǎn)”這四個(gè)字

特朗普離開吉隆坡前往東京,對(duì)臺(tái)表態(tài)罕見用“非常危險(xiǎn)”這四個(gè)字

丁丁鯉史紀(jì)
2025-10-27 13:25:47
歐美年甩6200萬噸,45%曾涌入中國(guó),禁令之后洋垃圾都去哪了?

歐美年甩6200萬噸,45%曾涌入中國(guó),禁令之后洋垃圾都去哪了?

寒士之言本尊
2025-10-27 18:30:57
孫志佳中醫(yī):肺有癌,喉先知!喉嚨出現(xiàn)了3個(gè)“異?!本璺伟?!

你的世界滿是愛
2025-10-26 15:38:59

中超最新積分榜:海港60分居首,梅州客家、亞泰陷降級(jí)區(qū)

中超最新積分榜:海港60分居首,梅州客家、亞泰陷降級(jí)區(qū)

懂球帝
2025-10-26 22:25:10
《流浪地球3》沈騰造型曝光,500億票房先生誕生,吳京望塵莫及了

《流浪地球3》沈騰造型曝光,500億票房先生誕生,吳京望塵莫及了

電影票房預(yù)告片
2025-10-24 19:48:10
鄭麗文即將上任!國(guó)民黨:黨務(wù)交接1小時(shí)上手,財(cái)務(wù)已讓新團(tuán)隊(duì)了解

鄭麗文即將上任!國(guó)民黨:黨務(wù)交接1小時(shí)上手,財(cái)務(wù)已讓新團(tuán)隊(duì)了解

海峽導(dǎo)報(bào)社
2025-10-27 17:43:02
阿根廷議會(huì)選舉,米萊大獲全勝

阿根廷議會(huì)選舉,米萊大獲全勝

近距離
2025-10-27 17:06:31
事業(yè)再好有什么用?女兒定居國(guó)外,85歲達(dá)式常妻子離世十年無人陪

事業(yè)再好有什么用?女兒定居國(guó)外,85歲達(dá)式常妻子離世十年無人陪

一針見娛
2025-09-24 17:10:50
日寇是如何對(duì)待荷蘭女人的,花樣百出,相當(dāng)流氓,慘不忍睹!

日寇是如何對(duì)待荷蘭女人的,花樣百出,相當(dāng)流氓,慘不忍睹!

百態(tài)人間
2025-10-27 15:51:05
江蘇這座城市“太矛盾”?明明地處長(zhǎng)江以北,卻總被認(rèn)為是江南?

江蘇這座城市“太矛盾”?明明地處長(zhǎng)江以北,卻總被認(rèn)為是江南?

劉小順
2025-10-27 11:37:39
回顧:張扣扣被執(zhí)行死刑后,父親拒絕領(lǐng)骨灰,回應(yīng):我永遠(yuǎn)都不要

回顧:張扣扣被執(zhí)行死刑后,父親拒絕領(lǐng)骨灰,回應(yīng):我永遠(yuǎn)都不要

博覽歷史
2023-11-19 20:00:03
“電詐之王”陳志發(fā)跡史,攀附權(quán)貴營(yíng)建政商圈,靠“殺豬盤”起家

“電詐之王”陳志發(fā)跡史,攀附權(quán)貴營(yíng)建政商圈,靠“殺豬盤”起家

元芳有看法
2025-10-24 14:24:52
2025-10-27 19:16:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11582文章數(shù) 176314關(guān)注度
往期回顧 全部

科技要聞

中國(guó)人造太陽預(yù)計(jì)2027年竣工

頭條要聞

媒體:2架美軍軍機(jī)相繼墜入南海 評(píng)論區(qū)"真相"了

頭條要聞

媒體:2架美軍軍機(jī)相繼墜入南海 評(píng)論區(qū)"真相"了

體育要聞

虎頭蛇尾的國(guó)家德比,在哨響后迎來高潮

娛樂要聞

“奪女”成功 章子怡成女兒唯一監(jiān)護(hù)人

財(cái)經(jīng)要聞

潘功勝:央行將恢復(fù)公開市場(chǎng)國(guó)債買賣操作

汽車要聞

對(duì)話蘇偉銘:絕地反擊,雷諾的一劑「中國(guó)良方」

態(tài)度原創(chuàng)

教育
家居
數(shù)碼
公開課
軍事航空

教育要聞

分?jǐn)?shù)尷尬?450 分段考生的救命稻草:7 所專科直通國(guó)企!

家居要聞

和式原木 簡(jiǎn)約設(shè)計(jì)美學(xué)

數(shù)碼要聞

芯更強(qiáng) 價(jià)更香 AMD銳龍筆記本大促進(jìn)行中

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

在南海墜毀的美軍機(jī)比F-35還貴 單價(jià)1億美元

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲日韩成人| 国产成人综合久久免费导航| 女人被黑人狂躁c到高潮小说| 少妇人妻无码专区视频| 亚洲AV无码成人精国产麻| 久久香蕉国际| 免费无码肉片在线观看| 成人在线播放| 色视频www在线播放国产人成| 日本深夜福利在线观看| 4388亚洲三区四区| 欧美精品 成人 在线观看| 国产精品久久久久久久久ktv| 人人操人人干人人爱| 色欲密臀精品一区二区三区| 一本无码中文字幕在线观| 西西人体44www高清大胆| 亚洲AV无码国产精品福利| 视频国产精品| AV制服丝袜| 日熟妇一区二区三区| 九九99无码精品视频在线观看| 国产人妻精品无码av在线| 亚洲无码99| 久久久久久亚洲AV无码头包| 亚洲色拍拍噜噜噜最新网站| www.人妻.com| 一二三四五六七八九区片色视频 | 亚洲人妻系列中文字幕| 伊人久久综合狼伊人久久| 一区在线观看一区| 亚洲中文字幕久久精品码| 水蜜桃成视频人在线看| 亚洲国产精品ⅴa在线观看| 2021最新久久久视精品爱| 青青草在线播放观看| 国产精品美女www爽爽爽视频| 久久免费黄a级毛片高清| 久热国产区二三四| 国产午夜无码片在线观看| 丰满岳妇乱一区二区三区|