夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

西湖大學(xué)開(kāi)發(fā)AI科學(xué)家,實(shí)現(xiàn)全自動(dòng)科學(xué)發(fā)現(xiàn),兩周搞定人類(lèi)科學(xué)家三年工作

0
分享至


撰文丨王聰

編輯丨王多魚(yú)

排版丨水成文

科學(xué)發(fā)現(xiàn)本質(zhì)上是一個(gè)持續(xù)探索反復(fù)試驗(yàn)的過(guò)程,人類(lèi)科學(xué)家通常需要投入大量時(shí)間和精力,才能推動(dòng)人類(lèi)知識(shí)邊界向前邁進(jìn)一小步。從半導(dǎo)體制造到光伏電池效率提升,歷史上的技術(shù)發(fā)展軌跡都表明,人類(lèi)科學(xué)家需要數(shù)十年目標(biāo)導(dǎo)向的迭代工作才能不斷推動(dòng)技術(shù)進(jìn)步。

近年來(lái),大語(yǔ)言模型(LLM)的出現(xiàn)推動(dòng)了自動(dòng)化科學(xué)發(fā)現(xiàn)的發(fā)展?;?LLM 的AI 科學(xué)家(AI Scientist)系統(tǒng)在探索中處于領(lǐng)先地位,憑借強(qiáng)大的長(zhǎng)篇文本生成能力和理解能力,LLM 實(shí)現(xiàn)了科學(xué)發(fā)現(xiàn)的端到端、全周期自動(dòng)化。

然而,在缺乏明確科學(xué)目標(biāo)的情況下,當(dāng)前的 AI 科學(xué)家系統(tǒng)往往陷入盲目重組現(xiàn)有知識(shí)和方法的陷阱。因此,AI 科學(xué)家作出的研究成果,在人類(lèi)科學(xué)家看來(lái),仍然很幼稚,往往缺乏真正的科學(xué)價(jià)值。

而現(xiàn)在,人類(lèi)科學(xué)家三年累計(jì)取得的進(jìn)展,一個(gè)AI 科學(xué)家竟然短短兩周搞定!

這不是科幻小說(shuō),而是來(lái)自西湖大學(xué)工學(xué)院張?jiān)?/strong>教授團(tuán)隊(duì)(翁詣軒、朱敏郡為共同第一作者)開(kāi)發(fā)的一款AI 科學(xué)家系統(tǒng)——DeepScientist。該論文以:DeepScientist: Advancing Frontier-Pushing Scientific Findings Progressively 為題,發(fā)表在了預(yù)印本平臺(tái)arXiv上。

DeepScientist具備了完整的科研能力,無(wú)需人類(lèi)干預(yù),展現(xiàn)出了目標(biāo)驅(qū)動(dòng)、持續(xù)迭代的科學(xué)發(fā)現(xiàn)能力,成功克服了傳統(tǒng)研究的局限,成為首個(gè)大規(guī)模實(shí)證研究證明的能夠在前沿科學(xué)任務(wù)上漸進(jìn)式超越人類(lèi)科學(xué)家最先進(jìn)水平(SOTA)的 AI 科學(xué)家系統(tǒng)。


這標(biāo)志著人工智能(AI)從人類(lèi)的科研助手向著成為人類(lèi)真正的科研合作伙伴邁出了至關(guān)重要的一步。



DeepScientist 如何工作?


DeepScientist將科學(xué)發(fā)現(xiàn)的全周期建模為一個(gè)目標(biāo)驅(qū)動(dòng)的貝葉斯優(yōu)化問(wèn)題,其唯一目標(biāo)是找到能夠最大化目標(biāo)性能指標(biāo)的新方法。系統(tǒng)采用迭代工作流程和持續(xù)擴(kuò)展的先驗(yàn)研究知識(shí)記憶庫(kù),智能平衡探索未知可能性利用已有成果。

其核心創(chuàng)新在于三階段探索循環(huán):

策略與假設(shè):系統(tǒng)分析記憶庫(kù)中的數(shù)千條結(jié)構(gòu)化記錄,識(shí)別現(xiàn)有知識(shí)的局限性,生成新的假設(shè)集合,并由低成本替代模型(LLM 評(píng)審員)進(jìn)行評(píng)估。

實(shí)施與驗(yàn)證:這是記憶庫(kù)中的主要過(guò)濾階段,系統(tǒng)使用獲取函數(shù)(acquisition function)選擇最有希望的記錄進(jìn)行真實(shí)世界實(shí)驗(yàn)驗(yàn)證,編碼智能體在沙盒環(huán)境中執(zhí)行存儲(chǔ)庫(kù)級(jí)別的實(shí)現(xiàn)。

分析與報(bào)告:當(dāng)“實(shí)施發(fā)現(xiàn)”成功超越基線時(shí),其記錄被提升為“進(jìn)展發(fā)現(xiàn)”,系統(tǒng)自主設(shè)計(jì)并執(zhí)行一系列更深層次的分析實(shí)驗(yàn),最后將所有實(shí)驗(yàn)結(jié)果和分析見(jiàn)解整合成可重現(xiàn)的研究論文。

三個(gè)前沿科學(xué)領(lǐng)域的突破性表現(xiàn)

研究團(tuán)隊(duì)選擇了三個(gè)不同前沿科學(xué)任務(wù)的最先進(jìn)方法(發(fā)表于 2024 和 2025 年)作為起點(diǎn),這些方法因其前沿地位、社區(qū)興趣和人類(lèi)可監(jiān)督性而被選中。


DeepScientist:自主超越 SOTA 的發(fā)現(xiàn)

智能體失敗歸因:任務(wù)解決的是“在基于 LLM 的多智能體系統(tǒng)中,哪個(gè)智能體導(dǎo)致任務(wù)失敗以及何時(shí)失???”的問(wèn)題。DeepScientist 從基線方法出發(fā),最終提出了A2P方法(Abduction-Action-Prediction 過(guò)程),其核心創(chuàng)新將故障歸因從模式識(shí)別提升到因果推理,性能大幅提升了183.7%。

LLM 推理加速:這是一個(gè)高度優(yōu)化的領(lǐng)域,旨在最大化 LLM 推理的吞吐量和減少延遲,系統(tǒng)生成的 ACRA 方法最終將 MPBB 數(shù)據(jù)集上的人類(lèi) SOTA 從 190.25 推進(jìn)到了 193.90 tokens/秒,提高了1.9%。

AI 文本檢測(cè):這是一個(gè)二進(jìn)制分類(lèi)任務(wù),給定可能包含 LLM 生成內(nèi)容的文本,目標(biāo)是確定它是由人類(lèi)還是 LLM 產(chǎn)生的。DeepScientist 在短短兩周內(nèi)產(chǎn)生了三種不同的、逐步優(yōu)越的方法(T-Detect、TDT和PA-Detect),建立了新的 SOTA,AUROC 提高了7.9%,同時(shí)推理速度翻倍。這相當(dāng)于人類(lèi)科學(xué)家三年累計(jì)的成果。


DeepScientist 兩周=人類(lèi)科學(xué)家三年


DeepScientist 在多任務(wù)中超越人類(lèi) SOTA

生成論文的質(zhì)量如何?

為了評(píng)估最終輸出的質(zhì)量,研究團(tuán)隊(duì)對(duì)DeepScientist端到端過(guò)程自主生成的五篇研究論文進(jìn)行了評(píng)估。

使用DeepReviewer(一個(gè)模擬人類(lèi)同行評(píng)議過(guò)程的 AI 智能體)進(jìn)行的自動(dòng)化評(píng)估,結(jié)果顯示,DeepScientist 是唯一一個(gè)生成論文的接受率達(dá)到 60% 的 AI 科學(xué)家系統(tǒng)。

人類(lèi)專家的評(píng)估更加令人印象深刻:三位活躍的 LLM 研究人員組成的程序委員會(huì)一致認(rèn)為,DeepScientist 在構(gòu)思階段表現(xiàn)卓越——這是人類(lèi)主導(dǎo)研究中最具挑戰(zhàn)性和往往限制進(jìn)度的步驟。系統(tǒng)的平均評(píng)分(5.00)與所有 ICLR 2025 提交論文的平均分(5.08)非常接近,其中兩篇論文甚至顯著超過(guò)了這一水平,達(dá)到了 5.67 分。


在生成論文方面,DeepScientist 碾壓其他 AI 科學(xué)家


人類(lèi)專家對(duì) DeepScientist 生成的論文進(jìn)行評(píng)估

探索過(guò)程中的寶貴洞察

對(duì) DeepScientist 實(shí)驗(yàn)日志的分析,揭示了其在自主科學(xué)發(fā)現(xiàn)中固有的試錯(cuò)過(guò)程的巨大規(guī)模。即使在相對(duì)快速執(zhí)行的領(lǐng)域,取得進(jìn)展也需要每個(gè)任務(wù)進(jìn)行數(shù)百次試驗(yàn)。

自主研究過(guò)程的特點(diǎn)是一個(gè)巨大的探索漏斗,其中有希望的想法異常罕見(jiàn)。 在這三個(gè)前沿科學(xué)任務(wù)中,DeepScientist 產(chǎn)生了超過(guò) 5000 個(gè)獨(dú)特想法,但只有約 1100 個(gè)被系統(tǒng)選擇機(jī)制認(rèn)為值得實(shí)驗(yàn)驗(yàn)證,僅有 21 個(gè)最終帶來(lái)科學(xué)進(jìn)展。放棄研究表明選擇過(guò)程的關(guān)鍵性:如果沒(méi)有它,隨機(jī)抽樣 100 個(gè)想法進(jìn)行測(cè)試的成功率實(shí)際上為 0。而采用選擇策略后,成功率提高到約 1-3%,表明智能過(guò)濾至關(guān)重要。

縮放定律的啟示

為了研究計(jì)算規(guī)模與科學(xué)進(jìn)展速率之間的關(guān)系,研究團(tuán)隊(duì)評(píng)估了DeepScientist在固定一周時(shí)間內(nèi)產(chǎn)生的“進(jìn)展發(fā)現(xiàn)”數(shù)量與可用并行資源的關(guān)系。

結(jié)果顯示了一個(gè)有希望的縮放趨勢(shì):雖然最少的資源沒(méi)有產(chǎn)生突破,但隨著擴(kuò)展到 4 個(gè) GPU 及以上,發(fā)現(xiàn)率開(kāi)始有效增加,從 4 個(gè) GPU 時(shí)的 1 個(gè) SOTA 超越發(fā)現(xiàn),增加到 16 個(gè) GPU 時(shí)的 11 個(gè)。這似乎在分配的資源與有價(jià)值科學(xué)發(fā)現(xiàn)之間建立了近乎線性的關(guān)系。


一周內(nèi),DeepScientist 在所有任務(wù)中發(fā)現(xiàn)超越 SOTA 的“進(jìn)展發(fā)現(xiàn)”數(shù)量與 GPU 數(shù)量之間的關(guān)系

這也意味著,對(duì)于AI 科學(xué)家而言,科學(xué)突破不再只是天才科學(xué)家的靈光一閃,而是可以像訓(xùn)練大模型一樣,通過(guò)系統(tǒng)化地增加計(jì)算資源來(lái)“規(guī)?;a(chǎn)”。

未來(lái)展望

DeepScientist的結(jié)果提出了科學(xué)探索的新范式,其 1-5% 的進(jìn)展率反映了前沿研究的現(xiàn)實(shí)——突破本身就很罕見(jiàn)。其核心優(yōu)勢(shì)不是絕對(duì)正確,而是以以前難以想象的規(guī)模和速度進(jìn)行這種試錯(cuò)過(guò)程,將人類(lèi)多年的探索壓縮到幾周內(nèi)。

這項(xiàng)研究提供了第一個(gè)大規(guī)模實(shí)驗(yàn)驗(yàn)證證據(jù),表明自主 AI 科學(xué)家具有在現(xiàn)代科學(xué)前沿探索中實(shí)現(xiàn)逐步超越人類(lèi) SOTA 的能力。DeepScientist 作為一個(gè)目標(biāo)導(dǎo)向的系統(tǒng),實(shí)現(xiàn)了從構(gòu)思到真實(shí)進(jìn)展的端到端自主,通過(guò)綜合人類(lèi)知識(shí)和自身試驗(yàn)發(fā)現(xiàn)來(lái)學(xué)習(xí)。

DeepScientist可能標(biāo)志著 AI 研究的基礎(chǔ)性轉(zhuǎn)變,預(yù)示著一個(gè)科學(xué)發(fā)現(xiàn)速度不再完全由人類(lèi)思維節(jié)奏決定的新時(shí)代——在這個(gè)時(shí)代,AI 不再只是人類(lèi)的科研助手,而是成為了能夠自主推動(dòng)科學(xué)前沿的合作伙伴。

AI 科學(xué)家交流群

論文鏈接

https://doi.org/10.48550/arXiv.2509.26603

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
庫(kù)克來(lái)中國(guó),想解決兩個(gè)問(wèn)題

庫(kù)克來(lái)中國(guó),想解決兩個(gè)問(wèn)題

財(cái)經(jīng)AI湃
2025-10-14 14:14:57
1950年代,臺(tái)灣地下黨為何會(huì)全軍覆沒(méi)?是時(shí)候告訴大家真相了!

1950年代,臺(tái)灣地下黨為何會(huì)全軍覆沒(méi)?是時(shí)候告訴大家真相了!

小松歷史菌
2025-10-13 18:50:48
公安部下達(dá)買(mǎi)車(chē)“鐵令”,百姓高興壞了!4S店哀嚎:這還咋賺錢(qián)?

公安部下達(dá)買(mǎi)車(chē)“鐵令”,百姓高興壞了!4S店哀嚎:這還咋賺錢(qián)?

亞哥談古論今
2025-10-13 19:21:10
美國(guó)突然冒出新品牌1:1復(fù)刻大疆!硬件相同售價(jià)更低:還不受關(guān)稅影響

美國(guó)突然冒出新品牌1:1復(fù)刻大疆!硬件相同售價(jià)更低:還不受關(guān)稅影響

快科技
2025-10-14 16:25:10
崔麗麗真的火了??!網(wǎng)上已經(jīng)出現(xiàn)模仿者了,網(wǎng)友:我們要保護(hù)她…

崔麗麗真的火了?。【W(wǎng)上已經(jīng)出現(xiàn)模仿者了,網(wǎng)友:我們要保護(hù)她…

火山詩(shī)話
2025-10-16 19:02:37
北約秘書(shū)長(zhǎng)發(fā)表“侮辱”俄飛行員和艦長(zhǎng)言論,克宮發(fā)聲

北約秘書(shū)長(zhǎng)發(fā)表“侮辱”俄飛行員和艦長(zhǎng)言論,克宮發(fā)聲

環(huán)球網(wǎng)資訊
2025-10-16 19:06:45
蔚來(lái)被指控虛增收入,港股單日暴跌9%,美股盤(pán)前跌超5%

蔚來(lái)被指控虛增收入,港股單日暴跌9%,美股盤(pán)前跌超5%

PChome電腦之家
2025-10-16 16:57:25
鄭麗文個(gè)人簡(jiǎn)介介紹!她的祖籍是哪里?

鄭麗文個(gè)人簡(jiǎn)介介紹!她的祖籍是哪里?

閱識(shí)
2025-10-13 15:59:07
他是著名演員,從發(fā)病到去世僅20分鐘,臨終前也沒(méi)聽(tīng)到兒子喊聲爸

他是著名演員,從發(fā)病到去世僅20分鐘,臨終前也沒(méi)聽(tīng)到兒子喊聲爸

妙知
2025-10-16 15:23:26
烏克蘭24小時(shí)清理紅軍村5平方公里的俄軍!收復(fù)蘇梅失地

烏克蘭24小時(shí)清理紅軍村5平方公里的俄軍!收復(fù)蘇梅失地

項(xiàng)鵬飛
2025-10-15 17:55:40
上海黃金交易所,緊急提醒

上海黃金交易所,緊急提醒

南方都市報(bào)
2025-10-16 15:44:19
張召忠:錯(cuò)過(guò)統(tǒng)一的最好時(shí)機(jī),該出手時(shí)沒(méi)出手,聽(tīng)完恍然大悟

張召忠:錯(cuò)過(guò)統(tǒng)一的最好時(shí)機(jī),該出手時(shí)沒(méi)出手,聽(tīng)完恍然大悟

書(shū)中自有顏如玉
2025-10-16 14:43:40
170cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒(méi)X生活的我哭了…

170cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒(méi)X生活的我哭了…

健身迷
2025-09-20 09:22:20
剛剛,巨頭宣布!裁員16000人

剛剛,巨頭宣布!裁員16000人

中國(guó)基金報(bào)
2025-10-16 15:28:30
直接裁掉!10分鐘賺3億!蔡老板懶得做樣子,曾凡博不想回來(lái)

直接裁掉!10分鐘賺3億!蔡老板懶得做樣子,曾凡博不想回來(lái)

夢(mèng)在深巷qw
2025-10-16 08:53:03
51歲何炅突然自曝:我現(xiàn)在特別痛苦

51歲何炅突然自曝:我現(xiàn)在特別痛苦

魯中晨報(bào)
2025-10-16 07:04:03
冷空氣南下!廣東最低12℃!臺(tái)風(fēng)“風(fēng)神”或生成!

冷空氣南下!廣東最低12℃!臺(tái)風(fēng)“風(fēng)神”或生成!

ilove汕頭
2025-10-16 17:05:45
16歲女孩治療12天后去世,官方回應(yīng)

16歲女孩治療12天后去世,官方回應(yīng)

中國(guó)新聞周刊
2025-10-16 18:18:10
特朗普再次出手!不許中國(guó)參加會(huì)議,要把柬泰?;鸬墓跀埖阶陨?>
    </a>
        <h3>
      <a href=井普椿的獨(dú)白
2025-10-16 18:28:18
吳石將軍擔(dān)任的“參謀次長(zhǎng)”,級(jí)別到底有多高?說(shuō)明白嚇你一跳!

吳石將軍擔(dān)任的“參謀次長(zhǎng)”,級(jí)別到底有多高?說(shuō)明白嚇你一跳!

老謝談史
2025-10-11 14:30:04
2025-10-16 19:51:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學(xué)研究
8225文章數(shù) 144863關(guān)注度
往期回顧 全部

科技要聞

許四清:AI投資押注 “奧林匹克級(jí)” 團(tuán)隊(duì)

頭條要聞

涉嫌嚴(yán)重違紀(jì)違法 4名將領(lǐng)被罷免人大代表原因披露

頭條要聞

涉嫌嚴(yán)重違紀(jì)違法 4名將領(lǐng)被罷免人大代表原因披露

體育要聞

人口5.5萬(wàn),他們還在延續(xù)世界杯的夢(mèng)想

娛樂(lè)要聞

還清債務(wù)的劉濤 已走上了另一條大道

財(cái)經(jīng)要聞

愛(ài)爾眼科等眼科醫(yī)院慈善資金回流疑云

汽車(chē)要聞

對(duì)話郝飛:智能座艙新物種 斑馬為端芯片帶來(lái)的新機(jī)遇

態(tài)度原創(chuàng)

本地
數(shù)碼
游戲
健康
藝術(shù)

本地新聞

考上警犬專業(yè),我和修勾一起卷編制

數(shù)碼要聞

M5芯片全新iPad Pro發(fā)布:8999元起 性能再提升

《LOL》S15:AL戰(zhàn)勝GEN!LCK一號(hào)種子落??!

內(nèi)分泌科專家破解身高八大謠言

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 97超碰英美| 中文字幕丝袜精品久久| 人人操人人妻人人操| 成人伦精品一区二区三区午午影视 | 五月天操逼网站| 麻花传剧mv在线看星空| 国产片AV在线播放| 少妇人妻一级A毛片| 成AV人片一区二区三区久久 | www.无码专区| 九九热国产精品1| 国产一区二区三区在线看| 蜜臀aⅴ在线| 日日干夜夜躁| 在线国产精品中文字幕| 国产对白老熟女正在播放| 99国产精品| 国产精品久久久久久无码五月| 人妻斩无码一区| 三级理论中文字幕在线播放| 国产在线视精品在一区二区| 99久在线国内在线播放免费观看| 国产精品一亚洲AV日韩AV欧| 亚洲成人在线xxx| 晓晓放个a级毛片看看| 蜜臀在线观看| 久久成人国产精品免费软件| 国产精品视频无码| 婷婷丁香五月综合| 久久亚洲AⅤ无码精品午夜麻豆| 久污免费看污网站| 国产一区二区不卡91| 久久无码精品人妻一区| 中文字幕av无码免费一区| 亚洲天堂在线播放| 久久人人爽人人双人av| 久久人人爽人人爽人人片av不| 亚洲第一人伊伊人色综合| 蜜臀av麻豆av无码天美av | 国产精品婷婷| 亚洲图片自拍偷图区|