首個全自動AI科學(xué)家誕生！西湖大學(xué)最新成果，性能超越人類

2025-10-08 19:23:34　來源: 量子位

北京舉報

分享至

DeepScientist團(tuán)隊投稿
量子位 | 公眾號 QbitAI

人類科學(xué)家三年的工作量，如今AI兩周就能輕松搞定！

最近，來自西湖大學(xué)的自然語言處理實驗室發(fā)布了DeepScientist系統(tǒng)，這也是首個具有完整科研能力，且在無人工干預(yù)下，展現(xiàn)出目標(biāo)導(dǎo)向、持續(xù)迭代、漸進(jìn)式超越人類研究者最先進(jìn)研究成果的AI科學(xué)家系統(tǒng)。

△對比DeepScientist與人類專家的研究進(jìn)展

在AI文本檢測任務(wù)中，DeepScientist僅用兩周時間就實施和驗證了超過1000種不同的假設(shè)，在此期間取得了相當(dāng)于人類三年的進(jìn)展。

在RAID數(shù)據(jù)集測試中，DeepScientist設(shè)計的方法實現(xiàn)了7.9%的AUROC提升，成功超越了人類現(xiàn)有SOTA方案。

另外DeepScientist還在智能體失敗歸因、LLM推理加速等任務(wù)上也分別達(dá)成了新的SOTA。

下面是更多詳細(xì)內(nèi)容介紹。

從“科研助理”到“首席科學(xué)家”：AI科研模式的變革

過去的AI Scientist系統(tǒng)，如果不給定一個清晰明了的科研目標(biāo)，就很容易陷入對現(xiàn)有知識的機(jī)械組合與無效試探的窠臼中，最終形成的科研產(chǎn)出在人類專家看來缺乏焦點，科學(xué)價值不高。

它們更像是能力超群的科研助理，而不是能獨立指引方向的科學(xué)家。

DeepScientist的出現(xiàn)改變了這一現(xiàn)狀，它不再等待人類告訴它“研究什么”，而是開始主動思考“什么值得研究”，它可以：

主動識別前沿研究的根本性局限，
提出全新的科學(xué)構(gòu)想以解決局限性問題，
自動編寫代碼、執(zhí)行實驗、設(shè)計分析實驗，整理實驗結(jié)果，
撰寫結(jié)構(gòu)完整的科研論文，開源可重現(xiàn)代碼。

簡而言之，這種從“隨機(jī)發(fā)現(xiàn)”到“長期主動式探索”的角色轉(zhuǎn)變，標(biāo)志著AI已經(jīng)正式涉足以往只有頂尖人類心智才能勝任的、最具創(chuàng)造性的科學(xué)發(fā)現(xiàn)過程。

DeepScientist的核心機(jī)制

DeepScientist的核心目標(biāo)是在一個給定的總研究預(yù)算內(nèi)，最大化有價值的科學(xué)發(fā)現(xiàn)（Progress Findings）。

它首先將混亂、依賴靈感的科學(xué)發(fā)現(xiàn)過程形式化為一個嚴(yán)謹(jǐn)、目標(biāo)驅(qū)動的分層貝葉斯優(yōu)化問題，其目標(biāo)是從所有可能的候選研究空間中，找到一個最優(yōu)方法，使一個未知且評估成本極高的真實科學(xué)價值函數(shù)最大化。

△DeepScientist的自主科學(xué)發(fā)現(xiàn)閉環(huán)流程圖

具體而言，DeepScientist基于多智能體協(xié)同策略，圍繞一個三層級的評估循環(huán)推進(jìn)。

每個層級代表了對一個科研想法（Finding）進(jìn)行驗證的不同保真度（Fidelity）和成本（Cost），系統(tǒng)在每一輪迭代中，都基于其不斷增長的“經(jīng)驗庫（Findings Memory）”產(chǎn)出新假設(shè)和做出資源分配決策。

高層級（即具有高保真度）的信息，其價值是以前一層級（低保真度）的信息為條件的，而一個想法能否在最終的高保真度評估中成功，依賴于它在低保真度實驗中的表現(xiàn)。

在每一個層級中，只有展現(xiàn)出價值的科研產(chǎn)物才會被送入下一層級以提供更多資源用來進(jìn)一步探索，否則被存儲到“Findings Memory”中用于給后續(xù)的探索提供信息。

這種分層方法，確保了計算資源能夠被精準(zhǔn)地、動態(tài)地分配給在當(dāng)前認(rèn)知下最具潛力的研究方向，從而在有限的預(yù)算內(nèi)最大化科學(xué)發(fā)現(xiàn)的效率。

AI兩周完成三年科研進(jìn)展，全面超越人類專家

為驗證DeepScientist的研究能力，研究人員將DeepScientist應(yīng)用在三個當(dāng)前AI研究的最前沿領(lǐng)域：智能體失敗歸因、LLM推理加速與AI文本檢測。

這些任務(wù)無一例外都競爭激烈、備受社區(qū)關(guān)注，且技術(shù)基準(zhǔn)極高，其挑戰(zhàn)的人類研究成果均為近期在ICLR、ICML和ACL等頂級會議上發(fā)布的最新SOTA方法。

△三個研究任務(wù)選取的SOTA方法

其中，在AI文本檢測任務(wù)里，DeepScientist在無人干預(yù)的情況下，僅用兩周時間，就自主完成了相當(dāng)于人類科學(xué)家三年的進(jìn)展。

在此期間，DeepScientist自主生成了2472個獨特的研究想法，并對其中600個具有科學(xué)價值的假設(shè)進(jìn)行了代碼實現(xiàn)和實驗驗證。

最終，DeepScientist在RAID數(shù)據(jù)集上取得了7.9%的AUROC提升，同時將推理延遲降低了190%，展示出超越現(xiàn)有人類SOTA的卓越性能。

DeepScientist的突破性進(jìn)展并不僅限于AI文本檢測領(lǐng)域，它在多個不同的前沿任務(wù)上都展示了超越人類專家的科學(xué)發(fā)現(xiàn)能力，其中一個典型的例子是在“智能體失敗歸因”這一高度復(fù)雜的任務(wù)上。

△DeepScientist在多任務(wù)中超越人工最優(yōu)方法

面對現(xiàn)有方法難以進(jìn)行有效因果推理的困境，DeepScientist自主構(gòu)想并提出了名為A2P（Abduction-Action-Prediction）的全新方法，其核心創(chuàng)新在于將失敗歸因從簡單的模式識別提升到了結(jié)構(gòu)化的因果推理層面。

最終，該方法在Who&When基準(zhǔn)測試的“算法生成”任務(wù)中取得了47.46分，性能相較于人類專家的SoTA基線大幅提升了183.7%。

上述成就充分證明了DeepScientist不僅能實現(xiàn)單點突破，更能創(chuàng)造出具有持續(xù)影響力的科學(xué)成果，其泛化能力和系統(tǒng)性創(chuàng)新能力足以在多個前沿領(lǐng)域穩(wěn)定地推動技術(shù)邊界。

此外，在自動化科學(xué)發(fā)現(xiàn)領(lǐng)域，實驗的成功率常常不足1%。這個數(shù)字雖然殘酷，卻真實地反映了科學(xué)探索的高度不確定性。

△DeepScientist的研究統(tǒng)計結(jié)果

不同于依賴大規(guī)模隨機(jī)試錯的方法，DeepScientist通過形式化的分層貝葉斯優(yōu)化機(jī)制，在“利用已有成果”與“探索未知可能性”之間靈活平衡，能夠在龐大的假設(shè)空間中智能篩選出最具潛力的研究方向。

在探索過程中，DeepScientist不僅能高效執(zhí)行大規(guī)模實驗，還會把成功與失敗的結(jié)果都視作寶貴經(jīng)驗，用來指導(dǎo)后續(xù)的決策。

這種記憶驅(qū)動、目標(biāo)導(dǎo)向的迭代流程，使其能夠自主運行數(shù)月之久，在浩瀚的可能性空間中持續(xù)尋找突破口，不斷推動科學(xué)發(fā)現(xiàn)的進(jìn)程。

換句話說，如果沒有精細(xì)化的策略與結(jié)構(gòu)化的反饋機(jī)制，這類探索幾乎不可能取得成果，而 DeepScientist 的設(shè)計恰恰保證了，即便面對極低的成功率，它也能在閉環(huán)學(xué)習(xí)中穩(wěn)步積累成果，展現(xiàn)出遠(yuǎn)超暴力搜索系統(tǒng)的持續(xù)進(jìn)化能力與科學(xué)發(fā)現(xiàn)潛力。

“科學(xué)發(fā)現(xiàn)縮放定律”？用算力驅(qū)動創(chuàng)新

在分析實驗中，如下圖所示，研究團(tuán)隊發(fā)現(xiàn)：當(dāng)并行 GPU 資源從1枚擴(kuò)展到16枚時， DeepScientist每周產(chǎn)出的前沿級科學(xué)發(fā)現(xiàn)數(shù)量從0項躍升至11項，幾乎呈現(xiàn)出理想的線性增長。

這意味著，科學(xué)突破不再只是依賴少數(shù)靈光一現(xiàn)，而是可以像訓(xùn)練大模型一樣，通過系統(tǒng)化地增加計算資源來“規(guī)?；a(chǎn)”。

這種趨勢正在推動科研范式的轉(zhuǎn)變：從過去依靠“人力密集型”投入，逐步走向“計算密集型”驅(qū)動，為解決人類面臨的重大科學(xué)挑戰(zhàn)，開辟了一條全新且可加速的路徑。

未來展望：開啟人機(jī)協(xié)同的科研新范式

DeepScientist 的成功并不意味著AI將取代科學(xué)家，而是預(yù)示著一個全新的人機(jī)協(xié)同科研范式的到來。

在這個范式中，人類研究者的角色將從繁重的試錯和實驗中解放出來，專注于提出真正有價值的科學(xué)問題、設(shè)定具有前瞻性的研究方向，并進(jìn)行最終的綜合與判斷。

而 AI，將作為一臺不知疲倦、并行擴(kuò)展的“科學(xué)探索引擎”，在人類智慧的引領(lǐng)下，以前所未有的速度和廣度持續(xù)探索科學(xué)的無人區(qū)。

為了推動這一范式的到來，研究團(tuán)隊將開源DeepScientist的核心系統(tǒng)與全部實驗日志，希望通過開放共享的方式，激發(fā)全球科研社區(qū)的創(chuàng)新力量，共同加速 AI Scientis的發(fā)展，迎接從基礎(chǔ)物理到新藥研發(fā)等人類重大挑戰(zhàn)的突破時刻。

西湖大學(xué)自然語言處理實驗室期待與更多研究團(tuán)隊攜手促進(jìn)自動化科學(xué)發(fā)現(xiàn)的進(jìn)步。

團(tuán)隊現(xiàn)已開放了免費的DeepScientist服務(wù)申請，希望與科研社區(qū)共同建設(shè)一個更加高效的科學(xué)發(fā)現(xiàn)新范式，使其能夠真正加速人類科學(xué)發(fā)現(xiàn)的歷程。

同時也歡迎感興趣的研究者與研究團(tuán)隊聯(lián)系，加入這場科研新旅程！

西湖大學(xué)自然語言處理實驗室（WestlakeNLP）成立于2018年9月，由張岳教授領(lǐng)導(dǎo)。

張岳教授畢業(yè)于牛津大學(xué)，獲博士學(xué)位，現(xiàn)任西湖大學(xué)工程學(xué)院副院長，著有劍橋大學(xué)出版社出版的《自然語言處理》一書，并擔(dān)任過EMNLP 2022等多個頂級NLP會議的程序委員會主席。

該實驗室目前專注于語言模型推理、泛化和通用人工智能以及自然語言處理的基礎(chǔ)與應(yīng)用研究，探索通用人工智能的實現(xiàn)路徑，推動 AI Scientist（AI科學(xué)家）的發(fā)展，使其能夠真正參與并加速科學(xué)發(fā)現(xiàn)，促進(jìn)人類科學(xué)的持續(xù)進(jìn)步。

圍繞這一愿景，WestlakeNLP近期也系統(tǒng)地撰寫了AI Scientist方向的觀點文章與綜述論文，希望為該領(lǐng)域的發(fā)展提供更加全面的思考與參考。

在線網(wǎng)址：

https://ai-researcher.net

開源倉庫：

https://github.com/ResearAI/DeepScientist

DeepScientist申請鏈接：

https://forms.gle/U9W3jfdGnKpGbScNA

實驗室聯(lián)系方式：

https://westlakenlp.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.