DeepScientist團(tuán)隊 投稿
量子位 | 公眾號 QbitAI
人類科學(xué)家三年的工作量,如今AI兩周就能輕松搞定!
最近,來自西湖大學(xué)的自然語言處理實驗室發(fā)布了DeepScientist系統(tǒng),這也是首個具有完整科研能力,且在無人工干預(yù)下,展現(xiàn)出目標(biāo)導(dǎo)向、持續(xù)迭代、漸進(jìn)式超越人類研究者最先進(jìn)研究成果的AI科學(xué)家系統(tǒng)。
△對比DeepScientist與人類專家的研究進(jìn)展
在AI文本檢測任務(wù)中,DeepScientist僅用兩周時間就實施和驗證了超過1000種不同的假設(shè),在此期間取得了相當(dāng)于人類三年的進(jìn)展。
在RAID數(shù)據(jù)集測試中,DeepScientist設(shè)計的方法實現(xiàn)了7.9%的AUROC提升,成功超越了人類現(xiàn)有SOTA方案。
另外DeepScientist還在智能體失敗歸因、LLM推理加速等任務(wù)上也分別達(dá)成了新的SOTA。
下面是更多詳細(xì)內(nèi)容介紹。
從“科研助理”到“首席科學(xué)家”:AI科研模式的變革
過去的AI Scientist系統(tǒng),如果不給定一個清晰明了的科研目標(biāo),就很容易陷入對現(xiàn)有知識的機(jī)械組合與無效試探的窠臼中,最終形成的科研產(chǎn)出在人類專家看來缺乏焦點,科學(xué)價值不高。
它們更像是能力超群的科研助理,而不是能獨立指引方向的科學(xué)家。
DeepScientist的出現(xiàn)改變了這一現(xiàn)狀,它不再等待人類告訴它“研究什么”,而是開始主動思考“什么值得研究”,它可以:
- 主動識別前沿研究的根本性局限,
- 提出全新的科學(xué)構(gòu)想以解決局限性問題,
- 自動編寫代碼、執(zhí)行實驗、設(shè)計分析實驗,整理實驗結(jié)果,
- 撰寫結(jié)構(gòu)完整的科研論文,開源可重現(xiàn)代碼。
簡而言之,這種從“隨機(jī)發(fā)現(xiàn)”到“長期主動式探索”的角色轉(zhuǎn)變,標(biāo)志著AI已經(jīng)正式涉足以往只有頂尖人類心智才能勝任的、最具創(chuàng)造性的科學(xué)發(fā)現(xiàn)過程。
DeepScientist的核心機(jī)制
DeepScientist的核心目標(biāo)是在一個給定的總研究預(yù)算內(nèi),最大化有價值的科學(xué)發(fā)現(xiàn)(Progress Findings)。
它首先將混亂、依賴靈感的科學(xué)發(fā)現(xiàn)過程形式化為一個嚴(yán)謹(jǐn)、目標(biāo)驅(qū)動的分層貝葉斯優(yōu)化問題,其目標(biāo)是從所有可能的候選研究空間中,找到一個最優(yōu)方法,使一個未知且評估成本極高的真實科學(xué)價值函數(shù)最大化。
△DeepScientist的自主科學(xué)發(fā)現(xiàn)閉環(huán)流程圖
具體而言,DeepScientist基于多智能體協(xié)同策略,圍繞一個三層級的評估循環(huán)推進(jìn)。
每個層級代表了對一個科研想法(Finding)進(jìn)行驗證的不同保真度(Fidelity)和成本(Cost),系統(tǒng)在每一輪迭代中,都基于其不斷增長的“經(jīng)驗庫(Findings Memory)”產(chǎn)出新假設(shè)和做出資源分配決策。
高層級(即具有高保真度)的信息,其價值是以前一層級(低保真度)的信息為條件的,而一個想法能否在最終的高保真度評估中成功,依賴于它在低保真度實驗中的表現(xiàn)。
在每一個層級中,只有展現(xiàn)出價值的科研產(chǎn)物才會被送入下一層級以提供更多資源用來進(jìn)一步探索,否則被存儲到“Findings Memory”中用于給后續(xù)的探索提供信息。
這種分層方法,確保了計算資源能夠被精準(zhǔn)地、動態(tài)地分配給在當(dāng)前認(rèn)知下最具潛力的研究方向,從而在有限的預(yù)算內(nèi)最大化科學(xué)發(fā)現(xiàn)的效率。
AI兩周完成三年科研進(jìn)展,全面超越人類專家
為驗證DeepScientist的研究能力,研究人員將DeepScientist應(yīng)用在三個當(dāng)前AI研究的最前沿領(lǐng)域:智能體失敗歸因、LLM推理加速與AI文本檢測。
這些任務(wù)無一例外都競爭激烈、備受社區(qū)關(guān)注,且技術(shù)基準(zhǔn)極高,其挑戰(zhàn)的人類研究成果均為近期在ICLR、ICML和ACL等頂級會議上發(fā)布的最新SOTA方法。
△三個研究任務(wù)選取的SOTA方法
其中,在AI文本檢測任務(wù)里,DeepScientist在無人干預(yù)的情況下,僅用兩周時間,就自主完成了相當(dāng)于人類科學(xué)家三年的進(jìn)展。
在此期間,DeepScientist自主生成了2472個獨特的研究想法,并對其中600個具有科學(xué)價值的假設(shè)進(jìn)行了代碼實現(xiàn)和實驗驗證。
最終,DeepScientist在RAID數(shù)據(jù)集上取得了7.9%的AUROC提升,同時將推理延遲降低了190%,展示出超越現(xiàn)有人類SOTA的卓越性能。
DeepScientist的突破性進(jìn)展并不僅限于AI文本檢測領(lǐng)域,它在多個不同的前沿任務(wù)上都展示了超越人類專家的科學(xué)發(fā)現(xiàn)能力,其中一個典型的例子是在“智能體失敗歸因”這一高度復(fù)雜的任務(wù)上。
△DeepScientist在多任務(wù)中超越人工最優(yōu)方法
面對現(xiàn)有方法難以進(jìn)行有效因果推理的困境,DeepScientist自主構(gòu)想并提出了名為A2P(Abduction-Action-Prediction)的全新方法,其核心創(chuàng)新在于將失敗歸因從簡單的模式識別提升到了結(jié)構(gòu)化的因果推理層面。
最終,該方法在Who&When基準(zhǔn)測試的“算法生成”任務(wù)中取得了47.46分,性能相較于人類專家的SoTA基線大幅提升了183.7%。
上述成就充分證明了DeepScientist不僅能實現(xiàn)單點突破,更能創(chuàng)造出具有持續(xù)影響力的科學(xué)成果,其泛化能力和系統(tǒng)性創(chuàng)新能力足以在多個前沿領(lǐng)域穩(wěn)定地推動技術(shù)邊界。
此外,在自動化科學(xué)發(fā)現(xiàn)領(lǐng)域,實驗的成功率常常不足1%。這個數(shù)字雖然殘酷,卻真實地反映了科學(xué)探索的高度不確定性。
△DeepScientist的研究統(tǒng)計結(jié)果
不同于依賴大規(guī)模隨機(jī)試錯的方法,DeepScientist通過形式化的分層貝葉斯優(yōu)化機(jī)制,在“利用已有成果”與“探索未知可能性”之間靈活平衡,能夠在龐大的假設(shè)空間中智能篩選出最具潛力的研究方向。
在探索過程中,DeepScientist不僅能高效執(zhí)行大規(guī)模實驗,還會把成功與失敗的結(jié)果都視作寶貴經(jīng)驗,用來指導(dǎo)后續(xù)的決策。
這種記憶驅(qū)動、目標(biāo)導(dǎo)向的迭代流程,使其能夠自主運行數(shù)月之久,在浩瀚的可能性空間中持續(xù)尋找突破口,不斷推動科學(xué)發(fā)現(xiàn)的進(jìn)程。
換句話說,如果沒有精細(xì)化的策略與結(jié)構(gòu)化的反饋機(jī)制,這類探索幾乎不可能取得成果,而 DeepScientist 的設(shè)計恰恰保證了,即便面對極低的成功率,它也能在閉環(huán)學(xué)習(xí)中穩(wěn)步積累成果,展現(xiàn)出遠(yuǎn)超暴力搜索系統(tǒng)的持續(xù)進(jìn)化能力與科學(xué)發(fā)現(xiàn)潛力。
“科學(xué)發(fā)現(xiàn)縮放定律”?用算力驅(qū)動創(chuàng)新
在分析實驗中,如下圖所示,研究團(tuán)隊發(fā)現(xiàn):當(dāng)并行 GPU 資源從1枚擴(kuò)展到16枚時, DeepScientist每周產(chǎn)出的前沿級科學(xué)發(fā)現(xiàn)數(shù)量從0項躍升至11項,幾乎呈現(xiàn)出理想的線性增長。
這意味著,科學(xué)突破不再只是依賴少數(shù)靈光一現(xiàn),而是可以像訓(xùn)練大模型一樣,通過系統(tǒng)化地增加計算資源來“規(guī)?;a(chǎn)”。
這種趨勢正在推動科研范式的轉(zhuǎn)變:從過去依靠“人力密集型”投入,逐步走向“計算密集型”驅(qū)動,為解決人類面臨的重大科學(xué)挑戰(zhàn),開辟了一條全新且可加速的路徑。
未來展望:開啟人機(jī)協(xié)同的科研新范式
DeepScientist 的成功并不意味著AI將取代科學(xué)家,而是預(yù)示著一個全新的人機(jī)協(xié)同科研范式的到來。
在這個范式中,人類研究者的角色將從繁重的試錯和實驗中解放出來,專注于提出真正有價值的科學(xué)問題、設(shè)定具有前瞻性的研究方向,并進(jìn)行最終的綜合與判斷。
而 AI,將作為一臺不知疲倦、并行擴(kuò)展的“科學(xué)探索引擎”,在人類智慧的引領(lǐng)下,以前所未有的速度和廣度持續(xù)探索科學(xué)的無人區(qū)。
為了推動這一范式的到來,研究團(tuán)隊將開源DeepScientist的核心系統(tǒng)與全部實驗日志,希望通過開放共享的方式,激發(fā)全球科研社區(qū)的創(chuàng)新力量,共同加速 AI Scientis的發(fā)展,迎接從基礎(chǔ)物理到新藥研發(fā)等人類重大挑戰(zhàn)的突破時刻。
西湖大學(xué)自然語言處理實驗室期待與更多研究團(tuán)隊攜手促進(jìn)自動化科學(xué)發(fā)現(xiàn)的進(jìn)步。
團(tuán)隊現(xiàn)已開放了免費的DeepScientist服務(wù)申請,希望與科研社區(qū)共同建設(shè)一個更加高效的科學(xué)發(fā)現(xiàn)新范式,使其能夠真正加速人類科學(xué)發(fā)現(xiàn)的歷程。
同時也歡迎感興趣的研究者與研究團(tuán)隊聯(lián)系,加入這場科研新旅程!
西湖大學(xué)自然語言處理實驗室(WestlakeNLP)成立于2018年9月,由張岳教授領(lǐng)導(dǎo)。
張岳教授畢業(yè)于牛津大學(xué),獲博士學(xué)位,現(xiàn)任西湖大學(xué)工程學(xué)院副院長,著有劍橋大學(xué)出版社出版的《自然語言處理》一書,并擔(dān)任過EMNLP 2022等多個頂級NLP會議的程序委員會主席。
該實驗室目前專注于語言模型推理、泛化和通用人工智能以及自然語言處理的基礎(chǔ)與應(yīng)用研究,探索通用人工智能的實現(xiàn)路徑,推動 AI Scientist(AI科學(xué)家)的發(fā)展,使其能夠真正參與并加速科學(xué)發(fā)現(xiàn),促進(jìn)人類科學(xué)的持續(xù)進(jìn)步。
圍繞這一愿景,WestlakeNLP近期也系統(tǒng)地撰寫了AI Scientist方向的觀點文章與綜述論文,希望為該領(lǐng)域的發(fā)展提供更加全面的思考與參考。
在線網(wǎng)址:
https://ai-researcher.net
開源倉庫:
https://github.com/ResearAI/DeepScientist
DeepScientist申請鏈接:
https://forms.gle/U9W3jfdGnKpGbScNA
實驗室聯(lián)系方式:
https://westlakenlp.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.