夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

首個全自動AI科學(xué)家誕生!西湖大學(xué)最新成果,性能超越人類

0
分享至

DeepScientist團(tuán)隊 投稿
量子位 | 公眾號 QbitAI

人類科學(xué)家三年的工作量,如今AI兩周就能輕松搞定!

最近,來自西湖大學(xué)的自然語言處理實驗室發(fā)布了DeepScientist系統(tǒng),這也是首個具有完整科研能力,且在無人工干預(yù)下,展現(xiàn)出目標(biāo)導(dǎo)向、持續(xù)迭代、漸進(jìn)式超越人類研究者最先進(jìn)研究成果的AI科學(xué)家系統(tǒng)。



△對比DeepScientist與人類專家的研究進(jìn)展

在AI文本檢測任務(wù)中,DeepScientist僅用兩周時間就實施和驗證了超過1000種不同的假設(shè),在此期間取得了相當(dāng)于人類三年的進(jìn)展。

在RAID數(shù)據(jù)集測試中,DeepScientist設(shè)計的方法實現(xiàn)了7.9%的AUROC提升,成功超越了人類現(xiàn)有SOTA方案。

另外DeepScientist還在智能體失敗歸因、LLM推理加速等任務(wù)上也分別達(dá)成了新的SOTA。



下面是更多詳細(xì)內(nèi)容介紹。

從“科研助理”到“首席科學(xué)家”:AI科研模式的變革

過去的AI Scientist系統(tǒng),如果不給定一個清晰明了的科研目標(biāo),就很容易陷入對現(xiàn)有知識的機(jī)械組合與無效試探的窠臼中,最終形成的科研產(chǎn)出在人類專家看來缺乏焦點,科學(xué)價值不高。

它們更像是能力超群的科研助理,而不是能獨立指引方向的科學(xué)家。

DeepScientist的出現(xiàn)改變了這一現(xiàn)狀,它不再等待人類告訴它“研究什么”,而是開始主動思考“什么值得研究”,它可以:

  • 主動識別前沿研究的根本性局限,
  • 提出全新的科學(xué)構(gòu)想以解決局限性問題,
  • 自動編寫代碼、執(zhí)行實驗、設(shè)計分析實驗,整理實驗結(jié)果,
  • 撰寫結(jié)構(gòu)完整的科研論文,開源可重現(xiàn)代碼。

簡而言之,這種從“隨機(jī)發(fā)現(xiàn)”到“長期主動式探索”的角色轉(zhuǎn)變,標(biāo)志著AI已經(jīng)正式涉足以往只有頂尖人類心智才能勝任的、最具創(chuàng)造性的科學(xué)發(fā)現(xiàn)過程。

DeepScientist的核心機(jī)制

DeepScientist的核心目標(biāo)是在一個給定的總研究預(yù)算內(nèi),最大化有價值的科學(xué)發(fā)現(xiàn)(Progress Findings)。

它首先將混亂、依賴靈感的科學(xué)發(fā)現(xiàn)過程形式化為一個嚴(yán)謹(jǐn)、目標(biāo)驅(qū)動的分層貝葉斯優(yōu)化問題,其目標(biāo)是從所有可能的候選研究空間中,找到一個最優(yōu)方法,使一個未知且評估成本極高的真實科學(xué)價值函數(shù)最大化。



△DeepScientist的自主科學(xué)發(fā)現(xiàn)閉環(huán)流程圖

具體而言,DeepScientist基于多智能體協(xié)同策略,圍繞一個三層級的評估循環(huán)推進(jìn)。

每個層級代表了對一個科研想法(Finding)進(jìn)行驗證的不同保真度(Fidelity)和成本(Cost),系統(tǒng)在每一輪迭代中,都基于其不斷增長的“經(jīng)驗庫(Findings Memory)”產(chǎn)出新假設(shè)和做出資源分配決策。

高層級(即具有高保真度)的信息,其價值是以前一層級(低保真度)的信息為條件的,而一個想法能否在最終的高保真度評估中成功,依賴于它在低保真度實驗中的表現(xiàn)。

在每一個層級中,只有展現(xiàn)出價值的科研產(chǎn)物才會被送入下一層級以提供更多資源用來進(jìn)一步探索,否則被存儲到“Findings Memory”中用于給后續(xù)的探索提供信息。

這種分層方法,確保了計算資源能夠被精準(zhǔn)地、動態(tài)地分配給在當(dāng)前認(rèn)知下最具潛力的研究方向,從而在有限的預(yù)算內(nèi)最大化科學(xué)發(fā)現(xiàn)的效率。

AI兩周完成三年科研進(jìn)展,全面超越人類專家

為驗證DeepScientist的研究能力,研究人員將DeepScientist應(yīng)用在三個當(dāng)前AI研究的最前沿領(lǐng)域:智能體失敗歸因、LLM推理加速與AI文本檢測。

這些任務(wù)無一例外都競爭激烈、備受社區(qū)關(guān)注,且技術(shù)基準(zhǔn)極高,其挑戰(zhàn)的人類研究成果均為近期在ICLR、ICML和ACL等頂級會議上發(fā)布的最新SOTA方法。



△三個研究任務(wù)選取的SOTA方法

其中,在AI文本檢測任務(wù)里,DeepScientist在無人干預(yù)的情況下,僅用兩周時間,就自主完成了相當(dāng)于人類科學(xué)家三年的進(jìn)展。

在此期間,DeepScientist自主生成了2472個獨特的研究想法,并對其中600個具有科學(xué)價值的假設(shè)進(jìn)行了代碼實現(xiàn)和實驗驗證。

最終,DeepScientist在RAID數(shù)據(jù)集上取得了7.9%的AUROC提升,同時將推理延遲降低了190%,展示出超越現(xiàn)有人類SOTA的卓越性能。

DeepScientist的突破性進(jìn)展并不僅限于AI文本檢測領(lǐng)域,它在多個不同的前沿任務(wù)上都展示了超越人類專家的科學(xué)發(fā)現(xiàn)能力,其中一個典型的例子是在“智能體失敗歸因”這一高度復(fù)雜的任務(wù)上。



△DeepScientist在多任務(wù)中超越人工最優(yōu)方法

面對現(xiàn)有方法難以進(jìn)行有效因果推理的困境,DeepScientist自主構(gòu)想并提出了名為A2P(Abduction-Action-Prediction)的全新方法,其核心創(chuàng)新在于將失敗歸因從簡單的模式識別提升到了結(jié)構(gòu)化的因果推理層面。

最終,該方法在Who&When基準(zhǔn)測試的“算法生成”任務(wù)中取得了47.46分,性能相較于人類專家的SoTA基線大幅提升了183.7%。

上述成就充分證明了DeepScientist不僅能實現(xiàn)單點突破,更能創(chuàng)造出具有持續(xù)影響力的科學(xué)成果,其泛化能力和系統(tǒng)性創(chuàng)新能力足以在多個前沿領(lǐng)域穩(wěn)定地推動技術(shù)邊界。

此外,在自動化科學(xué)發(fā)現(xiàn)領(lǐng)域,實驗的成功率常常不足1%。這個數(shù)字雖然殘酷,卻真實地反映了科學(xué)探索的高度不確定性。



△DeepScientist的研究統(tǒng)計結(jié)果

不同于依賴大規(guī)模隨機(jī)試錯的方法,DeepScientist通過形式化的分層貝葉斯優(yōu)化機(jī)制,在“利用已有成果”與“探索未知可能性”之間靈活平衡,能夠在龐大的假設(shè)空間中智能篩選出最具潛力的研究方向。

在探索過程中,DeepScientist不僅能高效執(zhí)行大規(guī)模實驗,還會把成功與失敗的結(jié)果都視作寶貴經(jīng)驗,用來指導(dǎo)后續(xù)的決策。

這種記憶驅(qū)動、目標(biāo)導(dǎo)向的迭代流程,使其能夠自主運行數(shù)月之久,在浩瀚的可能性空間中持續(xù)尋找突破口,不斷推動科學(xué)發(fā)現(xiàn)的進(jìn)程。

換句話說,如果沒有精細(xì)化的策略與結(jié)構(gòu)化的反饋機(jī)制,這類探索幾乎不可能取得成果,而 DeepScientist 的設(shè)計恰恰保證了,即便面對極低的成功率,它也能在閉環(huán)學(xué)習(xí)中穩(wěn)步積累成果,展現(xiàn)出遠(yuǎn)超暴力搜索系統(tǒng)的持續(xù)進(jìn)化能力與科學(xué)發(fā)現(xiàn)潛力。

“科學(xué)發(fā)現(xiàn)縮放定律”?用算力驅(qū)動創(chuàng)新

在分析實驗中,如下圖所示,研究團(tuán)隊發(fā)現(xiàn):當(dāng)并行 GPU 資源從1枚擴(kuò)展到16枚時, DeepScientist每周產(chǎn)出的前沿級科學(xué)發(fā)現(xiàn)數(shù)量從0項躍升至11項,幾乎呈現(xiàn)出理想的線性增長



這意味著,科學(xué)突破不再只是依賴少數(shù)靈光一現(xiàn),而是可以像訓(xùn)練大模型一樣,通過系統(tǒng)化地增加計算資源來“規(guī)?;a(chǎn)”。

這種趨勢正在推動科研范式的轉(zhuǎn)變:從過去依靠“人力密集型”投入,逐步走向“計算密集型”驅(qū)動,為解決人類面臨的重大科學(xué)挑戰(zhàn),開辟了一條全新且可加速的路徑。

未來展望:開啟人機(jī)協(xié)同的科研新范式

DeepScientist 的成功并不意味著AI將取代科學(xué)家,而是預(yù)示著一個全新的人機(jī)協(xié)同科研范式的到來。

在這個范式中,人類研究者的角色將從繁重的試錯和實驗中解放出來,專注于提出真正有價值的科學(xué)問題、設(shè)定具有前瞻性的研究方向,并進(jìn)行最終的綜合與判斷。

而 AI,將作為一臺不知疲倦、并行擴(kuò)展的“科學(xué)探索引擎”,在人類智慧的引領(lǐng)下,以前所未有的速度和廣度持續(xù)探索科學(xué)的無人區(qū)。

為了推動這一范式的到來,研究團(tuán)隊將開源DeepScientist的核心系統(tǒng)與全部實驗日志,希望通過開放共享的方式,激發(fā)全球科研社區(qū)的創(chuàng)新力量,共同加速 AI Scientis的發(fā)展,迎接從基礎(chǔ)物理到新藥研發(fā)等人類重大挑戰(zhàn)的突破時刻。

西湖大學(xué)自然語言處理實驗室期待與更多研究團(tuán)隊攜手促進(jìn)自動化科學(xué)發(fā)現(xiàn)的進(jìn)步。

團(tuán)隊現(xiàn)已開放了免費的DeepScientist服務(wù)申請,希望與科研社區(qū)共同建設(shè)一個更加高效的科學(xué)發(fā)現(xiàn)新范式,使其能夠真正加速人類科學(xué)發(fā)現(xiàn)的歷程。

同時也歡迎感興趣的研究者與研究團(tuán)隊聯(lián)系,加入這場科研新旅程!

西湖大學(xué)自然語言處理實驗室(WestlakeNLP)成立于2018年9月,由張岳教授領(lǐng)導(dǎo)。

張岳教授畢業(yè)于牛津大學(xué),獲博士學(xué)位,現(xiàn)任西湖大學(xué)工程學(xué)院副院長,著有劍橋大學(xué)出版社出版的《自然語言處理》一書,并擔(dān)任過EMNLP 2022等多個頂級NLP會議的程序委員會主席。

該實驗室目前專注于語言模型推理、泛化和通用人工智能以及自然語言處理的基礎(chǔ)與應(yīng)用研究,探索通用人工智能的實現(xiàn)路徑,推動 AI Scientist(AI科學(xué)家)的發(fā)展,使其能夠真正參與并加速科學(xué)發(fā)現(xiàn),促進(jìn)人類科學(xué)的持續(xù)進(jìn)步。

圍繞這一愿景,WestlakeNLP近期也系統(tǒng)地撰寫了AI Scientist方向的觀點文章與綜述論文,希望為該領(lǐng)域的發(fā)展提供更加全面的思考與參考。

在線網(wǎng)址:

https://ai-researcher.net

開源倉庫:

https://github.com/ResearAI/DeepScientist

DeepScientist申請鏈接:

https://forms.gle/U9W3jfdGnKpGbScNA

實驗室聯(lián)系方式:

https://westlakenlp.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
58歲男人突發(fā)心梗猝死,生前每天堅持鍛煉,醫(yī)生提醒:這3個習(xí)慣要命

58歲男人突發(fā)心梗猝死,生前每天堅持鍛煉,醫(yī)生提醒:這3個習(xí)慣要命

蕭竹輕語
2025-09-23 19:23:54
太貪心!廣東一牛雜店現(xiàn)場漲價,店家稱同行也這樣 后續(xù):退50賠500

太貪心!廣東一牛雜店現(xiàn)場漲價,店家稱同行也這樣 后續(xù):退50賠500

朗威談星座
2025-10-08 16:24:59
宮女被乾隆叫去伺候洗漱,伺候時隨口一句建議,讓乾隆看上她

宮女被乾隆叫去伺候洗漱,伺候時隨口一句建議,讓乾隆看上她

秋風(fēng)專欄
2025-10-02 16:36:01
曼聯(lián)若輸利物浦阿莫林是否下課?拉爵給出答案,稱給主帥三年正名

曼聯(lián)若輸利物浦阿莫林是否下課?拉爵給出答案,稱給主帥三年正名

羅米的曼聯(lián)博客
2025-10-09 07:19:53
寶馬殺瘋了!三季度銷量狂飆8.8%,網(wǎng)友:你大爺還是你大爺

寶馬殺瘋了!三季度銷量狂飆8.8%,網(wǎng)友:你大爺還是你大爺

沙雕小琳琳
2025-10-09 08:48:11
諾貝爾獎已成“老掉牙”榮譽,中國科技崛起更值得關(guān)注!

諾貝爾獎已成“老掉牙”榮譽,中國科技崛起更值得關(guān)注!

丹徒生
2025-10-09 07:02:42
新加坡外交專家提醒中國:近些年,中國有一個最大的戰(zhàn)略失誤!

新加坡外交專家提醒中國:近些年,中國有一個最大的戰(zhàn)略失誤!

領(lǐng)悟看世界
2025-10-05 18:42:23
早年中國臺灣翻譯的游戲名字,誤導(dǎo)了我們整整三十年

早年中國臺灣翻譯的游戲名字,誤導(dǎo)了我們整整三十年

街機(jī)時代
2025-10-03 18:00:03
關(guān)稅反噬,美國被巴西上了一課

關(guān)稅反噬,美國被巴西上了一課

陸棄
2025-10-08 10:33:03
日本執(zhí)政聯(lián)盟談判破裂,在野黨加入混戰(zhàn),高市早苗首相大位不保

日本執(zhí)政聯(lián)盟談判破裂,在野黨加入混戰(zhàn),高市早苗首相大位不保

愛下廚的阿釃
2025-10-09 06:13:37
上?!笆E比后w越來越壯大,突破209萬,細(xì)看剩下來往往是這2種

上?!笆E比后w越來越壯大,突破209萬,細(xì)看剩下來往往是這2種

男女那點事兒兒
2025-10-09 00:27:53
中方剛確認(rèn)出席朝鮮80周年慶典,不到一天,就接到韓國外長電話

中方剛確認(rèn)出席朝鮮80周年慶典,不到一天,就接到韓國外長電話

影孖看世界
2025-10-08 23:44:14
很多人的中年失業(yè)是打小就注定的

很多人的中年失業(yè)是打小就注定的

記憶承載
2025-10-08 17:00:07
紅棗搭它,肺里的垃圾一掃空!連著喝3天,喉嚨不癢了,痰也清了

紅棗搭它,肺里的垃圾一掃空!連著喝3天,喉嚨不癢了,痰也清了

江江食研社
2025-10-03 17:57:11
賴清德再次大放厥詞:臺灣與中國互不隸屬,臺灣不是中國的一部分

賴清德再次大放厥詞:臺灣與中國互不隸屬,臺灣不是中國的一部分

李昕言溫度空間
2025-10-08 17:03:54
隨著袁悅1-2,武網(wǎng)16強(qiáng)全部出爐!具體對陣如下,中國金花剩獨苗

隨著袁悅1-2,武網(wǎng)16強(qiáng)全部出爐!具體對陣如下,中國金花剩獨苗

侃球熊弟
2025-10-08 21:21:42
大疆將降價,Pocket 3最高降900元,Action 4降1129元,剛買的消費者懵了:早知道先不買了!多名消費者維權(quán)退差價

大疆將降價,Pocket 3最高降900元,Action 4降1129元,剛買的消費者懵了:早知道先不買了!多名消費者維權(quán)退差價

每日經(jīng)濟(jì)新聞
2025-10-08 20:31:26
2025武網(wǎng)薩巴倫卡、斯瓦泰克將沖擊八強(qiáng),中國金花張帥挑戰(zhàn)世界第三的高芙

2025武網(wǎng)薩巴倫卡、斯瓦泰克將沖擊八強(qiáng),中國金花張帥挑戰(zhàn)世界第三的高芙

極目新聞
2025-10-09 08:46:28
“雞排哥”人設(shè)崩塌,全網(wǎng)傻眼了!

“雞排哥”人設(shè)崩塌,全網(wǎng)傻眼了!

TOP電商
2025-10-06 15:04:12
女優(yōu)龍恩寺華夜身體挑戰(zhàn),普通男優(yōu)已無法滿足她!

女優(yōu)龍恩寺華夜身體挑戰(zhàn),普通男優(yōu)已無法滿足她!

葫蘆哥愛吐槽
2025-10-09 03:06:22
2025-10-09 09:35:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11456文章數(shù) 176293關(guān)注度
往期回顧 全部

科技要聞

為何說2025化學(xué)諾獎應(yīng)用很可能會在中國先落地

頭條要聞

重慶女子乘"黃色法拉利"去內(nèi)蒙古:計價器爆表了

頭條要聞

重慶女子乘"黃色法拉利"去內(nèi)蒙古:計價器爆表了

體育要聞

阿爾巴退役,他是巴薩隊史第一左后衛(wèi)嗎

娛樂要聞

許凱復(fù)出拍戲 疑資本力保網(wǎng)友怒斥頭鐵

財經(jīng)要聞

美國國稅局宣布近半數(shù)員工被迫停薪停職

汽車要聞

家用SUV的越級感 8萬級的全新博越就能擁有

態(tài)度原創(chuàng)

教育
本地
房產(chǎn)
數(shù)碼
公開課

教育要聞

初中數(shù)學(xué)難題,根式運算

本地新聞

讀港校想省錢,社恐輸在起跑線

房產(chǎn)要聞

十一直擊,三亞這個熱盤,又火了!

數(shù)碼要聞

群暉NAS暫時開放對第三方硬盤支持,正與合作廠商加快“認(rèn)證”中

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 里番精品3D一二三区| 免费一级黄色好看的国产| 香蕉久久AⅤ一区二区三区| 202丰满熟女妇大| 人人草人人做人人爱| 99RE6在线观看国产精品| 精品久久久无码中文字幕边打电话| 国产亚洲无码20| 国产亚洲精品VA片在线播放| 人人干人人澡| 色噜噜日韩精品欧美一区二区| 国产精品18久久久久网站| 9199av| 国产一级AV又粗又大又| 97爱亚洲综合成人| 國產无码午夜AV天堂| 亚洲欧洲性爱视频| 波多野结衣办公室激情| 99国产精品久久久蜜芽| 米奇影音777第四色| 国产私人尤物无码不卡| 少妇被猛烈进入到喷白浆| 俄罗斯毛片直播| 亚洲AV秘 片一区二区三| 亚洲偷自拍另类图片二区| 国产情侣激情在线对白| 美女视频黄频A美女大全| 人妻无码AⅤ不卡中文字幕| 国产乱妇无码大片在线观看| 亚洲欧美自拍一区| av电影在线观看| 亚洲国产精品一区二区成人片不卡| 一二三四区AV| 最新的国产成人精品2022| 老男老女av| 日韩精品中文字幕有码| 蜜桃人妻少妇精品无码av| 尤物影院193.| 国产精品久久久久久久久久吹潮| 亚洲成人免费在线| 外国男人肏亚洲女人|