撰文丨王聰
編輯丨王多魚(yú)
排版丨水成文
科學(xué)發(fā)現(xiàn)本質(zhì)上是一個(gè)持續(xù)探索和反復(fù)試驗(yàn)的過(guò)程,人類(lèi)科學(xué)家通常需要投入大量時(shí)間和精力,才能推動(dòng)人類(lèi)知識(shí)邊界向前邁進(jìn)一小步。從半導(dǎo)體制造到光伏電池效率提升,歷史上的技術(shù)發(fā)展軌跡都表明,人類(lèi)科學(xué)家需要數(shù)十年目標(biāo)導(dǎo)向的迭代工作才能不斷推動(dòng)技術(shù)進(jìn)步。
近年來(lái),大語(yǔ)言模型(LLM)的出現(xiàn)推動(dòng)了自動(dòng)化科學(xué)發(fā)現(xiàn)的發(fā)展?;?LLM 的AI 科學(xué)家(AI Scientist)系統(tǒng)在探索中處于領(lǐng)先地位,憑借強(qiáng)大的長(zhǎng)篇文本生成能力和理解能力,LLM 實(shí)現(xiàn)了科學(xué)發(fā)現(xiàn)的端到端、全周期自動(dòng)化。
然而,在缺乏明確科學(xué)目標(biāo)的情況下,當(dāng)前的 AI 科學(xué)家系統(tǒng)往往陷入盲目重組現(xiàn)有知識(shí)和方法的陷阱。因此,AI 科學(xué)家作出的研究成果,在人類(lèi)科學(xué)家看來(lái),仍然很幼稚,往往缺乏真正的科學(xué)價(jià)值。
而現(xiàn)在,人類(lèi)科學(xué)家三年累計(jì)取得的進(jìn)展,一個(gè)AI 科學(xué)家竟然短短兩周搞定!
這不是科幻小說(shuō),而是來(lái)自西湖大學(xué)工學(xué)院張?jiān)?/strong>教授團(tuán)隊(duì)(翁詣軒、朱敏郡為共同第一作者)開(kāi)發(fā)的一款AI 科學(xué)家系統(tǒng)——DeepScientist。該論文以:DeepScientist: Advancing Frontier-Pushing Scientific Findings Progressively 為題,發(fā)表在了預(yù)印本平臺(tái)arXiv上。
DeepScientist具備了完整的科研能力,無(wú)需人類(lèi)干預(yù),展現(xiàn)出了目標(biāo)驅(qū)動(dòng)、持續(xù)迭代的科學(xué)發(fā)現(xiàn)能力,成功克服了傳統(tǒng)研究的局限,成為首個(gè)大規(guī)模實(shí)證研究證明的能夠在前沿科學(xué)任務(wù)上漸進(jìn)式超越人類(lèi)科學(xué)家最先進(jìn)水平(SOTA)的 AI 科學(xué)家系統(tǒng)。
這標(biāo)志著人工智能(AI)從人類(lèi)的科研助手向著成為人類(lèi)真正的科研合作伙伴邁出了至關(guān)重要的一步。
DeepScientist 如何工作?
DeepScientist將科學(xué)發(fā)現(xiàn)的全周期建模為一個(gè)目標(biāo)驅(qū)動(dòng)的貝葉斯優(yōu)化問(wèn)題,其唯一目標(biāo)是找到能夠最大化目標(biāo)性能指標(biāo)的新方法。系統(tǒng)采用迭代工作流程和持續(xù)擴(kuò)展的先驗(yàn)研究知識(shí)記憶庫(kù),智能平衡探索未知可能性和利用已有成果。
其核心創(chuàng)新在于三階段探索循環(huán):
策略與假設(shè):系統(tǒng)分析記憶庫(kù)中的數(shù)千條結(jié)構(gòu)化記錄,識(shí)別現(xiàn)有知識(shí)的局限性,生成新的假設(shè)集合,并由低成本替代模型(LLM 評(píng)審員)進(jìn)行評(píng)估。
實(shí)施與驗(yàn)證:這是記憶庫(kù)中的主要過(guò)濾階段,系統(tǒng)使用獲取函數(shù)(acquisition function)選擇最有希望的記錄進(jìn)行真實(shí)世界實(shí)驗(yàn)驗(yàn)證,編碼智能體在沙盒環(huán)境中執(zhí)行存儲(chǔ)庫(kù)級(jí)別的實(shí)現(xiàn)。
分析與報(bào)告:當(dāng)“實(shí)施發(fā)現(xiàn)”成功超越基線時(shí),其記錄被提升為“進(jìn)展發(fā)現(xiàn)”,系統(tǒng)自主設(shè)計(jì)并執(zhí)行一系列更深層次的分析實(shí)驗(yàn),最后將所有實(shí)驗(yàn)結(jié)果和分析見(jiàn)解整合成可重現(xiàn)的研究論文。
三個(gè)前沿科學(xué)領(lǐng)域的突破性表現(xiàn)
研究團(tuán)隊(duì)選擇了三個(gè)不同前沿科學(xué)任務(wù)的最先進(jìn)方法(發(fā)表于 2024 和 2025 年)作為起點(diǎn),這些方法因其前沿地位、社區(qū)興趣和人類(lèi)可監(jiān)督性而被選中。
DeepScientist:自主超越 SOTA 的發(fā)現(xiàn)
智能體失敗歸因:任務(wù)解決的是“在基于 LLM 的多智能體系統(tǒng)中,哪個(gè)智能體導(dǎo)致任務(wù)失敗以及何時(shí)失???”的問(wèn)題。DeepScientist 從基線方法出發(fā),最終提出了A2P方法(Abduction-Action-Prediction 過(guò)程),其核心創(chuàng)新將故障歸因從模式識(shí)別提升到因果推理,性能大幅提升了183.7%。
LLM 推理加速:這是一個(gè)高度優(yōu)化的領(lǐng)域,旨在最大化 LLM 推理的吞吐量和減少延遲,系統(tǒng)生成的 ACRA 方法最終將 MPBB 數(shù)據(jù)集上的人類(lèi) SOTA 從 190.25 推進(jìn)到了 193.90 tokens/秒,提高了1.9%。
AI 文本檢測(cè):這是一個(gè)二進(jìn)制分類(lèi)任務(wù),給定可能包含 LLM 生成內(nèi)容的文本,目標(biāo)是確定它是由人類(lèi)還是 LLM 產(chǎn)生的。DeepScientist 在短短兩周內(nèi)產(chǎn)生了三種不同的、逐步優(yōu)越的方法(T-Detect、TDT和PA-Detect),建立了新的 SOTA,AUROC 提高了7.9%,同時(shí)推理速度翻倍。這相當(dāng)于人類(lèi)科學(xué)家三年累計(jì)的成果。
DeepScientist 兩周=人類(lèi)科學(xué)家三年
DeepScientist 在多任務(wù)中超越人類(lèi) SOTA
生成論文的質(zhì)量如何?
為了評(píng)估最終輸出的質(zhì)量,研究團(tuán)隊(duì)對(duì)DeepScientist端到端過(guò)程自主生成的五篇研究論文進(jìn)行了評(píng)估。
使用DeepReviewer(一個(gè)模擬人類(lèi)同行評(píng)議過(guò)程的 AI 智能體)進(jìn)行的自動(dòng)化評(píng)估,結(jié)果顯示,DeepScientist 是唯一一個(gè)生成論文的接受率達(dá)到 60% 的 AI 科學(xué)家系統(tǒng)。
人類(lèi)專家的評(píng)估更加令人印象深刻:三位活躍的 LLM 研究人員組成的程序委員會(huì)一致認(rèn)為,DeepScientist 在構(gòu)思階段表現(xiàn)卓越——這是人類(lèi)主導(dǎo)研究中最具挑戰(zhàn)性和往往限制進(jìn)度的步驟。系統(tǒng)的平均評(píng)分(5.00)與所有 ICLR 2025 提交論文的平均分(5.08)非常接近,其中兩篇論文甚至顯著超過(guò)了這一水平,達(dá)到了 5.67 分。
在生成論文方面,DeepScientist 碾壓其他 AI 科學(xué)家
人類(lèi)專家對(duì) DeepScientist 生成的論文進(jìn)行評(píng)估
探索過(guò)程中的寶貴洞察
對(duì) DeepScientist 實(shí)驗(yàn)日志的分析,揭示了其在自主科學(xué)發(fā)現(xiàn)中固有的試錯(cuò)過(guò)程的巨大規(guī)模。即使在相對(duì)快速執(zhí)行的領(lǐng)域,取得進(jìn)展也需要每個(gè)任務(wù)進(jìn)行數(shù)百次試驗(yàn)。
自主研究過(guò)程的特點(diǎn)是一個(gè)巨大的探索漏斗,其中有希望的想法異常罕見(jiàn)。 在這三個(gè)前沿科學(xué)任務(wù)中,DeepScientist 產(chǎn)生了超過(guò) 5000 個(gè)獨(dú)特想法,但只有約 1100 個(gè)被系統(tǒng)選擇機(jī)制認(rèn)為值得實(shí)驗(yàn)驗(yàn)證,僅有 21 個(gè)最終帶來(lái)科學(xué)進(jìn)展。放棄研究表明選擇過(guò)程的關(guān)鍵性:如果沒(méi)有它,隨機(jī)抽樣 100 個(gè)想法進(jìn)行測(cè)試的成功率實(shí)際上為 0。而采用選擇策略后,成功率提高到約 1-3%,表明智能過(guò)濾至關(guān)重要。
縮放定律的啟示
為了研究計(jì)算規(guī)模與科學(xué)進(jìn)展速率之間的關(guān)系,研究團(tuán)隊(duì)評(píng)估了DeepScientist在固定一周時(shí)間內(nèi)產(chǎn)生的“進(jìn)展發(fā)現(xiàn)”數(shù)量與可用并行資源的關(guān)系。
結(jié)果顯示了一個(gè)有希望的縮放趨勢(shì):雖然最少的資源沒(méi)有產(chǎn)生突破,但隨著擴(kuò)展到 4 個(gè) GPU 及以上,發(fā)現(xiàn)率開(kāi)始有效增加,從 4 個(gè) GPU 時(shí)的 1 個(gè) SOTA 超越發(fā)現(xiàn),增加到 16 個(gè) GPU 時(shí)的 11 個(gè)。這似乎在分配的資源與有價(jià)值科學(xué)發(fā)現(xiàn)之間建立了近乎線性的關(guān)系。
一周內(nèi),DeepScientist 在所有任務(wù)中發(fā)現(xiàn)超越 SOTA 的“進(jìn)展發(fā)現(xiàn)”數(shù)量與 GPU 數(shù)量之間的關(guān)系
這也意味著,對(duì)于AI 科學(xué)家而言,科學(xué)突破不再只是天才科學(xué)家的靈光一閃,而是可以像訓(xùn)練大模型一樣,通過(guò)系統(tǒng)化地增加計(jì)算資源來(lái)“規(guī)?;a(chǎn)”。
未來(lái)展望
DeepScientist的結(jié)果提出了科學(xué)探索的新范式,其 1-5% 的進(jìn)展率反映了前沿研究的現(xiàn)實(shí)——突破本身就很罕見(jiàn)。其核心優(yōu)勢(shì)不是絕對(duì)正確,而是以以前難以想象的規(guī)模和速度進(jìn)行這種試錯(cuò)過(guò)程,將人類(lèi)多年的探索壓縮到幾周內(nèi)。
這項(xiàng)研究提供了第一個(gè)大規(guī)模實(shí)驗(yàn)驗(yàn)證證據(jù),表明自主 AI 科學(xué)家具有在現(xiàn)代科學(xué)前沿探索中實(shí)現(xiàn)逐步超越人類(lèi) SOTA 的能力。DeepScientist 作為一個(gè)目標(biāo)導(dǎo)向的系統(tǒng),實(shí)現(xiàn)了從構(gòu)思到真實(shí)進(jìn)展的端到端自主,通過(guò)綜合人類(lèi)知識(shí)和自身試驗(yàn)發(fā)現(xiàn)來(lái)學(xué)習(xí)。
DeepScientist可能標(biāo)志著 AI 研究的基礎(chǔ)性轉(zhuǎn)變,預(yù)示著一個(gè)科學(xué)發(fā)現(xiàn)速度不再完全由人類(lèi)思維節(jié)奏決定的新時(shí)代——在這個(gè)時(shí)代,AI 不再只是人類(lèi)的科研助手,而是成為了能夠自主推動(dòng)科學(xué)前沿的合作伙伴。
AI 科學(xué)家交流群
論文鏈接:
https://doi.org/10.48550/arXiv.2509.26603
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.