不圓 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
只要科學(xué)任務(wù)可以評分,AI就能找到超越人類專家的方法,實現(xiàn)SOTA結(jié)果?
這是谷歌一篇最新論文里的內(nèi)容:
使用大模型+樹搜索,讓AI大海撈針就行。
他們還開發(fā)了一個幫助科學(xué)家編寫專家級實證軟件的AI系統(tǒng)。
該系統(tǒng)在生物信息學(xué)、流行病學(xué)、地理空間分析等領(lǐng)域發(fā)明的新方法,都達到了SOTA的水平。
網(wǎng)友表示:任何可量化的東西都將被AI征服。
這篇論文目前在X上獲得了2.6K贊,引發(fā)了廣泛的討論。
讓我們一起看看。
可評分任務(wù)在科學(xué)中無處不在
實證軟件指的是以最大化可定義或可度量的質(zhì)量指標(通常指對現(xiàn)有觀測數(shù)據(jù)的擬合度)為設(shè)計目標的軟件。
如果一個任務(wù)可以用實證軟件解決,就可以被稱為可評分任務(wù)。
論文表示,他們構(gòu)建這個系統(tǒng)主要是基于兩個原因:
一方面,可評分任務(wù)在科學(xué)界無處不在。如今幾乎每個科學(xué)子領(lǐng)域、應(yīng)用數(shù)學(xué)和工程領(lǐng)域都依賴軟件,其中大部分軟件都是解決可量化任務(wù)的實證軟件。
另一方面,科學(xué)實證軟件的開發(fā)過程緩慢且艱難。特定領(lǐng)域的實證軟件需要繁瑣的工作,通常需要數(shù)年才能完成。
而這個新系統(tǒng)能夠系統(tǒng)地自動創(chuàng)建實證軟件,以解決可評分任務(wù)。
簡單地說,該方法基于大語言模型(LLM),通過讓LLM重寫代碼來提升軟件的質(zhì)量評分。系統(tǒng)首先生成大量的候選軟件解決方案,然后運用樹搜索算法篩選值得進一步優(yōu)化的候選方案。
雖然代碼變異系統(tǒng)的設(shè)計方式多樣,但研究人員通過設(shè)計基于基礎(chǔ)Kaggle競賽基準的對抗測試,持續(xù)改進了該方法。
研究人員通過注入研究思想來增強代碼變異能力——這些思想來源廣泛,涵蓋從高被引論文、專業(yè)教科書到搜索引擎結(jié)果等多個渠道。
在實際應(yīng)用中,用戶既可直接注入這些思想,也可通過搜索引擎自動獲取文獻研究成果。
LLMs在代碼編寫過程中會充分利用這些注入的指導(dǎo)信息。
結(jié)果顯示,該系統(tǒng)可廣泛應(yīng)用于科學(xué)領(lǐng)域的各類可評分任務(wù),生成的軟件性能超越了科學(xué)家開發(fā)的最先進水平。
這種超人類性能的實現(xiàn),源于系統(tǒng)能夠在前所未有的規(guī)模上、徹底且不知疲倦地進行解決方案搜索,從而發(fā)現(xiàn)“滄海遺珠”式的高質(zhì)量解決方案。
在生物信息學(xué)領(lǐng)域,這個新系統(tǒng)發(fā)現(xiàn)了40種用于單細胞數(shù)據(jù)分析的新方法,在公開排行榜上超越了人類專家開發(fā)的最頂尖方法。
在地理空間分析方法上,系統(tǒng)開發(fā)出的三個新方法在DLRSD基準測試上顯著優(yōu)于近期學(xué)術(shù)論文報道的結(jié)果,mIoU指標均突破0.80大關(guān)。
在神經(jīng)科學(xué)領(lǐng)域,斑馬魚活動預(yù)測基準(ZAPBench)上,該系統(tǒng)的解決方案有效地利用了跨神經(jīng)元信息來生成預(yù)測,雖然沒有超過表現(xiàn)最好的視頻模型,但它與時序基線模型相比仍然具有競爭力,并且在訓(xùn)練速度上比表現(xiàn)最佳的視頻模型快幾個數(shù)量級。
(這個基準Y軸越低越好)
此外,在流行病學(xué)、時間序列預(yù)測、數(shù)值分析領(lǐng)域,新系統(tǒng)都能取得和人類頂級方法相當、甚至超越人類的結(jié)果。
總而言之,研究團隊開發(fā)了一種新方法:把基于樹搜索的代碼變異系統(tǒng)和整合復(fù)雜研究思路的能力相結(jié)合。
這些研究思路可以來自已發(fā)表的論文、研究智能體,也可以是LLM已有思路和方案的組合。
網(wǎng)友評價:這種新方法正在為未來的AI創(chuàng)造更好的算法。
但同樣的,問題也隨之而來:把科學(xué)研究的權(quán)限交給AI真的合適么?
頂尖的AI研究員也像我們一樣使用提示
有細心的網(wǎng)友發(fā)現(xiàn),在這篇論文里,研究人員使用的提示詞和我們也沒什么差別:
- 請創(chuàng)建一個算法,利用兩種策略的優(yōu)點,創(chuàng)建一個真正出色的混合策略,并且得分要高于任何一種單獨的策略!!
全都用的都是大寫字母,和中文里瘋狂敲感嘆號沒什么差別。
網(wǎng)友笑評:就像答辯的前一周,簡直火燒眉毛了。
也有網(wǎng)友表示這是一個很好的現(xiàn)象。它證明好結(jié)果并不總是需要復(fù)雜的指令,能夠清晰表達需求就足夠有效。
創(chuàng)造力才是進步的核心。
參考鏈接:
[1]https://x.com/arankomatsuzaki/status/1965253577221587218
[2]https://x.com/deedydas/status/1965468238483235015
[3]https://google-research.github.io/score/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.