夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌:一個能「做研究」的系統(tǒng)誕生了,LLM+樹搜索編寫專家級軟件

0
分享至

機器之心報道

編輯:冷貓

大模型在科研領(lǐng)域越來越高效了。

昨天,谷歌發(fā)表了一篇重磅文章,提出了一個能夠幫助科研人員編寫「專家級」科研軟件的 AI 系統(tǒng)。

該系統(tǒng)融合了大語言模型和傳統(tǒng)樹搜索,能夠自動編寫和優(yōu)化科研任務(wù)中所需的軟件程序,能夠獲取多種渠道的現(xiàn)有知識,整合并且重組這些知識來構(gòu)建一個新的研究思路。

谷歌生成,該系統(tǒng)不僅穩(wěn)定達(dá)到專家水平,還常常超越人類。在基因組學(xué)、公共健康、數(shù)值分析等多個領(lǐng)域,這套系統(tǒng)的表現(xiàn)甚至超過了頂尖研究團(tuán)隊和國家級集成系統(tǒng)。



  • 論文標(biāo)題:An AI system to help scientists write expert-level empirical software
  • 論文鏈接:https://www.alphaxiv.org/abs/2509.06503v1

如此這般,科研人員在各個領(lǐng)域的研究中都能夠使用這一 AI 系統(tǒng)來構(gòu)建全新的研究思路和實證程序,能夠更高效地進(jìn)行科學(xué)研究。



AI 在科研領(lǐng)域的應(yīng)用一直以自動化的特性為主,能夠輔助科研人員進(jìn)行可行性驗證,完成一些重復(fù)的高強度工作,減少科研人員在重復(fù)驗證、調(diào)試程序等工作上浪費的時間,更能夠激發(fā)科研人員的創(chuàng)新思維。

谷歌的這個系統(tǒng)能夠?qū)崿F(xiàn)研究思路的整合與重組,在科研任務(wù)中能夠創(chuàng)建一些新的策略,構(gòu)建更高效的模型,讓 AI 系統(tǒng)介入科研領(lǐng)域的創(chuàng)新過程,從一次性代碼生成的工具,轉(zhuǎn)變?yōu)橛闪炕繕?biāo)指導(dǎo)的迭代、搜索驅(qū)動的軟件演進(jìn)。

不過也有網(wǎng)友表達(dá)了 AI 深入科研領(lǐng)域的擔(dān)憂:



谷歌這一次的 AI 系統(tǒng)仍然具有很大的局限性,系統(tǒng)的構(gòu)建目標(biāo)是「可評分的科學(xué)任務(wù)」—— 即那些可以通過準(zhǔn)確率、誤差率或基準(zhǔn)測試排名等指標(biāo)來量化軟件性能的計算問題,雖覆蓋了廣泛的科研領(lǐng)域,但未提及那些不可量化評估的任務(wù)表現(xiàn)。

值得一提的是,前谷歌搜索成員Deedy Das分享了這個工作,而他最感興趣的是論文附錄中的 Prompt。





論文中使用的指令:「請創(chuàng)建一種算法,結(jié)合兩種策略的優(yōu)點,形成一種真正出色的混合策略,并且其得分要高于任一單獨策略。」說明優(yōu)秀的結(jié)果并不總需要非常復(fù)雜的 Prompt 指令。

論文詳細(xì)內(nèi)容如下:

本研究引入了一個 AI 系統(tǒng),該系統(tǒng)能自動為科學(xué)計算任務(wù)創(chuàng)建專家級的實證軟件。該系統(tǒng)結(jié)合了大型語言模型和樹搜索算法,以迭代地生成、評估和完善科學(xué)軟件解決方案。其核心創(chuàng)新在于,LLM 不僅用于一次性代碼生成,而是作為系統(tǒng)搜索過程中一個智能的「變異」引擎,能夠整合并重組科學(xué)文獻(xiàn)中的研究思路。



圖 1: (a) 系統(tǒng)架構(gòu):展示了可評分問題與研究思路如何輸入到大語言模型(LLM),由其生成代碼,并在沙盒環(huán)境中進(jìn)行評估,結(jié)果以樹搜索結(jié)構(gòu)進(jìn)行組織。(b) 性能對比:不同方法的成功率比較,結(jié)果顯示結(jié)合專家指導(dǎo)的樹搜索(TS)取得了最高成功率。(c) 研究思路來源:包括專家知識、學(xué)術(shù)論文,以及 AI 生成的重組方案。

問題與方法

本系統(tǒng)的目標(biāo)是「可評分的科學(xué)任務(wù)」—— 即那些可以通過準(zhǔn)確率、誤差率或基準(zhǔn)測試排名等指標(biāo)來量化軟件性能的計算問題。這類任務(wù)涵蓋了從基因組學(xué)到流行病學(xué)再到圖像分析等廣泛的科學(xué)計算應(yīng)用。

該方法論圍繞三個核心組件協(xié)同工作:

1. 基于 LLM 的代碼變異

不同于從零生成代碼,LLM 會持續(xù)重寫并優(yōu)化已有的候選代碼。系統(tǒng)利用 LLM 對編程邏輯和領(lǐng)域上下文的理解,結(jié)合研究思路和性能反饋,進(jìn)行智能化修改和改進(jìn)。

2. 樹搜索導(dǎo)航

代碼生成過程被嵌入到樹搜索算法中,以系統(tǒng)化方式探索龐大的軟件解空間。搜索過程在「利用」(集中改進(jìn)已有的優(yōu)質(zhì)解)和「探索」(尋找全新方法)之間取得平衡,使用了一種受 AlphaZero 啟發(fā)的 PUCT 算法變體。

3. 研究思路的融合

該系統(tǒng)的一大特色是能夠通過多種渠道引入外部知識:

  • 直接注入來自科學(xué)論文和教材的研究思路
  • 利用如 Gemini Deep Research 等工具生成 LLM 研究見解
  • 程序化地重組已有成功方案,形成混合策略

該系統(tǒng)在 Kaggle playground 競賽中開發(fā)與迭代,因其具有快速迭代周期和清晰的人類表現(xiàn)基準(zhǔn),成為理想的測試平臺。

跨科學(xué)領(lǐng)域的主要成果

基因組學(xué):單細(xì)胞 RNA 測序

在從單細(xì)胞 RNA 測序數(shù)據(jù)中去除技術(shù)批次效應(yīng)同時保留生物學(xué)信號的挑戰(zhàn)性任務(wù)中,該系統(tǒng)發(fā)現(xiàn)了 40 種新方法,其性能優(yōu)于 OpenProblems 排行榜上所有已發(fā)表的方法。性能最佳的方法 BBKNN (TS) 通過將ComBat校正的 PCA 嵌入與批次平衡 K 近鄰相結(jié)合,比現(xiàn)有最佳方法(ComBat)提高了 14%。



圖 2:樹搜索進(jìn)展圖,顯示了迭代過程中性能的提高,并在突破點處標(biāo)注了關(guān)鍵算法創(chuàng)新。該系統(tǒng)發(fā)現(xiàn)了優(yōu)化批次感知圖構(gòu)建和實現(xiàn) ComBat 基因表達(dá)校正的方法。

地理空間分析:衛(wèi)星圖像分割

在使用DLRSD 數(shù)據(jù)集進(jìn)行衛(wèi)星圖像的密集像素級語義分割時,該系統(tǒng)的前三名解決方案顯著優(yōu)于最近的學(xué)術(shù)論文,平均交并比分?jǐn)?shù)大于 0.80。這些解決方案基于現(xiàn)有架構(gòu)(UNet++、SegFormer),但優(yōu)化了它們與強大的預(yù)訓(xùn)練編碼器和廣泛數(shù)據(jù)增強策略的集成。



圖 3:衛(wèi)星圖像分割結(jié)果示例,顯示原始圖像(頂行)、真實掩模(中行)和系統(tǒng)預(yù)測(底行)。系統(tǒng)成功分割了包括機場、跑道、飛機和基礎(chǔ)設(shè)施在內(nèi)的各種特征。

神經(jīng)科學(xué):全腦神經(jīng)活動預(yù)測

在斑馬魚大腦中建模超過 70,000 個神經(jīng)元的活動(ZAPBench)時,系統(tǒng)生成的最佳模型在多步預(yù)測方面優(yōu)于所有基線,并且訓(xùn)練速度比競爭視頻模型快幾個數(shù)量級。該系統(tǒng)成功地將生物物理神經(jīng)元模擬器(Jaxley)整合到高性能解決方案中。

時間序列預(yù)測

在涵蓋 28 個不同時間序列數(shù)據(jù)集的 GIFT-Eval 基準(zhǔn)測試中,該系統(tǒng)在多個數(shù)據(jù)集上的性能優(yōu)于排行榜。值得注意的是,它從頭開始創(chuàng)建了一個統(tǒng)一的預(yù)測庫,該庫能自適應(yīng)地配置到不同的數(shù)據(jù)集,并將時間序列分解為各個組成部分。



圖 4:系統(tǒng)發(fā)現(xiàn)的成功預(yù)測方法的分布。梯度提升方法(GBM)和集成方法在各種預(yù)測任務(wù)中是最常成功的策略。

數(shù)值分析:復(fù)雜積分

對于評估具有無限限度的振蕩積分(其中 scipy.integrate.quad () 等標(biāo)準(zhǔn)算法完全失效)時,演化出的代碼正確評估了 19 個留出積分中的 17 個,誤差在 3% 分?jǐn)?shù)誤差之內(nèi)。該解決方案實現(xiàn)了復(fù)雜的數(shù)學(xué)啟發(fā)式方法,包括域劃分和歐拉變換以加速級數(shù)。

技術(shù)創(chuàng)新:研究思路與重組

一個關(guān)鍵的創(chuàng)新是研究思路的系統(tǒng)集成及其智能重組。該系統(tǒng)可以分析不同方法的核心原理,并合成創(chuàng)建混合方法的指令。



圖 5:方法重組結(jié)果分析,顯示原始方法與其組合版本之間的性能比較。綠色條表示成功的改進(jìn),紅色條表示性能下降,而藍(lán)色表示原始方法的性能。

總結(jié)

這項研究表明,AI 不僅能夠?qū)崿F(xiàn)自動化,還能在多個科學(xué)領(lǐng)域系統(tǒng)性地超越人類在科研軟件開發(fā)中的表現(xiàn)。系統(tǒng)在生物信息學(xué)、流行病學(xué)、地理空間分析、神經(jīng)科學(xué)和數(shù)值分析等領(lǐng)域中,持續(xù)取得專家級,甚至超越人類水準(zhǔn)的成果,顯示出其廣泛的適用性。

該方法標(biāo)志著科研軟件開發(fā)范式的轉(zhuǎn)變:從「一次性代碼生成」走向「以可量化科學(xué)目標(biāo)為導(dǎo)向」的迭代式、搜索驅(qū)動的軟件進(jìn)化。通過將開發(fā)周期從「數(shù)周甚至數(shù)月」縮短至「數(shù)小時或數(shù)天」,這一系統(tǒng)有效解決了科研中的關(guān)鍵瓶頸問題,有潛力加速所有以可量化指標(biāo)衡量的計算研究。

系統(tǒng)在大規(guī)模解空間中進(jìn)行系統(tǒng)化探索,融合多元研究思路,并能大海撈針般的找出高質(zhì)量解決方案。這種能力預(yù)示著它可能從根本上改變科研軟件的開發(fā)方式:

既能讓更多研究者平等獲取先進(jìn)的分析工具,也能不斷拓展科學(xué)探索在計算能力上的邊界。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
德媒:在迎來更多國際承認(rèn)之際,巴勒斯坦領(lǐng)土已所剩無幾

德媒:在迎來更多國際承認(rèn)之際,巴勒斯坦領(lǐng)土已所剩無幾

參考消息
2025-09-21 20:44:03
要瘋!向佐被曝出軌澳門coco姐,女方男友猛料頻出還扯出欠債丑聞

要瘋!向佐被曝出軌澳門coco姐,女方男友猛料頻出還扯出欠債丑聞

木子愛娛樂大號
2025-09-20 21:56:46
十大元帥逝世順序排名,林彪第三,彭德懷第五,首尾都是林彪搭檔

十大元帥逝世順序排名,林彪第三,彭德懷第五,首尾都是林彪搭檔

大運河時空
2025-08-28 16:45:03
湖南醫(yī)專體育老師閔寧鋒猝死,年僅32歲身高1米8,前一天還好好的

湖南醫(yī)專體育老師閔寧鋒猝死,年僅32歲身高1米8,前一天還好好的

180視角
2025-09-22 09:51:31
遼籃官方辟謠:怒斥賣隊等均為不實言論 運營穩(wěn)定無任何出售計劃

遼籃官方辟謠:怒斥賣隊等均為不實言論 運營穩(wěn)定無任何出售計劃

醉臥浮生
2025-09-22 14:35:52
上海市600萬退休人員,養(yǎng)老金分為5等份收入組,8000元在哪一組?

上海市600萬退休人員,養(yǎng)老金分為5等份收入組,8000元在哪一組?

小蜜情感說
2025-09-22 14:03:52
反轉(zhuǎn)!女子吐槽武漢人不實在,司機透露真相,女子真實目的疑曝光

反轉(zhuǎn)!女子吐槽武漢人不實在,司機透露真相,女子真實目的疑曝光

一家說
2025-09-22 10:52:27
外交部:搞“臺獨”是死路一條,“挾洋謀獨”不會得逞

外交部:搞“臺獨”是死路一條,“挾洋謀獨”不會得逞

界面新聞
2025-09-22 15:44:25
謝霆鋒廣州演唱會第3場結(jié)束后吃大排檔,菜單曝光好樸素花費千元

謝霆鋒廣州演唱會第3場結(jié)束后吃大排檔,菜單曝光好樸素花費千元

小蘭聊歷史
2025-09-22 11:23:10
你見過最可怕的信息差是啥?網(wǎng)友:我不知道為啥一定要賺錢

你見過最可怕的信息差是啥?網(wǎng)友:我不知道為啥一定要賺錢

解讀熱點事件
2025-09-13 00:05:06
江蘇一地經(jīng)濟(jì)技術(shù)開發(fā)區(qū)黨工委原副書記、二級巡視員陳琦被查

江蘇一地經(jīng)濟(jì)技術(shù)開發(fā)區(qū)黨工委原副書記、二級巡視員陳琦被查

揚子晚報
2025-09-22 10:58:26
越南要成為下一個烏克蘭?一旦中越開戰(zhàn),中國不再對其留有余地

越南要成為下一個烏克蘭?一旦中越開戰(zhàn),中國不再對其留有余地

老謝談史
2025-09-20 23:35:19
“樺加沙”還在加強!專家分析:可能成為今年影響我國最嚴(yán)重臺風(fēng)

“樺加沙”還在加強!專家分析:可能成為今年影響我國最嚴(yán)重臺風(fēng)

齊魯壹點
2025-09-22 14:20:59
國乒深夜宣布重大名單!王勵勤祭出10大主力,卻又一次跳過林高遠(yuǎn)

國乒深夜宣布重大名單!王勵勤祭出10大主力,卻又一次跳過林高遠(yuǎn)

嘴炮體壇
2025-09-21 23:26:44
如果“武統(tǒng)”,解放臺灣要多久?解放軍中將:六戰(zhàn)一體,最多三天

如果“武統(tǒng)”,解放臺灣要多久?解放軍中將:六戰(zhàn)一體,最多三天

近史談
2025-09-21 16:08:12
濟(jì)南12歲學(xué)生被班主任掌摑七八下,監(jiān)控內(nèi)容曝光,警方已立案

濟(jì)南12歲學(xué)生被班主任掌摑七八下,監(jiān)控內(nèi)容曝光,警方已立案

恪守原則和底線
2025-09-20 19:57:12
百萬網(wǎng)紅戶晨風(fēng)全網(wǎng)封禁,全網(wǎng)平臺視頻下架賬號禁言:一場“流量毒癮”時代的終結(jié)

百萬網(wǎng)紅戶晨風(fēng)全網(wǎng)封禁,全網(wǎng)平臺視頻下架賬號禁言:一場“流量毒癮”時代的終結(jié)

侃故事的阿慶
2025-09-20 23:45:48
“現(xiàn)在的退休金太高了”,人民大學(xué)教授毛振華這樣說,大家怎么看

“現(xiàn)在的退休金太高了”,人民大學(xué)教授毛振華這樣說,大家怎么看

丁丁鯉史紀(jì)
2025-09-22 13:57:02
米格-31竄犯愛沙尼亞,進(jìn)入F-35射程才離開!當(dāng)年僅17秒就被擊落

米格-31竄犯愛沙尼亞,進(jìn)入F-35射程才離開!當(dāng)年僅17秒就被擊落

鷹眼Defence
2025-09-20 16:58:14
全紅嬋上課照片曝光!同學(xué)贈送禮物,與教授握手,讀書訓(xùn)練兩不誤

全紅嬋上課照片曝光!同學(xué)贈送禮物,與教授握手,讀書訓(xùn)練兩不誤

念洲
2025-09-21 07:44:43
2025-09-22 17:03:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11330文章數(shù) 142454關(guān)注度
往期回顧 全部

科技要聞

iPhone Air主要芯片全自研,蘋果野心曝光

頭條要聞

內(nèi)塔尼亞胡:絕不會有巴勒斯坦國 待我從美回來必回應(yīng)

頭條要聞

內(nèi)塔尼亞胡:絕不會有巴勒斯坦國 待我從美回來必回應(yīng)

體育要聞

曼城擺出大巴車,阿爾特塔:師父你變了!

娛樂要聞

全智賢拒不道歉,她的結(jié)局來了

財經(jīng)要聞

潘功勝、李云澤、吳清等重磅發(fā)聲

汽車要聞

有溫度的方盒子 戶外風(fēng)OOTD就找BJ30 旅行家

態(tài)度原創(chuàng)

家居
本地
數(shù)碼
游戲
公開課

家居要聞

詩意空間 品味雅奢格調(diào)

本地新聞

大學(xué)生軍訓(xùn)哪家強,廣西申請“出戰(zhàn)”!

數(shù)碼要聞

榮耀MagicPad 3 Pro配置曝光!全面對標(biāo)蘋果iPad Pro

游戲七日?。骸犊罩壽Ethe 1st》《消光:困獸》領(lǐng)銜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 久久99久久99精品免视看动漫| 国产精品成人av电影不卡| 开心五月深爱五月| 精品乱子伦一区二区三区| 无码一区亚洲| 欧美成aⅴ人高清ww| 亚洲AV七区| 欧美男女内插动| 黑人巨大挺进亚洲女人| 粉嫩国产av一区二区三区| 香蕉在线 亚洲 欧美 专区| 亚洲黄色香蕉网站| 人人射人人爱在线播放| 欧美久久Com| 亚洲AV成人片不卡无码| 老熟女两个奶出来了| 精品一区二区三区免费爱| 人妻av乳头| 国产精品黑人| 午夜福利精品一区二区三区| 欧美色成人综合天天影院| 亚洲美女厕所偷拍美女尿尿| 青春期熟女视频一区二区三区| 亚洲AV秘 无码一区二区三区1| 性欧美老人牲交xxxxx视频| 中文字幕无码专区人妻一区 | 亚洲熟妇白浆无码AV自慰| 天天夜碰日日摸日日澡性色AV| 国产成人av乱码在线观看| 欧美高清精品一区二区| 妺七av导航福利| 亚洲电影一区二区三区| AV小说网站| 一区二区三区av波多野结衣| 国产精品一区二区三区色| 精品精品国产高清A级毛片| 国产精品久久1024| 国产精品无码综合视频| 精品无码一区二区三区AV| www.爱上碰。av| 激情久久小说|