聞樂 發(fā)自 凹非寺量子位 | 公眾號 QbitAI
蛋白質(zhì)模型的GPT時刻來了!
清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)周浩副教授課題組聯(lián)合上海人工智能實驗室發(fā)布了AMix-1
首次以Scaling Law、Emergent Ability、In-Context Learning和Test-time Scaling的系統(tǒng)化方法論來構(gòu)建蛋白質(zhì)基座模型。
這為通往蛋白質(zhì)的通用智能構(gòu)建起了新的技術(shù)范式。讓停留在BERT時代、缺乏可擴展性和通用性的蛋白質(zhì)基座領(lǐng)域?qū)崿F(xiàn)了向GPT時代的跨越。
就像NLP領(lǐng)域的ChatGPT一樣,AMix-1不再局限于某一種蛋白質(zhì)任務(wù),而是能舉一反三、自主學(xué)習(xí)。
這個“蛋白質(zhì)GPT”能自己摸索規(guī)律,看幾個例子就會設(shè)計新蛋白,甚至越研究越厲害。
由AMix-1設(shè)計的蛋白質(zhì)已經(jīng)通過濕實驗的硬核考驗,最優(yōu)變體蛋白質(zhì)活性提升了50倍
并且,它的模型權(quán)重、代碼和技術(shù)細(xì)節(jié)已全部公開,下面來看看具體細(xì)節(jié)。
四大“超能力”
- 當(dāng)語言模型涌現(xiàn)出通用智能時,蛋白質(zhì)模型的通用智能還有多遠(yuǎn)?
在NLP領(lǐng)域,語言模型基座經(jīng)歷了從BERT到GPT的跨時代變化,涌現(xiàn)出了各種超出預(yù)期的通用智能,BERT時代的模型關(guān)心具體任務(wù)的提升,缺乏對可擴展性、通用性和涌現(xiàn)能力的系統(tǒng)化討論。
而在GPT時代,系統(tǒng)化的討論逐漸顯現(xiàn),通用智能的爆發(fā)也因此開始。
然而,在蛋白質(zhì)基座領(lǐng)域,幾乎沒有貫徹這條智能涌現(xiàn)的路徑,一系列工作同樣停留在BERT時代,在“預(yù)訓(xùn)練+任務(wù)微調(diào)”這一范式下前行,缺乏對可擴展性、通用性和涌現(xiàn)能力的系統(tǒng)化討論。
AMix-1是基于貝葉斯流網(wǎng)絡(luò)(Bayesian Flow Networks, BFNs)的蛋白質(zhì)基座新范式,為蛋白質(zhì)基座模型實現(xiàn)Test-time Scaling提供了一整套系統(tǒng)性的技術(shù)方案:
- Pretraining Scaling Law明確了參數(shù)、樣本數(shù)和計算量如何權(quán)衡,才能最大化模型的能力。
- Emergent Ability顯示隨著訓(xùn)練的推進,模型會涌現(xiàn)出對蛋白結(jié)構(gòu)的“感知理解”。
- In-Context Learning解決了功能優(yōu)化中的對齊難題,讓模型學(xué)會在進化語境中推理與設(shè)計。
- Test-time Scaling讓AMix-1在驗證預(yù)算增加時,“越花時間越有回報”,開啟基于演化的設(shè)計新方式。
實際上我們可以將其概括為AMix-1的四大“超能力”。
成長有規(guī)律,進步看得見
就像學(xué)生刷題越多、成績提升越穩(wěn)定,AMix-1有個“可預(yù)測的成長曲線”。
研究者設(shè)計了從800萬到17億參數(shù)的多尺度模型組合,利用訓(xùn)練FLOPs(浮點操作數(shù))作為統(tǒng)一衡量指標(biāo),精確擬合、預(yù)測了模型交叉熵?fù)p失與計算量的冪律關(guān)系。
他們發(fā)現(xiàn),只要增加模型參數(shù)、訓(xùn)練數(shù)據(jù)或計算量,AMix-1的性能(比如預(yù)測蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確度)就會按規(guī)律提升。
這意味著科學(xué)家能精準(zhǔn)規(guī)劃資源,不用擔(dān)心花了錢卻沒效果,為更大規(guī)模的蛋白質(zhì)研究鋪平了路。
突然開竅,看懂蛋白質(zhì)的隱藏規(guī)律
AMix-1最神奇的一點是會“頓悟”。
剛開始訓(xùn)練時,它只懂識別蛋白質(zhì)的基本序列,但隨著訓(xùn)練深入,當(dāng)loss降到某個閾值時,它會自動具備“結(jié)構(gòu)感知能力”——
不用任何人教,就能自動理解蛋白質(zhì)的折疊方式、空間結(jié)構(gòu)。
這種能力不是漸進,而是跳變。就像從只會認(rèn)字母,突然學(xué)會了讀懂整篇文章的意思,這種“質(zhì)變”讓它能更好地把握蛋白質(zhì)結(jié)構(gòu)和功能的關(guān)系。
不需要微調(diào),看例子就能“仿寫”
這實際上是其In-Context Learning機制在蛋白質(zhì)設(shè)計過程中的體現(xiàn)。
以前設(shè)計蛋白質(zhì),要針對不同任務(wù)改算法,就像做一道新題要重新學(xué)公式。
但AMix-1 會上下文學(xué)習(xí):給它幾個同類蛋白質(zhì)的例子(比如一組能在高溫下工作的酶),它能自動總結(jié)規(guī)律,直接設(shè)計出符合這些規(guī)律的新蛋白,不用任何額外訓(xùn)練。
具體來說,這種方法把一組蛋白質(zhì)MSA(多序列比對)壓縮成一個位置級的概率分布,作為提示輸入給模型。
而模型不需要任何微調(diào),就能根據(jù)這些例子自動推理出結(jié)構(gòu)和功能規(guī)律,并生成符合意圖的新蛋白。
在結(jié)構(gòu)任務(wù)上(上圖a-b),以常規(guī)同源蛋白甚至在近乎無同源的“孤兒蛋白”為提示,AMix-1生成在預(yù)測結(jié)構(gòu)上高度一致的新蛋白;
在功能任務(wù)中(上圖c-d),AMix-1在輸入蛋白的酶學(xué)功能和化學(xué)反應(yīng)引導(dǎo)的酶設(shè)計上,AMix-1能生成出功能高度一致的蛋白酶。
越琢磨越厲害,進化能力無上限
AMix-1設(shè)計了獨特的測試時擴展方法EvoAMix-1,能夠利用其特有的上下文學(xué)習(xí)范式,在簡單可插拔的驗證(包括計算模擬與濕實驗評估)加持下,實現(xiàn)模型能力隨驗證預(yù)算提升的可持續(xù)擴展。
同時,AMix-1也是第一個具備了測試時擴展能力的蛋白質(zhì)基礎(chǔ)模型。
實驗結(jié)果顯示,EvoAMix-1在所有任務(wù)上展示出強勁的擴展能力,同時也體現(xiàn)其跨任務(wù)、跨目標(biāo)的強大通用性。
下圖展示了EvoAMix-1在六個定向進化基準(zhǔn)中的Test-time Scaling性能。
這也就是說,給它更多驗證時間和資源,它能不斷優(yōu)化設(shè)計結(jié)果。
比如設(shè)計酶的時候,第一次生成10個候選蛋白,測試后挑出最好的2個,再讓它基于這2個繼續(xù)改進,重復(fù)幾次,就能得到性能遠(yuǎn)超初始版本的蛋白質(zhì)。
下圖展示了AMix-1在推理階段進行進化擴展算法的工作流程。
AMix-1已經(jīng)通過了濕實驗的硬核考驗。
研究者想優(yōu)化一種叫AmeR的轉(zhuǎn)錄調(diào)控因子(常用于合成生物學(xué)的基因開關(guān)),讓它更擅長結(jié)合DNA。
用AMix-1生成40個變體后,實驗發(fā)現(xiàn)最優(yōu)的變體蛋白質(zhì)活性提升了50倍,比目前最先進的方法還提升了77%。
更關(guān)鍵的是,整個過程全自動化,不用科學(xué)家手動調(diào)整,完美實現(xiàn)了「從模型到實驗」的閉環(huán)。
清華大學(xué)智能產(chǎn)業(yè)研究院還聯(lián)合上海人工智能實驗室研發(fā)了一個虛擬生物實驗室
AMix-1支撐了該虛擬生物實驗室的蛋白質(zhì)生成與進化工作。
以前需要反復(fù)試錯、耗錢耗時的蛋白質(zhì)改造,現(xiàn)在可能像和ChatGPT聊天一樣簡單~
技術(shù)報告:https://arxiv.org/pdf/2507.08920
項目主頁:https://gensi-thuair.github.io/AMix-1/
模型權(quán)重:https://huggingface.co/GenSI/AMix-1-1.7B
代碼倉庫:https://github.com/GenSI-THUAIR/AMix-1
虛擬生物實驗室:https://virtualbiolab.intern-ai.org.cn/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.