網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

蛋白質(zhì)基座的GPT時代來了？！

2025-08-11 09:05:26　來源: 量子位

北京舉報

分享至

聞樂發(fā)自凹非寺量子位 | 公眾號 QbitAI

蛋白質(zhì)模型的GPT時刻來了！

清華大學(xué)智能產(chǎn)業(yè)研究院（AIR）周浩副教授課題組聯(lián)合上海人工智能實驗室發(fā)布了AMix-1

首次以Scaling Law、Emergent Ability、In-Context Learning和Test-time Scaling的系統(tǒng)化方法論來構(gòu)建蛋白質(zhì)基座模型。

這為通往蛋白質(zhì)的通用智能構(gòu)建起了新的技術(shù)范式。讓停留在BERT時代、缺乏可擴展性和通用性的蛋白質(zhì)基座領(lǐng)域?qū)崿F(xiàn)了向GPT時代的跨越。

就像NLP領(lǐng)域的ChatGPT一樣，AMix-1不再局限于某一種蛋白質(zhì)任務(wù)，而是能舉一反三、自主學(xué)習(xí)。

這個“蛋白質(zhì)GPT”能自己摸索規(guī)律，看幾個例子就會設(shè)計新蛋白，甚至越研究越厲害。

由AMix-1設(shè)計的蛋白質(zhì)已經(jīng)通過濕實驗的硬核考驗，最優(yōu)變體蛋白質(zhì)活性提升了50倍

并且，它的模型權(quán)重、代碼和技術(shù)細(xì)節(jié)已全部公開，下面來看看具體細(xì)節(jié)。

四大“超能力”

當(dāng)語言模型涌現(xiàn)出通用智能時，蛋白質(zhì)模型的通用智能還有多遠(yuǎn)？

在NLP領(lǐng)域，語言模型基座經(jīng)歷了從BERT到GPT的跨時代變化，涌現(xiàn)出了各種超出預(yù)期的通用智能，BERT時代的模型關(guān)心具體任務(wù)的提升，缺乏對可擴展性、通用性和涌現(xiàn)能力的系統(tǒng)化討論。

而在GPT時代，系統(tǒng)化的討論逐漸顯現(xiàn)，通用智能的爆發(fā)也因此開始。

然而，在蛋白質(zhì)基座領(lǐng)域，幾乎沒有貫徹這條智能涌現(xiàn)的路徑，一系列工作同樣停留在BERT時代，在“預(yù)訓(xùn)練+任務(wù)微調(diào)”這一范式下前行，缺乏對可擴展性、通用性和涌現(xiàn)能力的系統(tǒng)化討論。

AMix-1是基于貝葉斯流網(wǎng)絡(luò)（Bayesian Flow Networks, BFNs）的蛋白質(zhì)基座新范式，為蛋白質(zhì)基座模型實現(xiàn)Test-time Scaling提供了一整套系統(tǒng)性的技術(shù)方案：

Pretraining Scaling Law明確了參數(shù)、樣本數(shù)和計算量如何權(quán)衡，才能最大化模型的能力。
Emergent Ability顯示隨著訓(xùn)練的推進，模型會涌現(xiàn)出對蛋白結(jié)構(gòu)的“感知理解”。
In-Context Learning解決了功能優(yōu)化中的對齊難題，讓模型學(xué)會在進化語境中推理與設(shè)計。
Test-time Scaling讓AMix-1在驗證預(yù)算增加時，“越花時間越有回報”，開啟基于演化的設(shè)計新方式。

實際上我們可以將其概括為AMix-1的四大“超能力”。

成長有規(guī)律，進步看得見

就像學(xué)生刷題越多、成績提升越穩(wěn)定，AMix-1有個“可預(yù)測的成長曲線”。

研究者設(shè)計了從800萬到17億參數(shù)的多尺度模型組合，利用訓(xùn)練FLOPs（浮點操作數(shù)）作為統(tǒng)一衡量指標(biāo)，精確擬合、預(yù)測了模型交叉熵?fù)p失與計算量的冪律關(guān)系。

他們發(fā)現(xiàn)，只要增加模型參數(shù)、訓(xùn)練數(shù)據(jù)或計算量，AMix-1的性能（比如預(yù)測蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確度）就會按規(guī)律提升。

這意味著科學(xué)家能精準(zhǔn)規(guī)劃資源，不用擔(dān)心花了錢卻沒效果，為更大規(guī)模的蛋白質(zhì)研究鋪平了路。

突然開竅，看懂蛋白質(zhì)的隱藏規(guī)律

AMix-1最神奇的一點是會“頓悟”。

剛開始訓(xùn)練時，它只懂識別蛋白質(zhì)的基本序列，但隨著訓(xùn)練深入，當(dāng)loss降到某個閾值時，它會自動具備“結(jié)構(gòu)感知能力”——

不用任何人教，就能自動理解蛋白質(zhì)的折疊方式、空間結(jié)構(gòu)。

這種能力不是漸進，而是跳變。就像從只會認(rèn)字母，突然學(xué)會了讀懂整篇文章的意思，這種“質(zhì)變”讓它能更好地把握蛋白質(zhì)結(jié)構(gòu)和功能的關(guān)系。

不需要微調(diào)，看例子就能“仿寫”

這實際上是其In-Context Learning機制在蛋白質(zhì)設(shè)計過程中的體現(xiàn)。

以前設(shè)計蛋白質(zhì)，要針對不同任務(wù)改算法，就像做一道新題要重新學(xué)公式。

但AMix-1 會上下文學(xué)習(xí)：給它幾個同類蛋白質(zhì)的例子（比如一組能在高溫下工作的酶），它能自動總結(jié)規(guī)律，直接設(shè)計出符合這些規(guī)律的新蛋白，不用任何額外訓(xùn)練。

具體來說，這種方法把一組蛋白質(zhì)MSA（多序列比對）壓縮成一個位置級的概率分布，作為提示輸入給模型。

而模型不需要任何微調(diào)，就能根據(jù)這些例子自動推理出結(jié)構(gòu)和功能規(guī)律，并生成符合意圖的新蛋白。

在結(jié)構(gòu)任務(wù)上（上圖a-b），以常規(guī)同源蛋白甚至在近乎無同源的“孤兒蛋白”為提示，AMix-1生成在預(yù)測結(jié)構(gòu)上高度一致的新蛋白；

在功能任務(wù)中（上圖c-d），AMix-1在輸入蛋白的酶學(xué)功能和化學(xué)反應(yīng)引導(dǎo)的酶設(shè)計上，AMix-1能生成出功能高度一致的蛋白酶。

越琢磨越厲害，進化能力無上限

AMix-1設(shè)計了獨特的測試時擴展方法EvoAMix-1，能夠利用其特有的上下文學(xué)習(xí)范式，在簡單可插拔的驗證（包括計算模擬與濕實驗評估）加持下，實現(xiàn)模型能力隨驗證預(yù)算提升的可持續(xù)擴展。

同時，AMix-1也是第一個具備了測試時擴展能力的蛋白質(zhì)基礎(chǔ)模型。

實驗結(jié)果顯示，EvoAMix-1在所有任務(wù)上展示出強勁的擴展能力，同時也體現(xiàn)其跨任務(wù)、跨目標(biāo)的強大通用性。

下圖展示了EvoAMix-1在六個定向進化基準(zhǔn)中的Test-time Scaling性能。

這也就是說，給它更多驗證時間和資源，它能不斷優(yōu)化設(shè)計結(jié)果。

比如設(shè)計酶的時候，第一次生成10個候選蛋白，測試后挑出最好的2個，再讓它基于這2個繼續(xù)改進，重復(fù)幾次，就能得到性能遠(yuǎn)超初始版本的蛋白質(zhì)。

下圖展示了AMix-1在推理階段進行進化擴展算法的工作流程。

AMix-1已經(jīng)通過了濕實驗的硬核考驗。

研究者想優(yōu)化一種叫AmeR的轉(zhuǎn)錄調(diào)控因子（常用于合成生物學(xué)的基因開關(guān)），讓它更擅長結(jié)合DNA。

用AMix-1生成40個變體后，實驗發(fā)現(xiàn)最優(yōu)的變體蛋白質(zhì)活性提升了50倍，比目前最先進的方法還提升了77%。

更關(guān)鍵的是，整個過程全自動化，不用科學(xué)家手動調(diào)整，完美實現(xiàn)了「從模型到實驗」的閉環(huán)。

清華大學(xué)智能產(chǎn)業(yè)研究院還聯(lián)合上海人工智能實驗室研發(fā)了一個虛擬生物實驗室

AMix-1支撐了該虛擬生物實驗室的蛋白質(zhì)生成與進化工作。

以前需要反復(fù)試錯、耗錢耗時的蛋白質(zhì)改造，現(xiàn)在可能像和ChatGPT聊天一樣簡單～

技術(shù)報告：https://arxiv.org/pdf/2507.08920
項目主頁：https://gensi-thuair.github.io/AMix-1/
模型權(quán)重：https://huggingface.co/GenSI/AMix-1-1.7B
代碼倉庫：https://github.com/GenSI-THUAIR/AMix-1

虛擬生物實驗室：https://virtualbiolab.intern-ai.org.cn/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.