夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

一個模型裝下整個物種樹!伯克利GPN-Star斬獲基因預(yù)測雙料冠軍

0
分享至


新智元報道

編輯:元宇

【新智元導(dǎo)讀】加州大學(xué)伯克利分校等機構(gòu)的研究人員,近日推出了一種全新的基因組語言模型GPN-Star,可以將全基因組比對和物種樹信息裝進大模型,在人類基因變異預(yù)測方面達到了當(dāng)前最先進的水平。

讓大模型讀懂物種關(guān)系,這可能嗎?

近日,加州大學(xué)伯克利分校等機構(gòu)的研究人員,推出了一個全新、通用且功能強大的GLM框架GPN-Star。


論文地址:https://www.biorxiv.org/content/10.1101/2025.09.21.677619v1

GPN-Star破解了傳統(tǒng)GLMs又大又燒算力、且在一些預(yù)測任務(wù)中不如傳統(tǒng)進化模型等短板。

同時,它也克服了GPN-MSA在新數(shù)據(jù)場景下泛化能力不足等弱點。

GPN-Star的三點重要改進

GPN-Star(Genomic Pretrained Network with Species Tree and Alignment Representations,融合物種進化樹與序列比對表示的基因組預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)),是一種基因組語言模型,它的靈感來自經(jīng)典進化模型,目標(biāo)是畫出演化軌跡。

研究人員采用了專門的Transformer架構(gòu),既能夠捕捉到WGA中的進化信號,又能夠融入基因組上下文信息(圖1A)。


該模型是純編碼器,以掩碼語言建模(MLM)為目標(biāo)訓(xùn)練,輸入跨物種WGA窗口和系統(tǒng)發(fā)育樹。

相比GPN-MSA,GPN-Star實現(xiàn)了三點升級:

  • 訓(xùn)練數(shù)據(jù)更加多樣

    GPN-MSA僅在人類基因組上進行掩碼訓(xùn)練,而GPN-Star則在多個物種中預(yù)測被掩碼的堿基,顯著擴大了訓(xùn)練數(shù)據(jù)的規(guī)模與多樣性。

  • 顯式引入物種間系統(tǒng)發(fā)育關(guān)系

    GPN-Star通過定制的注意力模塊,可能更貼近生物學(xué)實現(xiàn)更精準(zhǔn)建模。

  • 靈活適配任意比對數(shù)據(jù)

    無需像GPN-MSA手動剔除近緣物種。

GPN-Star是一個通用且高度靈活的框架,可適用于任何物種的比對數(shù)據(jù),僅需最小程度的超參數(shù)調(diào)優(yōu)即可獲得強大性能。

研究人員先將其在人類基因組落地,分別用目前最大規(guī)模的脊椎動物、哺乳動物與靈長類WGA數(shù)據(jù)分別訓(xùn)練了三個GPN-Star模型(V)、(M)、(P)(圖1B)。


研究人員重點分析了2億參數(shù)版本,結(jié)果顯示其計算資源開銷遠(yuǎn)低于之前的GLM模型。

與以往超長時跨度(例如從原核生物到人類)的GLM不同,GPN-Star聚焦于近緣系統(tǒng)發(fā)育距離(圖1B)。

很多情況下,建模較短進化歷史往往更具優(yōu)勢。尤其是在解釋某些類型的遺傳變異時,捕捉近期的進化約束效果更佳(圖1C)。


致病性編碼變異預(yù)測

研究人員系統(tǒng)評估了GPN-Star在一系列標(biāo)準(zhǔn)測試集中的預(yù)測能力。

對比PhyloP、PhastCons、CADD、以及新一代多物種GLM(如Nucleotide Transformer 2.5B、Evo-2 40B 和 GPN-MSA)之后,GPN-Star (V) 在精確率-召回曲線面積(AUPRC)方面表現(xiàn)最佳,與蛋白語言模型 ESM-1b相當(dāng)(圖 2A)。


研究人員用COSMIC數(shù)據(jù)庫評估了GPN-Star體細(xì)胞錯義變異的預(yù)測性能,結(jié)果GPN-Star(V)明顯優(yōu)于所有對比模型,表現(xiàn)出極強的體細(xì)胞致病性預(yù)測能力(圖2B)。


研究人員還在ProteinGym的31個DMS數(shù)據(jù)集上測試,GPN-Star(V)為基因組級最佳,僅略遜蛋白專用ESM-1b(圖2D)。


在非編碼任務(wù)中,研究人員重點評估致病非編碼變異。

評測用OMIM與HGMD,評測結(jié)果GPN-Star(M)雙基準(zhǔn)奪冠(圖2E、F)。


考慮到啟動子區(qū)域在轉(zhuǎn)錄起始和基因調(diào)控中的關(guān)鍵作用,研究人員還評估了GPN-Star在OMIM啟動子變異中的表現(xiàn),并啟動了三個子專用模型:PromoterAI、SpeciesLM和GPN-Promoter。

如圖2H所示,GPN-Star(M)在預(yù)測性能上明顯優(yōu)于所有對比模型,尤其是在與其他啟動子模型的比較中,其提升幅度尤為顯著。


定位錯義變異

為了進一步評估GPN-Star的實用價值,研究人員還測試了它在對來自英國生物銀行(UK Biobank)65個性狀的GWAS(全基因組關(guān)聯(lián)研究)精細(xì)定位錯義變異中,區(qū)分潛在因果變異與非因果變異的能力。

在所有參評模型中,GPN-Star(M)在區(qū)分這些精細(xì)定位的錯義變異中表現(xiàn)最好(圖2C)。


在對英國生物銀行的83個性狀的GWAS精細(xì)定位數(shù)據(jù)的基準(zhǔn)測試中,GPN-Star(M)再次優(yōu)于所有其他模型(圖2G)。


對于位于啟動子區(qū)域的精細(xì)定位變異,GPN-Star(M)再次超越了所有模型,包括PromoterAI、SpeciesLM和GPN-Promoter(圖2H)。


強大的全基因組變異解讀框架

上述結(jié)果表明,GPN-Star是一個強大、多用途的全基因組變異解讀框架。

研究人員在多個基準(zhǔn)測試中,觀察到基于更長進化時間尺度訓(xùn)練的模型,更容易預(yù)測編碼變異以及低頻、效應(yīng)大的變異。

而非編碼變異以及高頻、效應(yīng)較小的變異,則更適合使用在較短進化時間尺度上訓(xùn)練的模型進行預(yù)測。

PhyloP和PhastCons分?jǐn)?shù)在三種進化時間尺度下也呈現(xiàn)出類似趨勢,但在每一種時間尺度下,GPN-Star表現(xiàn)都優(yōu)于二者(圖2I)。


考慮到GPN-Star在致病變異和精細(xì)定位變異預(yù)測中的強勁表現(xiàn),研究人員進一步探索了它在稀有變異關(guān)聯(lián)分析(RVAT)中的應(yīng)用潛力,發(fā)現(xiàn)GPN-Star提升了稀有變異關(guān)聯(lián)分析的能力。

學(xué)習(xí)基因組功能元件及依賴關(guān)系

GLM模型可以通過預(yù)測被遮蔽的核苷酸來學(xué)習(xí)強大的序列表示。

為探究這一點,研究人員可視化了基因區(qū)、cCRE和背景區(qū)的基因組窗口嵌入(圖4A)。


研究發(fā)現(xiàn),保守序列窗口的嵌入在功能區(qū)域上的聚類性更強(圖4B),說明GPN-Star在預(yù)測時能識別基因組的關(guān)鍵功能元素。


為了進一步分析GPN-Star是否理解基因組「語法」,研究人員系統(tǒng)地對序列中每個位置進行突變,并計算該變異對其它位置預(yù)測概率的影響。

在編碼酶酪氨酸羥化酶的TH基因啟動子及首個外顯子區(qū)域中,研究人員觀察到兩個強依賴模塊:

一個在編碼區(qū),另一個在轉(zhuǎn)錄因子CREB的結(jié)合位點,該位點突變已知會引發(fā)酪氨酸羥化酶缺乏癥和肌張力障礙(圖4C)。


在HBA1基因中,研究人員也觀察到跨外顯子的依賴關(guān)系。

該基因的內(nèi)含子極短,能夠完整落入模型上下文窗口內(nèi)。剪接供體與受體區(qū)域間的依賴關(guān)系尤其顯著,與已有研究結(jié)果一致。

隨后研究人員分析了LDLR啟動子,該區(qū)域與家族性高膽固醇血癥相關(guān),且已通過MPRA等方法廣泛研究。

模型可根據(jù)堿基依賴圖中的塊結(jié)構(gòu)準(zhǔn)確預(yù)測TFBS的位置(圖4D),同時還能識別TFBS之間的依賴關(guān)系。


最后,研究人員分析了一個被認(rèn)為受到靈長類特異性進化約束的開放區(qū)域。

在該區(qū)域的一個潛在TEAD4結(jié)合位點附近,GPN-Star(P)模型預(yù)測到了最強的依賴信號。

這些結(jié)果表明,GPN-Star能夠通過協(xié)同進化信號學(xué)習(xí)有意義的堿基依賴結(jié)構(gòu),且與已知功能依賴一致。

這相較于傳統(tǒng)的保守性評分方法(如PhyloP和PhastCons)是一次顯著的進步。

為了更直接地評估模型預(yù)測與基因組中進化約束之間的關(guān)聯(lián),研究人員利用了gnomAD v3.1.2提供的等位基因頻率數(shù)據(jù),該版本匯總了來自76,156名個體的全基因組測序樣本。

研究人員重點將GPN-Star與PhyloP和PhastCons進行對比,這兩種模型同樣基于全基因組比對(WGA)數(shù)據(jù)來學(xué)習(xí)進化約束。

為了評估模型對等位基因頻率與約束關(guān)系的捕捉能力,研究人員選取了這三種模型在脊椎動物、哺乳動物和靈長類三個不同進化時間尺度上的版本,對gnomAD v3中第22號染色體的全部變異進行了預(yù)測(該染色體未用于GPN-Star模型訓(xùn)練)。

隨后,研究人員按照每個模型的評分分位數(shù)對變異進行分組,并對各組中的平均等位基因頻率進行比較。

如圖5A所示,在所有三個時間尺度下,GPN-Star評分最低分位數(shù)中的變異平均頻率顯著低于對應(yīng)的PhyloP和PhastCons分組,表明GPN-Star更準(zhǔn)確地捕捉了人類基因組中的選擇性約束。


研究人員進一步進行量化分析,關(guān)注模型評分分布中「最具約束力」的尾部區(qū)間。如圖5B所示,三種GPN-Star模型在稀有變異富集上均明顯優(yōu)于PhyloP、PhastCons和CADD。


在GPN-Star各版本中,基于脊椎動物訓(xùn)練的模型整體表現(xiàn)最佳,甚至超過了同樣以脊椎動物數(shù)據(jù)訓(xùn)練的GPN-MSA。

進一步按分子功能后果對變異進行分層分析后,GPN-Star在所有類別中均取得最高富集度。

其中,GPN-Star(V)在錯義變異中表現(xiàn)最優(yōu),而GPN-Star(M)則在同義與非編碼變異方面領(lǐng)先,這一趨勢與先前基準(zhǔn)測試中的觀察結(jié)果一致。

研究人員研究了上下文相關(guān)的突變率差異對模型預(yù)測的影響,發(fā)現(xiàn)控制突變率變異有助于提升變異效應(yīng)預(yù)測的準(zhǔn)確性。

由于GPN-Star是在真實基因組序列上訓(xùn)練的,其預(yù)測自然同時反映了突變過程和選擇過程的綜合影響。

研究人員在致病性預(yù)測和復(fù)雜性狀遺傳力方面的結(jié)果證明了GPN-Star在人類遺傳學(xué)中的實用性。

將進化數(shù)據(jù)與功能基因組數(shù)據(jù)結(jié)合,開發(fā)更強大的多模態(tài)基因語言模型,是未來非常值得探索的方向。

參考資料:

https://www.biorxiv.org/content/10.1101/2025.09.21.677619v1%20

https://x.com/yun_s_song/status/1969994081251266665

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
刷醫(yī)保買藥比自費貴44%,一場針對14億人救命錢的集體搶劫……

刷醫(yī)保買藥比自費貴44%,一場針對14億人救命錢的集體搶劫……

柴狗夫斯基
2025-10-15 11:00:50
1小時到武漢,即將建成

1小時到武漢,即將建成

極目新聞
2025-10-16 09:45:20
印尼防長:將采購中國殲-10戰(zhàn)斗機

印尼防長:將采購中國殲-10戰(zhàn)斗機

環(huán)球網(wǎng)資訊
2025-10-16 09:13:12
不能輸日本!國乒亞錦賽獲勝后林詩棟和梁靖崑哭了,對手呆若木雞

不能輸日本!國乒亞錦賽獲勝后林詩棟和梁靖崑哭了,對手呆若木雞

老高說體育
2025-10-15 12:28:22
上海警方通報一男子高墜死亡

上海警方通報一男子高墜死亡

界面新聞
2025-10-15 21:55:38
51歲何炅突然自曝:我現(xiàn)在特別痛苦

51歲何炅突然自曝:我現(xiàn)在特別痛苦

魯中晨報
2025-10-16 07:04:03
江孜縣眾領(lǐng)導(dǎo)都被處分了,為何對蔡國強只字未提?背后原因很簡單

江孜縣眾領(lǐng)導(dǎo)都被處分了,為何對蔡國強只字未提?背后原因很簡單

剛哥說法365
2025-10-15 22:55:00
被區(qū)別對待、掛滿不歡迎中國人,德韓街頭滿是“針對”,誰還去

被區(qū)別對待、掛滿不歡迎中國人,德韓街頭滿是“針對”,誰還去

姩姩有娛
2025-10-13 18:36:22
踢到鐵板,韓國人被騙到柬埔寨園區(qū),韓國媒體大幅度報道,鬧大了

踢到鐵板,韓國人被騙到柬埔寨園區(qū),韓國媒體大幅度報道,鬧大了

你食不食油餅
2025-10-15 07:37:47
想掀桌了?歐盟放狠話:中國想賺錢就必須轉(zhuǎn)讓技術(shù),尤其是新能源

想掀桌了?歐盟放狠話:中國想賺錢就必須轉(zhuǎn)讓技術(shù),尤其是新能源

青青子衿
2025-10-16 02:58:25
保時捷女銷冠后續(xù):1年前生活照朋友圈被扒,家境丈夫職業(yè)被曝光

保時捷女銷冠后續(xù):1年前生活照朋友圈被扒,家境丈夫職業(yè)被曝光

攬星河的筆記
2025-10-14 21:28:05
“把成年人當(dāng)成年人”:Altman親口確認(rèn) ChatGPT 將開放情色內(nèi)容

“把成年人當(dāng)成年人”:Altman親口確認(rèn) ChatGPT 將開放情色內(nèi)容

大數(shù)據(jù)文摘
2025-10-15 18:38:21
趙薇關(guān)聯(lián)公司再被強制執(zhí)行

趙薇關(guān)聯(lián)公司再被強制執(zhí)行

大象新聞
2025-10-16 10:21:03
好友曝李亞鵬離婚真正內(nèi)幕!9月份海哈金喜曾痛哭,其母默默陪伴

好友曝李亞鵬離婚真正內(nèi)幕!9月份海哈金喜曾痛哭,其母默默陪伴

一只番茄魚
2025-10-15 12:06:42
1年360萬美元!威少加盟國王迎第18季 聯(lián)手拉文德羅贊小薩

1年360萬美元!威少加盟國王迎第18季 聯(lián)手拉文德羅贊小薩

醉臥浮生
2025-10-16 00:31:41
山西一老師猥褻多名學(xué)生,撫摸隱私部位、開黃腔,手機里有不雅照

山西一老師猥褻多名學(xué)生,撫摸隱私部位、開黃腔,手機里有不雅照

180視角
2025-10-15 21:15:52
臺北車站一醉酒女游客被男子拖至墻邊性侵超10分鐘,現(xiàn)場竟無人出手相助

臺北車站一醉酒女游客被男子拖至墻邊性侵超10分鐘,現(xiàn)場竟無人出手相助

都市快報橙柿互動
2025-10-16 08:10:57
國內(nèi)將逐漸停止“腰突微創(chuàng)”手術(shù)?做完人就癱了?醫(yī)生講出實情

國內(nèi)將逐漸停止“腰突微創(chuàng)”手術(shù)?做完人就癱了?醫(yī)生講出實情

阿纂看事
2025-10-15 09:38:40
中國商務(wù)部一大早發(fā)聲,特朗普沒想到,北約秘書長提醒32國盯中國

中國商務(wù)部一大早發(fā)聲,特朗普沒想到,北約秘書長提醒32國盯中國

博覽歷史
2025-10-15 17:21:07
新郎跳河真相大白!雙方激烈爭吵,最后1句話曝光,女方自認(rèn)無責(zé)

新郎跳河真相大白!雙方激烈爭吵,最后1句話曝光,女方自認(rèn)無責(zé)

攬星河的筆記
2025-10-15 19:18:49
2025-10-16 10:47:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13628文章數(shù) 66217關(guān)注度
往期回顧 全部

科技要聞

許四清:AI投資押注 “奧林匹克級” 團隊

頭條要聞

牛彈琴:特朗普宣布大消息 印度人聽懵了都不敢相信

頭條要聞

牛彈琴:特朗普宣布大消息 印度人聽懵了都不敢相信

體育要聞

這支闖入世青賽決賽的摩洛哥,有多純粹?

娛樂要聞

榮梓杉塌房太離譜!出軌家暴還反咬?

財經(jīng)要聞

白銀,瘋狂“逼空”!

汽車要聞

搭激光雷達/純電續(xù)航506km 長安啟源全新Q05開啟盲訂

態(tài)度原創(chuàng)

時尚
本地
親子
房產(chǎn)
藝術(shù)

今秋要穿這15條裙子!上身絕美,太撩人了!

本地新聞

考上警犬專業(yè),我和修勾一起卷編制

親子要聞

你家小孩戴眼鏡了嗎?醫(yī)生的小孩也早早戴上了眼鏡

房產(chǎn)要聞

刷新認(rèn)知!塔尖群體向往的高定度假豪宅,現(xiàn)身海南!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關(guān)懷版 激情亚洲视频| 四虎成人精品在永久免费| 高清无码的黄色视频| 国产精品视频在线观看| 欧美人妻少妇精品视频专区| 91人妻人人做人碰人人爽一区二区 | 日韩欧群交p片内射中文| 影音先锋AV男人站| 欧美xxxx新一区二区三区| 中文8天堂网| 久热久热久热| 国产系列高清精品第一页| 玩弄中年熟妇正在播放| 少妇被爽到高潮在线观看| 人人爽人人模人人人爽人人爱| 清纯粉嫩极品夜夜嗨AV| 亚洲伊人第一区第二区第三区| 成人无码特黄特黄av片在线| 中文字幕无线码一区2020青青| 久久天堂综合亚洲伊人HD| 欧美在线一片| 麻豆精品一区二区综合av| 熟女亮丝肥臀| 成人午夜视频78| 人妻丰满av无码中文字幕| 日韩久久久精品| 黄色网站在线免费观看| 日本熟妇色 日本| 无码人妻一区二区三区线| 无码播放专区| 亚洲AV无码精品色午夜a| 狠狠色噜噜狠狠狠狠色综合久| 国内永久福利在线视频图片| 久久久久久久精品国产免费| 日日夜夜AV| 免费AV片在线观看网址| www.3fendi.cn| 性按摩xxxx在线观看| 国内精品久久久久精品| 蜜臀精品视频一区二区三区| 在线观看国产高潮|