AI虛擬細(xì)胞又迎來新突破!
今日,在陳-扎克伯格倡議(CZI)的資助下,科學(xué)家推出了一款名為rBio虛擬細(xì)胞推理模型。
團(tuán)隊介紹,這是史上第一個能夠推理細(xì)胞生物學(xué)的人工智能模型,有望減少昂貴的生物實(shí)驗(yàn),極大地加速生物醫(yī)學(xué)研究和藥物發(fā)現(xiàn)。該研究已經(jīng)發(fā)表在了 bioRxiv 上。
簡單而言,rBio可以像科學(xué)家一樣推理與思考,并通過從虛擬細(xì)胞模型和數(shù)據(jù)中學(xué)習(xí)來產(chǎn)生新知識,而不需要昂貴的實(shí)驗(yàn)室實(shí)驗(yàn)。
該研究的主要作者Ana-Maria Istrate表示:“到目前為止,生物學(xué)領(lǐng)域90%的工作都是在實(shí)驗(yàn)室進(jìn)行測試的,僅有10% 依靠計算。通過虛擬細(xì)胞模型,我們希望顛覆這種范式。”
這種范式轉(zhuǎn)變,可以幫助研究人員在投入時間和資源進(jìn)行昂貴的實(shí)驗(yàn)室工作之前,通過AI來測試生物假設(shè)。
目前,該項(xiàng)目已經(jīng)開源代碼、模型權(quán)重及教程,開放給科學(xué)家們使用和訓(xùn)練。
開源地址:https://github.com/czi-ai/rbio
未來,虛擬細(xì)胞(Virtual Cells)極有可能成為細(xì)胞生物學(xué)實(shí)驗(yàn)室的標(biāo)配。
科學(xué)家有望擺脫時間、資金和物理資源的傳統(tǒng)限制,從而加速研究進(jìn)程。
AI虛擬細(xì)胞,新突破
虛擬細(xì)胞(AIVC)究竟是什么?
如果說,谷歌的世界模型Genie 3能夠模擬物理世界的基本規(guī)則,預(yù)測可能發(fā)生的變化,創(chuàng)建現(xiàn)實(shí)世界的“數(shù)字孿生”世界。
圖:谷歌世界模型 Genie 3
類似的,虛擬細(xì)胞則是生命科學(xué)的“世界模型”,即建模生命的基本單位細(xì)胞,并預(yù)測細(xì)胞的行為。
畢竟,大多數(shù)生命活動都是在細(xì)胞層面進(jìn)行,對于理解生命意義重大。
如果真的能夠用AI模擬精準(zhǔn)模擬細(xì)胞結(jié)構(gòu)與功能,那真的可以改變生命科學(xué)的游戲規(guī)則,從治愈疾病到創(chuàng)造新生命一切皆有可能。
而rBio瞄準(zhǔn)的則是當(dāng)前虛擬細(xì)胞的首要應(yīng)用,幫助科學(xué)家理解生命,減少實(shí)驗(yàn)驗(yàn)證。
一直以來,生物學(xué)的核心是通過“提出假設(shè)-實(shí)驗(yàn)驗(yàn)證”,來探究生命現(xiàn)象的本質(zhì)和規(guī)律。
傳統(tǒng)方法中,這個過程需要必須建立在客觀實(shí)驗(yàn)證據(jù)之上,但實(shí)驗(yàn)成本高、規(guī)模有限,且絕大多數(shù)試驗(yàn)被用于試錯。
但現(xiàn)在,rBio的科學(xué)家提出一種“軟驗(yàn)證”(soft verifiers)方法,即用AI虛擬細(xì)胞通過計算模擬進(jìn)行“虛擬實(shí)驗(yàn)”,不僅可以突破物理限制,還能給出相應(yīng)的推理結(jié)果。
rBio建立在大模型、虛擬細(xì)胞模型以及強(qiáng)化學(xué)習(xí)之上,這是一個用戶友好AI,只需要用簡單對話就可以交互。
rBio以陳-扎克伯格倡議此前發(fā)布的TranscriptFormer為基礎(chǔ),該模型在多達(dá) 1.12 億個細(xì)胞上進(jìn)行了訓(xùn)練,跨越 12 個物種的15.3億年進(jìn)化數(shù)據(jù)。
圖: rBio模型
此外,rBio通過強(qiáng)化模型的方式,融合了大模型鏈?zhǔn)剿季S,讓其能夠像科學(xué)家一樣思考和推理。
也就是說,它允許模型在缺乏大規(guī)模實(shí)驗(yàn)數(shù)據(jù)的情況下進(jìn)行推理,這對于生物學(xué)領(lǐng)域來說是一個重要的進(jìn)步。
科學(xué)家可以向rBio提出一些假設(shè),例如:“抑制基因A的作用會導(dǎo)致基因B的活性增加嗎?”
一般來說,針對基因 A 和基因 B 是否可能共表達(dá),AI僅能給出是或者否的二元回答。而作為推理模型,rBio 現(xiàn)在可以用不同的措辭回答這些相同的問題。
圖:rBio的回答案例
為了檢驗(yàn)“軟驗(yàn)證”方法,研究人員還使用了PerturbQA基準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集包含四種癌細(xì)胞系(RPE1、K562、HEPG2、JURKAT)的CRISPRi單基因擾動敲低數(shù)據(jù)。
這些結(jié)果表明,使用軟驗(yàn)證的rbio模型在F1分?jǐn)?shù)和MCC上與使用實(shí)驗(yàn)數(shù)據(jù)訓(xùn)練的模型相當(dāng),甚至在平衡準(zhǔn)確率上超過了后者。
圖:分析rBio模型的性能
目前,該項(xiàng)目的代碼、模型權(quán)重、教程均已開源:https://github.com/czi-ai/rbio
此外,rBio還上線了CZI的虛擬細(xì)胞平臺,可以幫助加速科學(xué)家在實(shí)驗(yàn)室中研究基因擾動的工作。
此外,機(jī)器學(xué)習(xí)從業(yè)者還可以使用 rBio 框架來訓(xùn)練他們自己的模型,或者使用 rBio 本身來對他們的模型進(jìn)行基準(zhǔn)測試。
不過,當(dāng)前rBio的專業(yè)知識目前僅限于基因擾動,但之后 TranscriptFormer 涵蓋的細(xì)胞生物學(xué)的下游任務(wù)都可以利用 rBio交互。
未來,虛擬細(xì)胞平臺上的虛擬細(xì)胞模型家族都可以用于訓(xùn)練類似的推理模型,或者集成多種語言模型,從最小的分子到最大的系統(tǒng)都能理解細(xì)胞。
研究人員表示:“我們的想法是,擁有這些超級強(qiáng)大的細(xì)胞模型,你可以用它們來模擬實(shí)驗(yàn)結(jié)果,而不是在實(shí)驗(yàn)室中進(jìn)行測試?!?/p>
小扎,數(shù)億美元砸向模擬細(xì)胞
陳-扎克伯格倡議(CZI),從名字來看就和互聯(lián)網(wǎng)大牛馬克·扎克伯格脫離不了關(guān)系。
2015年,女兒出生后,扎克伯格與妻子普莉希拉·陳成立了“陳-扎克伯格倡議”(CZI),同時承諾將在未來10年內(nèi)投入30億美元,用以支持教育、醫(yī)學(xué)以及基礎(chǔ)科學(xué)研究。
這不得不提到普莉希拉·陳(Priscilla Chan),她不僅是小扎的老婆,更是一名哈佛醫(yī)學(xué)院高材生兼兒科醫(yī)生。
在她的帶領(lǐng)下,陳-扎克伯格倡議正在全力奔赴AI與生物學(xué)的交叉領(lǐng)域,目標(biāo)是在本世紀(jì)結(jié)束之時,治愈人類所有疾病。
圖:扎克伯格和妻子 普莉希拉·陳
2016年,著名的人類細(xì)胞圖譜計劃(Human Cell Atlas)啟動,這一里程碑式的項(xiàng)目,旨在揭示,而陳-扎克伯格倡議則是其最早且最大的資助者之一。
早在該組織成立之初,就聯(lián)合斯坦福等頂尖大學(xué)成立Biohubs,推動生命科學(xué)前沿領(lǐng)域的探索。
目前,陳-扎克伯格倡議運(yùn)營著CZ CELLxGENE,這是全球最大的單細(xì)胞生物數(shù)據(jù)存儲庫之一,整合了來自人類和小鼠數(shù)據(jù)集的超過 3300 萬個人類細(xì)胞的數(shù)據(jù),涵蓋各種組織、狀況和疾病狀態(tài)。
如今,隨著AI以及大模型技術(shù)的發(fā)展,CZI正在將數(shù)億美元投向虛擬細(xì)胞。
去年12月,陳-扎克伯格倡議的科學(xué)負(fù)責(zé)人 Stephen Quake 聯(lián)合40多位專家學(xué)者,在頂級期刊《細(xì)胞》雜志發(fā)表文章,介紹了該領(lǐng)域的重點(diǎn)和機(jī)遇,并呼吁利用AI來創(chuàng)建虛擬人類細(xì)胞。
未來十年,陳-扎克伯格的重點(diǎn)創(chuàng)建更廣泛的“通用虛擬細(xì)胞模型”,并將進(jìn)行一系列數(shù)據(jù)、模型和應(yīng)用的重大投資。
今年上半年,陳-扎克伯格倡議聯(lián)合10x Genomics、Ultima Genomics,以及一批頂尖科研人員啟動了“十億細(xì)胞項(xiàng)目”(Billion Cells Project),旨在生成前所未有的十億細(xì)胞數(shù)據(jù)集,以推動生物學(xué)領(lǐng)域人工智能模型開發(fā)的快速進(jìn)展。
如今,rBio 是 CZI 愿景中的又一重要步驟,構(gòu)建可以像科學(xué)家一樣思考的AI,通過從虛擬細(xì)胞模型和數(shù)據(jù)中學(xué)習(xí)來產(chǎn)生新知識。
在構(gòu)建 rBio 的過程中,CZI 還構(gòu)建了一個更廣泛的框架,用于匯集虛擬細(xì)胞模型的大量知識,有望未來幾年構(gòu)建一系列廣泛使用的生物學(xué)人工智能工具。
大佬云集,生物學(xué)的下一個圣杯
不止小扎,許多大佬都表示過對于虛擬細(xì)胞的興趣與看好。
被譽(yù)為“女版巴菲特”木頭姐,其創(chuàng)辦的ARK Invest發(fā)布《Big Ideas 2025》,將虛擬細(xì)胞列為未來AI+生命科學(xué)最具有顛覆性的領(lǐng)域之一。
諾貝爾化學(xué)獎的Demis Hassabis曾表示,他的終極夢想之一是構(gòu)建虛擬細(xì)胞,這將徹底改變生物學(xué)研究,可能需要長達(dá)10年的時間去實(shí)現(xiàn)。
為了這一宏大目標(biāo),全球多個組織和公司正積極探索AI虛擬細(xì)胞的構(gòu)建與優(yōu)化。
今年4月,著名非盈利研究機(jī)構(gòu)Arc Institute宣布與10x和 Ultima Genomics 合作開發(fā)虛擬細(xì)胞圖譜,推動Arc Virtual Cell Atlas成為預(yù)測生物模型的關(guān)鍵資源。
前不久,美國艾倫研究所宣布啟動“細(xì)胞景觀”(CellScapes)計劃,旨在結(jié)合尖端成像技術(shù)與AI模型來揭示細(xì)胞原理,構(gòu)造細(xì)胞動態(tài)圖景,為科學(xué)家預(yù)測乃至設(shè)計細(xì)胞提供強(qiáng)大工具。
據(jù)悉,該項(xiàng)目將為期十年,由75名專家組成的團(tuán)隊負(fù)責(zé)執(zhí)行,期間并不設(shè)定固定的預(yù)算。
我國也正在加大對于該領(lǐng)域的投入。
2025年3月,由中國科學(xué)院廣州生物醫(yī)藥與健康研究院牽頭的人類細(xì)胞譜系大科學(xué)研究設(shè)施正式啟動建設(shè),將打造數(shù)字細(xì)胞AI大模型。
模型層面,近年來涌現(xiàn)了多個單細(xì)胞大模型,以及整合生命分子的生物學(xué)基礎(chǔ)大模型,都極大地促進(jìn)了技術(shù)突破與發(fā)展。
圖:單細(xì)胞以及生物學(xué)基礎(chǔ)大模型
毫無疑問,打造全尺度的虛擬細(xì)胞是地獄級別的難度。
因?yàn)?,研究人員必須針對不同類型的生物數(shù)據(jù)(轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、成像)使用單獨(dú)的模型,需要大量數(shù)據(jù)、獨(dú)特的模型框架以及算力。
雖然離人類細(xì)胞全尺度模擬還有很長一段距離,但這些模型在特定領(lǐng)域已經(jīng)發(fā)揮巨大的作用,有望實(shí)現(xiàn)落地。
—The End—
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.