新智元報(bào)道
編輯:定慧 好困
【新智元導(dǎo)讀】OpenAI與Retro Biosciences合作,借助定制模型GPT-4b micro成功設(shè)計(jì)出優(yōu)化版「山中因子」,大幅提升了成體細(xì)胞逆轉(zhuǎn)為多能干細(xì)胞的效率。這一成果不僅改進(jìn)了細(xì)胞工程,更展示了AI賦能生命科學(xué)研究的全新范式,加速科研進(jìn)入全新時(shí)代。
在生命科學(xué)領(lǐng)域,一個(gè)長(zhǎng)期未解的難題是:如何高效地將成體細(xì)胞逆轉(zhuǎn)為多能干細(xì)胞。
傳統(tǒng)方法依賴一種稱為「山中因子」的蛋白質(zhì)。
「山中因子」的一種變體
只要把它導(dǎo)入成體細(xì)胞,就能把它們「重編程」為誘導(dǎo)多能干細(xì)胞(iPSCs)。
這種「細(xì)胞逆轉(zhuǎn)」,能讓普通的體細(xì)胞回到像胚胎一樣的狀態(tài),從此人類就有可能再生各種組織,甚至治愈那些無(wú)法治療的疾病。
今天在AI的幫助下,人類又一次離「逆轉(zhuǎn)衰老」更進(jìn)一步!
剛剛,OpenAI宣布,他們和Retro Biosciences的合作已成功利用GPT?4b micro設(shè)計(jì)出了山中因子的「新穎且顯著優(yōu)化」的變體。
GPT?4b micro是OpenAI專門為生命科學(xué)和蛋白質(zhì)工程定制的AI模型。
可以理解為GPT-4系列的一個(gè)「微縮實(shí)驗(yàn)版」。
它不是通用大模型,而是針對(duì)蛋白質(zhì)設(shè)計(jì)這個(gè)任務(wù)做了專門優(yōu)化。
山中因子是一組特殊的蛋白質(zhì),因其在誘導(dǎo)產(chǎn)生多能干細(xì)胞(iPSCs)和實(shí)現(xiàn)細(xì)胞年輕化方面的開創(chuàng)性作用而榮獲諾貝爾獎(jiǎng)。
該技術(shù)還被用于開發(fā)治療失明、逆轉(zhuǎn)糖尿病、治療不孕癥以及解決器官短缺等問(wèn)題的創(chuàng)新療法。
山中因子
20世紀(jì)末,科學(xué)界有一個(gè)幾乎不可動(dòng)搖的共識(shí):細(xì)胞的命運(yùn)一旦確定,就無(wú)法逆轉(zhuǎn)。
如果一個(gè)細(xì)胞已經(jīng)分化成皮膚細(xì)胞、肌肉細(xì)胞或神經(jīng)細(xì)胞,就不能再「回頭」變成其他細(xì)胞。
皮膚細(xì)胞只能是皮膚細(xì)胞,神經(jīng)元只能是神經(jīng)元,沒(méi)人相信它們還能逆轉(zhuǎn),重新變成萬(wàn)能的胚胎樣細(xì)胞。
獲取多能干細(xì)胞只能依賴胚胎,這不僅受制于倫理爭(zhēng)議,也讓再生醫(yī)學(xué)的發(fā)展步履維艱。
然而,一位日本科學(xué)家山中伸彌(Shinya Yamanaka)并不愿接受這樣的限制。
作為骨科醫(yī)生出身的研究者,他親眼見過(guò)病人因神經(jīng)損傷、器官衰竭而無(wú)藥可醫(yī)。他心里一直有個(gè)疑問(wèn):
如果能讓普通的體細(xì)胞回到像胚胎一樣的狀態(tài),是不是就能再生各種組織,甚至治愈那些無(wú)法治療的疾病呢?
2006年,他帶著團(tuán)隊(duì)把幾十個(gè)與干細(xì)胞有關(guān)的基因一股腦兒導(dǎo)入小鼠的皮膚細(xì)胞,嘗試讓它們「重啟」。
出人意料的是,有些細(xì)胞真的開始「逆轉(zhuǎn)」,逐漸表現(xiàn)出胚胎干細(xì)胞的特征。
經(jīng)過(guò)不斷篩選,他們最終鎖定了OCT4、SOX2、KLF4、MYC四個(gè)關(guān)鍵因子。
只要把這四個(gè)基因一起導(dǎo)入成體細(xì)胞,就能把它們「重編程」為誘導(dǎo)多能干細(xì)胞(iPSCs)。
這個(gè)發(fā)現(xiàn)震驚了全世界,也徹底顛覆了「細(xì)胞命運(yùn)不可逆」的傳統(tǒng)觀點(diǎn)。
正是因?yàn)檫@一里程碑式的突破,山中伸彌和John Gurdon在2012年獲得了諾貝爾生理學(xué)或醫(yī)學(xué)獎(jiǎng)。
Gurdon早在1962年通過(guò)一項(xiàng)經(jīng)典實(shí)驗(yàn),發(fā)現(xiàn)已分化的特定成熟細(xì)胞要想變回「從前」,是可逆的。
OpenAI最新成就
OpenAI的體外實(shí)驗(yàn)結(jié)果顯示,這些經(jīng)重新設(shè)計(jì)的蛋白質(zhì)所誘導(dǎo)的干細(xì)胞重編程標(biāo)記物表達(dá)量,比野生型對(duì)照組高出50余倍。
同時(shí),它們還表現(xiàn)出更強(qiáng)的DNA損傷修復(fù)能力,這意味著與基線相比,其細(xì)胞年輕化潛力更高。
OpenAI表示,2025年初他們就取得了這項(xiàng)發(fā)現(xiàn)。
后續(xù)通過(guò)在多種捐贈(zèng)者來(lái)源、多種細(xì)胞類型和多種遞送方法中的重復(fù)實(shí)驗(yàn)驗(yàn)證了其可靠性,最終確認(rèn)所衍生的iPSC細(xì)胞系具備完全的多能性和基因組穩(wěn)定性。
下面這三張圖展示的是,OpenAI設(shè)計(jì)的蛋白質(zhì)能更高效地誘導(dǎo)干細(xì)胞重編程:
初始狀態(tài)的人類成纖維細(xì)胞(第1天)
使用標(biāo)準(zhǔn)的山中因子(SOX2, KLF4, OCT4, MYC)重編程10天后,細(xì)胞形態(tài)散亂
使用RetroSOX與RetroKLF變體(結(jié)合OCT4, MYC)重編程10天后,出現(xiàn)了大量具有緊湊、圓形形態(tài)的集落,這是細(xì)胞邁向iPSC狀態(tài)的典型特征
一款專為蛋白質(zhì)工程打造的GPT
OpenAI是如何實(shí)現(xiàn)「逆轉(zhuǎn)細(xì)胞」的?
為驗(yàn)證AI加速生命科學(xué)研究的設(shè)想,他們?cè)O(shè)計(jì)并訓(xùn)練了一款定制模型——GPT-4b micro。
首先,從一個(gè)GPT-4o的縮減版進(jìn)行初始化,以充分利用GPT系列模型已有的知識(shí)儲(chǔ)備,隨后在一個(gè)特殊的數(shù)據(jù)集上對(duì)其進(jìn)行深度訓(xùn)練。
該數(shù)據(jù)集主要由蛋白質(zhì)序列構(gòu)成,并輔以生物學(xué)文本和Token化的三維結(jié)構(gòu)數(shù)據(jù)——這些元素是多數(shù)蛋白質(zhì)語(yǔ)言模型所忽略的。
研究團(tuán)隊(duì)對(duì)大部分?jǐn)?shù)據(jù)進(jìn)行了豐富,為其添加了額外的上下文信息,包括蛋白質(zhì)的文本描述、共進(jìn)化同源序列以及已知的相互作用蛋白質(zhì)組。
有了這些上下文,GPT-4b micro便能根據(jù)提示詞生成具有特定屬性的序列。
由于大部分?jǐn)?shù)據(jù)不包含結(jié)構(gòu)信息,該模型能夠同等出色地處理包含內(nèi)在無(wú)序區(qū)域的蛋白質(zhì)與結(jié)構(gòu)穩(wěn)定的蛋白質(zhì)。
這對(duì)于山中因子這類靶點(diǎn)尤為關(guān)鍵,因?yàn)樗鼈兊幕钚圆⒎且蕾囉谛纬蓡我环€(wěn)定結(jié)構(gòu),而是通過(guò)與多種結(jié)合伴侶發(fā)生大量瞬時(shí)相互作用來(lái)實(shí)現(xiàn)的。
KLF4的3D結(jié)構(gòu)可視化
SOX2的3D結(jié)構(gòu)可視化
需要注意的是,這兩種蛋白質(zhì)的大部分區(qū)域是非結(jié)構(gòu)化的,擁有可與其他蛋白質(zhì)結(jié)合的柔性臂。
通過(guò)在富含進(jìn)化與功能背景信息的蛋白質(zhì)數(shù)據(jù)上訓(xùn)練,研究團(tuán)隊(duì)訓(xùn)練樣本的有效上下文長(zhǎng)度遠(yuǎn)超獨(dú)立的蛋白質(zhì)序列。
OpenAI發(fā)現(xiàn),在推理時(shí),模型能夠處理長(zhǎng)達(dá)64,000個(gè)Token的提示詞,同時(shí)在可控性和輸出質(zhì)量上仍有持續(xù)提升。
盡管這一上下文長(zhǎng)度在文本大語(yǔ)言模型中已屬常見,但在蛋白質(zhì)序列模型領(lǐng)域尚屬首次。
在開發(fā)過(guò)程中,觀察到了類似語(yǔ)言模型的scaling laws——在更大數(shù)據(jù)集上訓(xùn)練的更大模型,在困惑度(perplexity)和下游蛋白質(zhì)基準(zhǔn)測(cè)試上均表現(xiàn)出可預(yù)測(cè)的性能提升。
這使得研究團(tuán)隊(duì)能夠在訓(xùn)練最終的GPT-4b micro模型前,先進(jìn)行小規(guī)模的快速迭代。
然而,蛋白質(zhì)AI模型的硅基評(píng)估(in silico evals)價(jià)值通常有限,因?yàn)檫@些指標(biāo)的提升能否轉(zhuǎn)化為真實(shí)世界的實(shí)用價(jià)值尚不明確。
為了證明該模型確實(shí)能加速療法開發(fā),研究團(tuán)隊(duì)與Retro的科學(xué)家們通力合作,由他們使用此模型重新設(shè)計(jì)了與其細(xì)胞重編程研究項(xiàng)目相關(guān)的關(guān)鍵蛋白質(zhì)。
AI輔助重構(gòu)SOX2與KLF4
提升干細(xì)胞重編程效率
山中因子——OCT4、SOX2、KLF4和MYC(簡(jiǎn)稱OSKM)——是當(dāng)今再生生物學(xué)領(lǐng)域最重要的蛋白質(zhì)之一。
然而,這項(xiàng)技術(shù)有著一個(gè)關(guān)鍵瓶頸——效率低下。
在治療過(guò)程中,通常只有不到0.1%的細(xì)胞能成功轉(zhuǎn)化,且整個(gè)過(guò)程耗時(shí)三周以上。
對(duì)于來(lái)自年長(zhǎng)或患病捐贈(zèng)者的細(xì)胞,這一轉(zhuǎn)化效率還會(huì)進(jìn)一步降低。
但問(wèn)題是,想要直接優(yōu)化蛋白質(zhì)序列,幾乎是不可能的。
SOX2和KLF4分別包含317和513個(gè)氨基酸,其可能變體的數(shù)量高達(dá)10^1000的量級(jí)。
傳統(tǒng)的「定向進(jìn)化」(directed-evolution)篩選方法,一次只能改變少數(shù)幾個(gè)氨基酸殘基,所能探索的設(shè)計(jì)空間可謂滄海一粟。
一項(xiàng)頂尖的學(xué)術(shù)研究測(cè)試了數(shù)千個(gè)SOX2突變體,僅發(fā)現(xiàn)少數(shù)幾個(gè)三突變體能帶來(lái)有限的效率提升。
另一項(xiàng)長(zhǎng)達(dá)15年的嵌合SOX蛋白研究,最終得到的變體也僅與天然SOX蛋白有五個(gè)氨基酸的差異。
在這次的實(shí)驗(yàn)中,Retro的團(tuán)隊(duì)利用人類成纖維細(xì)胞(來(lái)自皮膚和結(jié)締組織)搭建了一個(gè)濕實(shí)驗(yàn)室篩選平臺(tái)。
首先,他們使用標(biāo)準(zhǔn)的OSKM因子組合以及初步篩選中手動(dòng)設(shè)計(jì)的SOX2變體,對(duì)平臺(tái)進(jìn)行了驗(yàn)證。
隨后,他們讓GPT-4b micro設(shè)計(jì)一組多樣的「RetroSOX」序列。
篩選結(jié)果顯示,模型給出的建議中超過(guò)30%的序列,在表達(dá)關(guān)鍵多能性標(biāo)記物方面的表現(xiàn)優(yōu)于野生型SOX2,盡管它們與野生型的平均差異超過(guò)100個(gè)氨基酸。
作為對(duì)比,傳統(tǒng)篩選的陽(yáng)性率通常低于10%。
下圖顯示,在初步篩選(Pilot)、RetroSOX篩選和RetroKLF篩選中,表達(dá)早期多能性標(biāo)記物SSEA4(左柱)和晚期標(biāo)記物TRA-1-60(右柱)的細(xì)胞百分比。
可以看到,與效率極低(<0.1%)的常規(guī)方法相比,RetroKLF顯著提升了兩種標(biāo)記物的表達(dá)水平。
工程化變體在多能性標(biāo)記物表達(dá)上的提升
團(tuán)隊(duì)的下一個(gè)目標(biāo),是重新設(shè)計(jì)山中因子中分子量最大的KLF4。
盡管已知KLF4可被其他KLF家族的因子替代,但并不能提升重編程的效率。
此前,一項(xiàng)通過(guò)專家指導(dǎo)進(jìn)行單氨基酸替換來(lái)改良KLF4的嘗試,在測(cè)試了19個(gè)變體后僅獲得一個(gè)有效結(jié)果。
與RetroSOX的策略類似,研究團(tuán)隊(duì)提示模型生成了一組增強(qiáng)型的RetroKLF變體。
最終,14個(gè)由模型生成的變體性能超越了RetroSOX篩選中效果最好的組合方案,陽(yáng)性率接近50%。
下面兩張圖展示的是,AI設(shè)計(jì)方法的陽(yáng)性率和序列編輯深度。
可以看到,將頂尖的RetroSOX和RetroKLF變體組合使用,帶來(lái)了最大的性能提升。
篩選陽(yáng)性率,即性能超越基線的蛋白質(zhì)候選者比例(左)與人類野生型蛋白質(zhì)相比,序列被改變的百分比(右)
在三次獨(dú)立的實(shí)驗(yàn)中,成纖維細(xì)胞的早期(SSEA-4)和晚期(TRA-1-60, NANOG)標(biāo)記物水平均出現(xiàn)急劇上升,且晚期標(biāo)記物的出現(xiàn)時(shí)間比使用野生型OSKM組合方案提前了數(shù)天。
在第10天,使用不同RetroSOX和RetroKLF變體組合(RK1-RK4)的細(xì)胞,其晚期標(biāo)記物TRA-1-60(左)和NANOG(右)的表達(dá)水平遠(yuǎn)高于使用標(biāo)準(zhǔn)OSKM(檢測(cè)不到)的對(duì)照組
此外,研究團(tuán)隊(duì)在第10天通過(guò)堿性磷酸酶(AP)染色對(duì)RetroSOX和RetroKLF變體進(jìn)行了驗(yàn)證。
結(jié)果顯示,形成的細(xì)胞集落不僅表達(dá)晚期多能性標(biāo)記物,還表現(xiàn)出強(qiáng)大的AP活性,這是細(xì)胞具備多能性的有力標(biāo)志。
AP染色確認(rèn)了重編程的成功:紫色的集落表示干細(xì)胞重編程成功,集落顏色越深、數(shù)量越多,表明效率越高
為了進(jìn)一步確認(rèn)重編程效率的提升并探索其臨床應(yīng)用潛力,研究團(tuán)隊(duì)測(cè)試了一種新的遞送方式(使用mRNA替代病毒載體)和另一種細(xì)胞類型——源自三位中年(50歲以上)捐贈(zèng)者的人類間充質(zhì)基質(zhì)細(xì)胞(MSCs)。
僅7天內(nèi),便有超過(guò)30%的細(xì)胞開始表達(dá)關(guān)鍵的多能性標(biāo)記物(SSEA4和TRA-1-60)。
到第12天,已出現(xiàn)大量形態(tài)與典型iPSC相似的集落。這些細(xì)胞中超過(guò)85%激活了包括OCT4、NANOG、SOX2和TRA-1-60在內(nèi)的關(guān)鍵干細(xì)胞標(biāo)記物的內(nèi)源性表達(dá)。
接著,研究團(tuán)隊(duì)驗(yàn)證了這些由RetroFactor衍生的iPSC能夠成功分化為全部三個(gè)主要胚層(內(nèi)胚層、外胚層和中胚層)。
此外,研究團(tuán)隊(duì)將多個(gè)單克隆iPSC細(xì)胞系傳代培養(yǎng),證實(shí)了其具有健康的核型和適用于細(xì)胞療法的基因組穩(wěn)定性。
這些結(jié)果全面超越了由合同研究組織(CRO)使用標(biāo)準(zhǔn)因子生成的常規(guī)iPSC細(xì)胞系的基準(zhǔn)數(shù)據(jù),進(jìn)一步證明了研究團(tuán)隊(duì)工程化變體的穩(wěn)健性,也為其在不同遞送方式和細(xì)胞類型中的應(yīng)用提供了有力證據(jù)。
下面三張圖中所有的結(jié)果共同證實(shí)了,研究團(tuán)隊(duì)已成功獲得健康、且完全重編程的干細(xì)胞,從而也全面驗(yàn)證了重編程干細(xì)胞的健康與功能。
細(xì)胞集落呈現(xiàn)出干細(xì)胞特有的圓形、緊密堆積形態(tài)
TRA-1-60干細(xì)胞標(biāo)記物(綠色熒光)呈陽(yáng)性
細(xì)胞核型正常,染色體結(jié)構(gòu)完整
綜上所述,高陽(yáng)性率、深度的序列編輯、標(biāo)記物的提前出現(xiàn)以及AP陽(yáng)性集落的形成,這些早期證據(jù)共同表明,AI指導(dǎo)的蛋白質(zhì)設(shè)計(jì)能夠極大地推動(dòng)干細(xì)胞重編程研究的進(jìn)程。
重構(gòu)變體增強(qiáng)DNA損傷修復(fù)能力
接下來(lái),OpenAI進(jìn)一步探究了這些重構(gòu)變體的細(xì)胞年輕化潛力,并重點(diǎn)考察了它們恢復(fù)衰老細(xì)胞年輕特征的能力。
現(xiàn)有的研究表明,山中因子可以在不完全逆轉(zhuǎn)細(xì)胞身份的前提下,清除小鼠細(xì)胞中與DNA損傷相關(guān)的衰老標(biāo)記。
那么,與標(biāo)準(zhǔn)的OSKM相比,OpenAI制作的變體是否能表現(xiàn)出更強(qiáng)的年輕化能力呢?
下圖所展示的,便是經(jīng)阿霉素誘導(dǎo)產(chǎn)生DNA損傷后,細(xì)胞內(nèi)損傷標(biāo)記物γ-H2AX的強(qiáng)度(越低越好)。
可以看到,與陰性對(duì)照組(GFP)和陽(yáng)性對(duì)照組(OSKM)相比,使用Retro變體(RS4, RS5)處理的細(xì)胞,γ-H2AX信號(hào)有顯著的降低。
也就是說(shuō),在遭受同等遺傳毒性挑戰(zhàn)后,RetroSOX/KLF組合方案比原始的山中因子能更有效地減少DNA損傷。
工程化變體展現(xiàn)出了更強(qiáng)的DNA損傷修復(fù)能力,為提升細(xì)胞年輕化技術(shù)和開發(fā)未來(lái)療法開辟了一條充滿希望的道路
對(duì)此,OpenAI的研究合作負(fù)責(zé)人Boris Power總結(jié)道:
當(dāng)研究人員將深刻的領(lǐng)域洞見與研究團(tuán)隊(duì)的語(yǔ)言模型工具相結(jié)合時(shí),那些曾經(jīng)需要耗費(fèi)數(shù)年才能解決的問(wèn)題,如今可能在幾天之內(nèi)就迎來(lái)轉(zhuǎn)機(jī)。
總的來(lái)說(shuō),這次的成功,不僅僅是AI創(chuàng)造了幾種更高效的蛋白質(zhì),更是向研究團(tuán)隊(duì)展示了一種利用AI深度理解復(fù)雜科學(xué)問(wèn)題并提出創(chuàng)新解決方案的全新科研范式
從尋找抗衰老療法,到設(shè)計(jì)新藥、解決糧食危機(jī),當(dāng)人類的智慧與AI的超凡算力相結(jié)合,研究團(tuán)隊(duì)解決科學(xué)難題的速度,將發(fā)生革命性的改變。
一個(gè)由AI加速的科研新紀(jì)元,正向研究團(tuán)隊(duì)走來(lái)。
參考資料:
https://openai.com/index/accelerating-life-sciences-research-with-retro-biosciences/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.