夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

7000萬種子輪,這家公司要做生物醫(yī)藥的OpenAI

0
分享至


如今,我們已經(jīng)可以利用AI來預(yù)測和設(shè)計蛋白質(zhì),從而開發(fā)新的藥物、酶和生物材料。

同樣的變革,正在發(fā)生在基因領(lǐng)域。

9月17日,Arc Institute報告了他們?nèi)绾卫肊vo 1和Evo 2構(gòu)建了全球首個AI生成的基因組,設(shè)計了多款能消滅細菌的病毒,是生成基因組學(xué)(Generative genomics)的重要里程碑。

Evo通訊作者、斯坦福大學(xué)計算生物學(xué)家Brian Hie對此表示:“生成式基因設(shè)計時代到來了!”

生成基因組學(xué)融合了生成式AI與基因組學(xué),科學(xué)家可以利用AI來理解和分析基因序列、預(yù)測序列特性并設(shè)計新的序列,這使得生物學(xué)從描述性領(lǐng)域邁向更具預(yù)測性、更具工程性的領(lǐng)域,從而推動醫(yī)學(xué)、合成生物等領(lǐng)域的發(fā)展。

瞄準這一前沿領(lǐng)域,已有相關(guān)公司成立,近日Synthesize Bio宣布完成1000萬美元種子輪融資,以加速生成基因組學(xué)模型的開發(fā)。

Synthesize Bio已推出GEM-1,這是一個專為生成基因組學(xué)設(shè)計的基礎(chǔ)模型,其基于迄今為止最完善的RNA測序數(shù)據(jù)集進行訓(xùn)練,使用者通過描述實驗設(shè)計,就能獲得接近真實實驗的模擬數(shù)據(jù)。

其重要意義在于,研究人員將能以極低的成本和周期,高精度地預(yù)測實驗結(jié)果、驗證科學(xué)假設(shè),從而大幅加速藥物研發(fā)、疾病機制探索和精準治療方案的制定。

Synthesize Bio由弗雷德·哈金森癌癥研究中心轉(zhuǎn)化數(shù)據(jù)科學(xué)綜合研究中心主任Rob Bradley和弗雷德·哈金森癌癥研究中心首席數(shù)據(jù)官Jeff Leek共同創(chuàng)立。

Jeff Leek在RNA信息學(xué)領(lǐng)域做了大量開創(chuàng)性工作,他領(lǐng)導(dǎo)收集、規(guī)范化和合并來自世界各地研究人員的各種RNA數(shù)據(jù),最終構(gòu)建了目前最大的集成數(shù)據(jù)集。GEM-1正是建立在該數(shù)據(jù)基礎(chǔ)之上。

近日,兩位創(chuàng)始人參加了一檔訪談節(jié)目,分享了他們的最新觀點:

  • Synthesize Bio
    的目標就是嘗試構(gòu)建一個像大語言模型一樣支持多種應(yīng)用的模型,
    針對的是生物學(xué)家每天實際做的事情:生成數(shù)據(jù)以進行實驗,并用這些數(shù)據(jù)來指導(dǎo)下一個實驗。

  • 目前在哪些領(lǐng)域有能力生成足夠規(guī)模的訓(xùn)練數(shù)據(jù),從而讓我們構(gòu)建一個能廣泛應(yīng)用于不同場景的基礎(chǔ)模型?對我們而言,這個領(lǐng)域就是
    RNA

  • 通過RNA,我們實際上可以獲得生物學(xué)狀態(tài)的讀數(shù)。所以如果我們能夠?qū)λ?,如果我們能生成看起來像真實人類?shù)據(jù)的數(shù)據(jù),我們就能真正窺見這些人類體內(nèi)正在發(fā)生的生物學(xué)過程。

  • 當(dāng)你評估機器學(xué)習(xí)模型時,通常會用整體的度量標準,比如總體準確率、均方根誤差等。但當(dāng)你評估一個生物基礎(chǔ)模型時,關(guān)注點在于特定環(huán)境、特定情境下的單個基因。

  • 從某種意義上說,我們還沒有真正迎來“ChatGPT時刻”,因為目前還沒有很多這樣的模型被部署到任何人都可以使用、訪問并在此基礎(chǔ)上構(gòu)建應(yīng)用的程度……蛋白質(zhì)是例外,感覺那里已經(jīng)出現(xiàn)了一些進展,比如蛋白質(zhì)結(jié)構(gòu)預(yù)測和蛋白質(zhì)設(shè)計。

  • 95%的實驗都處于與我們訓(xùn)練數(shù)據(jù)非常接近的領(lǐng)域,我們有充分的理由相信,我們的模型應(yīng)該表現(xiàn)得極其出色。

  • 我們現(xiàn)在可以在實際進行研究之前,就“預(yù)覽”研究的結(jié)果,
    我們可以從各種不同的情境中生成數(shù)據(jù),然后選擇能最大化成功概率的研究方案。

  • 我所期待并希望參與構(gòu)建的未來,是“生成式基因組學(xué)”與濕實驗
    臨床試驗之間實現(xiàn)無縫融合。我希望在
    10
    年內(nèi)——或者如果我們推進得夠快,也許兩三年內(nèi)——一位科學(xué)家就能用他們的電腦,花一個小時用我們的模型模擬一次藥物篩選實驗。

以下為訪談原文:

主持人:讓我們從頭說起吧,Synthesize Bio的創(chuàng)立故事是怎樣的?請回顧一下創(chuàng)立這家公司的初衷,以及我們今天進行這次對話的原因。

Jeff我和Rob認識很久了。我們一起做學(xué)術(shù)同事大概有20年了,一直關(guān)注著彼此的科研成果。大約三年前我搬回西雅圖,作為學(xué)術(shù)帶頭人,我們經(jīng)常在走廊里碰面。我們倆都想建立一個生物學(xué)的基礎(chǔ)模型。我們開始討論這個問題,當(dāng)時我們有足夠的信息和想法,覺得或許可以嘗試一下。

于是我們開始思考這個問題,然后立即給投資人發(fā)了郵件,說:“我們需要馬上和你們談?wù)??!?因為我們覺得這是一個時機,恰逢其時,有合適的數(shù)據(jù)來實現(xiàn)它,也有合適的技術(shù)來實現(xiàn)它。我和Rob都非常興奮,想要嘗試一些新東西,大膽嘗試一些很酷的東西。

主持人:也許可以提升一下高度。如今,人工智能和生物技術(shù)正經(jīng)歷著寒武紀大爆發(fā)。正如你所指出的,在蛋白質(zhì)設(shè)計等領(lǐng)域已經(jīng)取得了一些驚人的進步。這一領(lǐng)域已獲得諾貝爾獎,許多公司現(xiàn)在都在利用它開發(fā)藥物,或者合作開發(fā)藥物。但SynthesizeBio做的事情卻與眾不同。我很好奇為什么要做這種與眾不同的事情,以及您如何看待它與更廣泛的生態(tài)系統(tǒng)的契合。

Jeff我們著手做這個項目時,并沒有想過要解決某個特定的生物學(xué)問題。從一開始,我們的目標就是嘗試構(gòu)建一個能夠像大語言模型一樣支持多種應(yīng)用的模型。

我們與眾多同行的不同之處在于,我們正努力構(gòu)建一個基礎(chǔ)廣泛、應(yīng)用廣泛的基礎(chǔ)模型。因此,無論目標制藥公司關(guān)注的是癌癥、神經(jīng)疾病還是心血管疾病,我們的模型都能在所有這些領(lǐng)域發(fā)揮作用,加速藥物研發(fā)領(lǐng)域的大部分(如果不是全部的話)科學(xué)研究。因此,我們很高興能將它交到人們手中,并見證他們?nèi)绾卧诟鞣N不同的環(huán)境中嘗試和使用它。

Rob我認為,從計算機科學(xué)和機器學(xué)習(xí)領(lǐng)域的文獻來看,有很多理由可以證明,對盡可能多樣化的訓(xùn)練數(shù)據(jù)集進行建模才能獲得最佳效果。在語言模型上,這一點已經(jīng)非常明確。長期以來,人們開發(fā)了非常專注的機器學(xué)習(xí)模型,并取得了進展。但事實證明,獲取盡可能龐大的文本語料庫,然后將其輸入模型,讓模型對其進行學(xué)習(xí),這種方式才是更有效的。

主持人:是啊慘痛的教訓(xùn)。

Jeff如果你一直在研究某個非常具體的應(yīng)用,而這時基礎(chǔ)模型出現(xiàn)了,并且在所有這些具體應(yīng)用上都表現(xiàn)得更好,這確實非常具有挑戰(zhàn)性。

Rob這太令人難以置信了,對吧?我認為很少有人能預(yù)測到這一點。例如,如果你的目標是幫助人們處理法律合同,也許你最好的做法是從對整個互聯(lián)網(wǎng)的建模開始。

Jeff這種做法能成為解決方案,這一點并不直觀。我認為對我們來說,可能也是同樣的情況。如果你非常關(guān)心某個特定人類大腦中某個特定基因的情況,目前還不清楚,對迄今為止收集的所有基因表達數(shù)據(jù)進行建模是否是解決該問題的正確方法。

Rob沒錯。我的意思是,在我的職業(yè)生涯中,我構(gòu)建過各種機器學(xué)習(xí)模型來解決我所面對的高度特定的科學(xué)問題。其中一些模型是有用的,一些則不然。但我可以說,沒有任何一個模型讓我感嘆:“我終于能做以前做不到的事了。”

主持人:你能解釋一下,這如何契合我們對生物學(xué)的理解,以及我們高中時學(xué)過的“中心法則”嗎?

Jeff回想一下你的高中生物知識——大致上,你體內(nèi)所有細胞的DNA序列都是相同的。但DNA序列中有一些小片段編碼著被稱為基因的物質(zhì)。這些基因被轉(zhuǎn)錄成RNA,而我們可以對這些RNA進行定量測量。你的心臟細胞之所以不同于腦細胞,是因為這些基因表達的豐度不同,而這些表達最終會被翻譯成蛋白質(zhì),在細胞內(nèi)執(zhí)行各種功能。

而RNA比蛋白質(zhì)更容易測量,因此這類分子的測量數(shù)據(jù)非常豐富。所以,當(dāng)我們思考這個想法時,我們真正關(guān)注的是:目前在哪些領(lǐng)域有能力生成足夠規(guī)模的訓(xùn)練數(shù)據(jù),從而讓我們構(gòu)建一個能廣泛應(yīng)用于不同場景的基礎(chǔ)模型?對我們而言,這個領(lǐng)域就是RNA

而且,幸運的是,我們兩人都在這一科學(xué)領(lǐng)域擁有豐富的經(jīng)驗,我們的職業(yè)生涯也都是圍繞這個領(lǐng)域展開的。因此,我們最初就聚焦于此。但RNA分子的好處在于它的動態(tài)性:它會對環(huán)境刺激產(chǎn)生反應(yīng),會對藥物產(chǎn)生反應(yīng),甚至?xí)Ξ?dāng)天的飲食產(chǎn)生反應(yīng)。因此,通過RNA,我們實際上可以獲得生物學(xué)狀態(tài)的讀數(shù)。所以,如果我們能夠?qū)λ?,如果我們能生成看起來像真實人類?shù)據(jù)的數(shù)據(jù),我們就能真正窺見這些人類體內(nèi)正在發(fā)生的生物學(xué)過程。

主持人:完全正確。就像是實時的生物學(xué)?

Jeff是的,正是如此。

主持人:所以你們正在構(gòu)建的這個RNA模型,它如何融入你們?nèi)粘5膶嶒炛??以及最終,它如何幫助你們解開想要探究的生物學(xué)問題?

Rob我認為,將它與其他AI模型做類比會很有幫助。目前,我們對大語言模型已經(jīng)相當(dāng)熟悉了,對吧?這些是生成式AI模型,意思是,你要求它們做某事,它們就會為你生成一些東西。比如大語言模型,你給它一個提示(prompt),要求它做某事,它就會生成一大段文本。這非常有用,因為很多人就是通過這種方式進行交流的,我們每天都在寫大量的文本。

所以我們希望為生物學(xué)做類似的事情。科學(xué)家、生物學(xué)家大部分時間在做什么?我們生成數(shù)據(jù),然后分析數(shù)據(jù),再進行實驗。我們可能會運行一個臨床試驗,獲得數(shù)據(jù)后再進行分析。因此,我們想建立一個模型,其作用類似于大語言模型,但針對的是生物學(xué)家每天實際做的事情:生成數(shù)據(jù)以進行實驗,并用這些數(shù)據(jù)來指導(dǎo)下一個實驗。

主持人:那么,在構(gòu)建這個平臺時,你們是如何思考需要解決的問題的?在SynthesizeBio這個新世界里,哪些現(xiàn)在做不到的事情將變得可能?

Rob我回想一下我自己的科研經(jīng)歷——作為一個在電腦前、在實驗臺前工作,管理實驗室的人,我和像我這樣的人,總是面臨一個困境:我們必須在數(shù)據(jù)不足的情況下做出決策。有時是因為我們沒有時間獲取數(shù)據(jù),有時是因為成本太高而無法實現(xiàn),但很多時候是因為那些數(shù)據(jù)根本無法獲取。

舉個例子,假設(shè)有人正在開發(fā)一種治療神經(jīng)退行性疾病的藥物,這種藥物作用于大腦中的細胞。你根本不可能直接觀察到病人服藥后,其大腦細胞內(nèi)發(fā)生了什么。但我們又需要這些信息來做決策。因此,科學(xué)家們不斷面臨這種不可能的任務(wù):我們必須決定是否繼續(xù)推進藥物開發(fā),但我們偏偏無法獲得所需的數(shù)據(jù)。所以我們想構(gòu)建一個模型,讓我們能夠“獲得”這些數(shù)據(jù)。

主持人:我倒是很喜歡我的腦組織能一直待在我的腦子里。

Jeff那正是它該待的地方,沒錯。

Rob即使存在倫理挑戰(zhàn),你可能也不愿意參與這種實驗。

Jeff但這并不意味著這些信息不重要。理解藥物如何發(fā)揮作用,這恰恰是至關(guān)重要的一環(huán)。我們想做的很多實驗都是如此。舉我自己的經(jīng)歷為例:我分析過的第一批數(shù)據(jù)來自一項研究,該研究將患者隨機分配,一組注射內(nèi)毒素,另一組注射生理鹽水。內(nèi)毒素是一種非??膳碌臇|西,一旦注射,人會病得很重。因此,受試者被隨機分配,只能等待自己是進入對照組還是“生病組”。

但這項研究只能在極少數(shù)人身上進行。他們試圖研究鈍性創(chuàng)傷的基因組學(xué),這非常困難,因為你不可能讓人去經(jīng)歷車禍。所以,我們只能在非常小的規(guī)模上進行,只有少數(shù)幾個人被隨機分配接受這種非常糟糕的干預(yù)。但如果你能在模型中進行這個實驗,而不是在人體上進行,我們就可以對數(shù)百人、數(shù)千人進行模擬。

不再受實驗的限制。同樣,如果你能“采集”人的大腦樣本,能“采集”他們身體的所有組織,你就能更全面地了解疾病、創(chuàng)傷或治療發(fā)生時體內(nèi)的情況。而且,你可以以傳統(tǒng)實驗室實驗難以企及的規(guī)模和速度來完成這一切。

主持人:所以我認為,正如你所說,這正在解決一些不可能的問題——這些是無法獲取的樣本,是不道德的實驗。你們有沒有某個靈光乍現(xiàn)的時刻,突然意識到:“等等,我想我實際上可以模擬這些事情。雖然這對我來說并不直觀,但也許真的可行。”

Rob這是個很重要的問題,也是我們思考了很久的。我們都是科學(xué)家,我認為科學(xué)家花了數(shù)十年時間被訓(xùn)練得……


主持人:天生就持懷疑態(tài)度?

Rob非常懷疑,非常嚴謹。所以,我們一開始真正思考的,并不是“如何構(gòu)建出最好的模型”,而是“如果我們有一個模型,我們該如何測試它是否有效?有哪些方法可以評估它是否在做有用的事?它產(chǎn)生的數(shù)據(jù)是否有意義,是否對我們這樣的人真正有用?” 我們甚至玩了一個游戲,這是Jeff的想法,一個絕妙的主意:我們開始用模型來模擬一個實驗。

我們讓模型為某個實驗生成數(shù)據(jù),然后將這些數(shù)據(jù)與實驗室進行的平行實驗的數(shù)據(jù)放在一起。比如,一邊是科學(xué)家在培養(yǎng)皿中進行細胞實驗的真實數(shù)據(jù),另一邊是我們的AI模型進行的“相同”實驗(當(dāng)然,AI只需要幾秒或幾分鐘,而不是幾周或幾個月)。然后,杰夫會把這些數(shù)據(jù)發(fā)給我,問:“你能分辨出哪個是實驗室數(shù)據(jù),哪個是AI生成的數(shù)據(jù)嗎?”一開始很長一段時間,我一眼就能看出哪個是AI數(shù)據(jù)。但后來,有那么一個時刻,我無法分辨了。

Jeff公司內(nèi)部流傳著一個故事,這其實是一種“強化學(xué)習(xí),Rob反饋”。Rob是辨別哪組數(shù)據(jù)來自AI、哪組來自實驗室最厲害的人之一。當(dāng)我們的模型能騙過Rob時,我們就意識到:“好吧,我們可能真的成功了。這些數(shù)據(jù)看起來真的和實驗數(shù)據(jù)一樣,幾乎無法區(qū)分?!?/p>

一個非常重要的點是:當(dāng)你評估機器學(xué)習(xí)模型時,通常會用整體的度量標準,比如總體準確率、均方根誤差等。但當(dāng)你評估一個生物基礎(chǔ)模型時,關(guān)注點在于特定環(huán)境、特定情境下的單個基因。因此,你衡量誤差的方式不是在整體層面,而是像“在這種條件下,這個特定組織中的這個特定受體”是否表現(xiàn)正確。所以,我們會關(guān)注Rob研究領(lǐng)域內(nèi)非常具體的區(qū)域,讓他去檢查那些在特定情境下應(yīng)該開啟或關(guān)閉的基因。如果你對這些很了解,如果模型沒有準確描述整個分布情況,你很快就能察覺出來。

Rob我認為這一點非常重要,它既是挑戰(zhàn),也是機遇,對吧?挑戰(zhàn)在于,為了構(gòu)建AI模型、訓(xùn)練它、進行推理等,你需要這些聚合統(tǒng)計量來描述模型在多大程度上重現(xiàn)了數(shù)據(jù)的整體形態(tài)。這是訓(xùn)練和評估模型的方式。但與此同時,正如Jeff所說,生物學(xué)的大部分,甚至幾乎所有生物學(xué),都是關(guān)于高度具體的事物的。

我是一個RNA生物學(xué)家,但我真正了解的其實只有幾個基因,我知道這些基因如何相互作用,它們產(chǎn)生的蛋白質(zhì)又如何與另外幾個蛋白質(zhì)相互作用,這就是我的專業(yè)領(lǐng)域。大多數(shù)其他生物學(xué)家也是如此,藥物也是如此。理想情況下,藥物通常只作用于少數(shù)幾個特定靶點。醫(yī)生治療病人也是如此,他們專注于特定領(lǐng)域。

因此,我們必須將這兩個目標結(jié)合起來:既要有一個能代表整個生物學(xué)形態(tài)、基因表達數(shù)據(jù)以及人們做過的所有實驗的整體表征,又要確保我們捕捉到了所有細微的細節(jié)。因為,我可以告訴你,作為一名科學(xué)家,如果有人拿著一個機器學(xué)習(xí)模型來找我,說:“這個模型很好地代表了所有數(shù)據(jù),看我的統(tǒng)計指標多漂亮”,而我一看我最熟悉的那個基因,發(fā)現(xiàn)模型似乎完全不理解這個基因在做什么,那么這個模型對我來說就毫無用處。

主持人:這正是我第一次拿到你們發(fā)來的模型時做的。我心想:“我要試試我最熟悉的那些實驗?!?/strong>

Jeff我記得那次,你發(fā)回來的正是你最專業(yè)的領(lǐng)域。

主持人:就是這些基因,我想看看它們的表現(xiàn)。

Rob完全正確。這有點像,如果你有一個大語言模型,它生成的文本看起來整體不錯,但總有四個詞它總是拼錯。作為語言的使用者,我們一定會注意到,并且會一直盯著這個錯誤看。

主持人:所以我想再回到數(shù)據(jù)的問題上,但在此之前,我必須問:為什么成立一家公司?你們倆都是教授,這本來是你們的本行,你們可以在實驗室里做出來,發(fā)幾篇驚艷的論文為什么非要以公司的形式來做?

Jeff這要回到我最初發(fā)給投資人的那封郵件。這個想法太酷了,我們想立刻開始行動。我們不想等待。我的意思是,作為一名學(xué)術(shù)研究人員有很多很棒的地方,但要在很短的時間內(nèi)抓住一個重大的、顛覆性的想法并迅速推進,現(xiàn)有的學(xué)術(shù)體系很難做到。所以我們想快速行動,想做大,而成立公司似乎是實現(xiàn)這一目標的最佳方式。我覺得這正是我們選擇這條路的主要原因。你覺得呢?

Rob我完全同意。速度和規(guī)模。我們發(fā)了那封郵件,進行了一些交談,然后立刻就開始行動了。我們馬上就在做事了。而這正是這件事所需要的。我認為第二點是規(guī)模。我們想建立一些東西。就像Jeff提到的,我們在職業(yè)生涯中做過很多事情,都非常棒,但我們想做一件能影響大量科學(xué)家、甚至可能是整個生物學(xué)領(lǐng)域所有科學(xué)家的事情。為了做到這一點,我們需要規(guī)模。我們不想只建模幾個基因表達實驗,我們想建模所有我們能接觸到的實驗。

主持人:是的。我覺得這和我們在科技領(lǐng)域看到的情況很相似,存在一個關(guān)鍵的時機。那么,你們認為在生物學(xué)領(lǐng)域,是否也有一個特定的轉(zhuǎn)折點?這個問題可以分為兩部分:生命科學(xué)和生物制藥領(lǐng)域已經(jīng)經(jīng)歷了屬于自己的ChatGPT時刻”了嗎?還是說這個時刻即將到來?我們這個領(lǐng)域是否真正迎來了那個“頓悟”(AHA)時刻?

Jeff我想把這兩個問題一起回答。我認為,從某種意義上說,我們還沒有真正迎來屬于自己的ChatGPT時刻”,因為目前還沒有很多這樣的模型被部署到任何人都可以使用、訪問并在此基礎(chǔ)上構(gòu)建應(yīng)用的程度。即使有些人正在構(gòu)建類似基礎(chǔ)模型的東西,他們也往往是在單個公司內(nèi)部完成,而不會與其他團隊分享。因此,除了一個領(lǐng)域之外,其他領(lǐng)域都很少出現(xiàn)任何人都能使用的基礎(chǔ)模型。這個例外是蛋白質(zhì)領(lǐng)域,感覺那里已經(jīng)出現(xiàn)了一些進展,比如蛋白質(zhì)結(jié)構(gòu)預(yù)測和蛋白質(zhì)設(shè)計。

我們的一些同事就在這個領(lǐng)域工作,他們的研究方式類似,基于公開的數(shù)據(jù)集,然后在上面構(gòu)建模型。我們已經(jīng)看到,當(dāng)這些模型被公開后,引起了巨大的興趣爆炸。因此,我們認為,在生物學(xué)的下游應(yīng)用中,比如在蛋白質(zhì)等藥物靶點識別之后的環(huán)節(jié),同樣的事情也是可能的。我們非常期待能為此做出貢獻。而且我認為,那個時刻正在到來,因為現(xiàn)在有大量的數(shù)據(jù)集合可供使用,這些數(shù)據(jù)得到了聯(lián)邦政府和許多其他組織的支持,現(xiàn)在有機會抓住機遇,去做類似于大語言模型所做的事情。這正是我們解決這個問題的思路。

Rob我認為,與大語言模型的類比甚至可以更進一步。我現(xiàn)在覺得大語言模型最鼓舞人心的地方,不僅僅是它們能很好地完成我擅長的事情。沒錯,它們能寫文本,這對我很有用,但它們還能做我做不到、也永遠做不到的事情。它們能瞬間在任意兩種語言之間翻譯,編程速度遠超任何人類。它們能做到一些目前完全超越人類能力、甚至在我們理解的人類能力范圍內(nèi)可能永遠無法企及的事情。

類比到生物學(xué),讓我同樣感到鼓舞的是——蛋白質(zhì)結(jié)構(gòu)問題在很大程度上已經(jīng)被解決,這已經(jīng)很了不起了。但真正讓我感到振奮的是蛋白質(zhì)設(shè)計,創(chuàng)造出以前從未存在、自然界中也不存在的全新蛋白質(zhì)。我認為,我們可以在生物學(xué)的其他領(lǐng)域做到同樣的事情。這正是我們在這里為基因表達領(lǐng)域所努力的方向。

主持人:這又回到了數(shù)據(jù)問題——生物學(xué)沒有像互聯(lián)網(wǎng)那樣可以隨意“爬取”的數(shù)據(jù)源。雖然有很多論文,但它們很雜亂。你認為這個領(lǐng)域在數(shù)據(jù)方面需要朝什么方向發(fā)展?為什么你認為有足夠的數(shù)據(jù)來構(gòu)建你們在SynthesizeBio所做的東西?在過去一年多的時間里,你們構(gòu)建生物學(xué)生成模型的數(shù)據(jù)基礎(chǔ)是什么?

Jeff我認為,選擇正確的分子在這里至關(guān)重要。在中心法則所涉及的分子中,基因表達數(shù)據(jù)是被測量條件最多、研究背景最廣泛的分子之一。因此,這個領(lǐng)域確實存在一個巨大的機遇:我們可以利用整個領(lǐng)域在各種不同情境下對人體進行測量并記錄其RNA數(shù)據(jù)的事實。雖然沒有一個現(xiàn)成的“互聯(lián)網(wǎng)”可以爬取,但確實存在大量已有的實驗數(shù)據(jù)。

然而,最大的挑戰(zhàn)在于,這些數(shù)據(jù)來自他人,是他人完成的實驗。它們沒有經(jīng)過標準化處理,無法直接整合到一個統(tǒng)一的框架中協(xié)同工作。因此,將所有這些數(shù)據(jù)集整合在一起,并將其處理成可以用于訓(xùn)練模型的格式,需要大量的智力勞動和工程工作。我們正是利用了團隊整合大量數(shù)據(jù)集的能力,以及他們在綜合和標準化元數(shù)據(jù)方面的專業(yè)知識,使得這些實驗的描述在成千上萬的人類實驗中保持一致和統(tǒng)一,從而構(gòu)建出能夠理解不同條件下、不同組織中、不同治療方案下基因表達情境表征的模型。

Rob在這里,我們真的要特別感謝Jeff。他可能沒有預(yù)見到這些數(shù)據(jù)能用于訓(xùn)練生成式AI模型,但他很早就看到了創(chuàng)建統(tǒng)一、標準化數(shù)據(jù)集的重要性和潛力。

Jeff我的實驗室一直在做這件事,雖然我們剛開始時并沒有意識到這些數(shù)據(jù)會成為訓(xùn)練集。我們進行數(shù)據(jù)標準化和綜合主要是為了可重復(fù)性,為了幫助科學(xué)家更好地工作。這項工作可以說是我們構(gòu)建原型的基礎(chǔ),它基于我在學(xué)術(shù)環(huán)境中開發(fā)的數(shù)據(jù)。

最終,我們的團隊在這些數(shù)據(jù)的基礎(chǔ)上取得了巨大的進展,尤其是在實驗描述的標準化和協(xié)調(diào)方面。但沒錯,這正是我們產(chǎn)生“頓悟”(AHA moment)的原因之一:我們早已在學(xué)術(shù)背景下思考這些大規(guī)模的數(shù)據(jù)集合了。

Rob在構(gòu)建這個大型專有數(shù)據(jù)集的過程中,有一件很有趣的事:我們擁有成對的基因表達實驗數(shù)據(jù),以及我們精心整理的元數(shù)據(jù),通過這些數(shù)據(jù),我們能看到一些意想不到的東西。我們注意到,相當(dāng)大比例的實驗與我們的模型在訓(xùn)練數(shù)據(jù)中見過的實驗非常相似。具體來說,如果你們不介意我深入一點細節(jié)的話——我們想驗證我們的模型,于是我們想:“好吧,我們想預(yù)測未來的基因表達實驗,那就用這個來驗證它?!?/p>

所以我們選定了一個日期作為訓(xùn)練數(shù)據(jù)的截止點,所有在此日期之前產(chǎn)生的公開數(shù)據(jù)我們都用于訓(xùn)練,而在此之后由科學(xué)家產(chǎn)生并存入公共檔案的數(shù)據(jù),我們稱為驗證集或測試集。我們從未看過這些數(shù)據(jù),對我們的模型來說,這些是完全獨立的“未來”實驗。我們可以討論我們的模型在這些數(shù)據(jù)上的表現(xiàn)如何,我認為表現(xiàn)非常好,甚至讓我們所有人都感到驚訝,真的非常驚人。

但我想說的是關(guān)于元數(shù)據(jù)的一點。一件非常有趣的事是,因為我們自己創(chuàng)建了所有元數(shù)據(jù),我們可以對跨實驗的統(tǒng)計數(shù)據(jù)進行聚合分析。一個有趣的發(fā)現(xiàn)是,在我們的訓(xùn)練數(shù)據(jù)截止日期之后進行的所有未來實驗中,大約95%的實驗要么處于我們見過的生物情境中(比如原代組織或細胞系),要么涉及我們見過的特定化學(xué)擾動(比如小分子藥物或生物化合物),或基因敲低(比如用CRISPR對基因進行擾動)等。關(guān)鍵在于,95%的未來實驗都處于與我們訓(xùn)練數(shù)據(jù)非常接近的領(lǐng)域,我們有充分的理由相信,我們的模型不僅可能表現(xiàn)良好,而且應(yīng)該表現(xiàn)得極其出色。

主持人:那么,你能否舉一個具體的例子,說明你或你實驗室的成員,或者生物制藥生態(tài)系統(tǒng)中的某個人會如何使用這個模型?我認為,舉一個具體的例子對大家會很有幫助。

Jeff就我的實驗室而言,我的背景是生物統(tǒng)計學(xué),我是在那里獲得博士學(xué)位的,所以我經(jīng)常幫助人們設(shè)計研究,無論是臨床試驗、臨床前研究,還是一般的科研項目。在所有這些研究中,你都需要確定樣本量、目標人群、采樣方式等等。有大量問題需要解決,而通常,你只能憑猜測。你試圖估算可能的情況,但你在很多假設(shè)上都在賭博。而現(xiàn)在,我們不必再做這些假設(shè)了。我們可以從各種不同的情境中生成數(shù)據(jù),然后選擇能最大化成功概率的設(shè)計方案。因此,我認為這將極大地加速那些需要預(yù)先設(shè)計研究的項目。我們現(xiàn)在可以在實際進行研究之前,就“預(yù)覽”研究的結(jié)果,而這是以前無法做到的。所以這真的非常令人興奮。

Rob我們開發(fā)的模型不僅允許你指定一個實驗并生成相應(yīng)的結(jié)果數(shù)據(jù),還能將某個實驗室或臨床樣本的數(shù)據(jù)輸入進去,然后模擬如果對它進行修改會發(fā)生什么。舉個具體的例子,比如你可以輸入一個實驗描述:“某種特定癌癥用某種感興趣的藥物治療”,然后我們的模型可以模擬出基因表達的結(jié)果——這是我們之前討論過的功能。而我們現(xiàn)在新實現(xiàn)的技術(shù)細節(jié)是:我們還可以向模型提供這個樣本在沒有用藥時的狀態(tài)信息。

這非常有趣,因為這些信息可能來自一位癌癥患者的活檢樣本。我們正試圖確定最佳的治療方案,于是我們可以把這些信息輸入模型,然后模型就能給出針對該患者、高度個性化的藥物效果預(yù)測。我認為這才是真正具有變革性的。眾所周知,許多學(xué)術(shù)機構(gòu)和公司都在努力推進精準醫(yī)療,這些努力至關(guān)重要且令人振奮。但我覺得我們的貢獻在于,我們擁有這個龐大的模型,它幾乎可以模擬任何情況,同時還能將結(jié)果定制到“一個人”、“一個樣本”的級別。

Jeff我認為這恰恰體現(xiàn)了我們一貫采取的方法:我們想要構(gòu)建的是大型的基礎(chǔ)模型,它能讓你應(yīng)對各種不同的應(yīng)用場景。我們剛才談到的兩個應(yīng)用,在科學(xué)家看來,它們可能相距甚遠,屬于完全不同的學(xué)術(shù)領(lǐng)域,你會去咨詢完全不同的人群。但我們的底層基礎(chǔ)模型卻能夠支持這兩種應(yīng)用,以及許多其他的應(yīng)用。

我最期待的是,某個研究生深夜苦思如何解決他的研究難題時,嘗試用我們的工具,并因此推動了整個之前毫無頭緒的領(lǐng)域的進展。我們還不知道所有這些應(yīng)用會是什么,但對我來說,這正是最激動人心的地方:當(dāng)然,我們可以提出自己的想法,但我更期待看到其他人能用它創(chuàng)造出什么。

主持人:說到這個,讓我們快進10年。你設(shè)想一下,當(dāng)你們正在構(gòu)建的這種工具被每一位科學(xué)家掌握,人人都能使用時,未來的實驗室會是什么樣子?你認為這將在哪些方面改變游戲規(guī)則?它不僅會影響日常科研,對整個生物制藥生態(tài)系統(tǒng)會產(chǎn)生怎樣的影響?

Rob對我而言,我所期待并希望參與構(gòu)建的未來,是所謂的“生成式基因組學(xué)”與濕實驗、臨床試驗之間實現(xiàn)無縫融合。我認為,這些不同領(lǐng)域之間需要持續(xù)不斷地交換想法和數(shù)據(jù)。我希望在10年內(nèi)——或者如果我們推進得夠快,也許兩三年內(nèi)——一位科學(xué)家就能用他們的電腦,花一個小時用我們的模型模擬一次藥物篩選實驗。

然后利用這個結(jié)果,選擇要在濕實驗中進行測試的細胞系。拿到實驗結(jié)果后,再用AI模型來判斷:“好吧,我們其實還需要從另一個系統(tǒng)獲取數(shù)據(jù)……”如此循環(huán)往復(fù),形成不同信息源和數(shù)據(jù)之間的持續(xù)互動。

Jeff我的實驗室主要是計算型的,不像Rob那樣有濕實驗平臺。所以對我來說,最大的意義在于賦能。它能讓所有和我一起工作的學(xué)生、博士后和研究員都獲得強大的能力。我們通常需要和像Rob這樣的人合作才能生成數(shù)據(jù),有時這是做某種實驗的唯一途徑,但有時我們有一些創(chuàng)新的想法,卻找不到合適的合作者。現(xiàn)在,他們可以借助這個工具,去追求那些原本因缺乏合適合作者或資金而無法實現(xiàn)的“瘋狂”想法。

第二點我經(jīng)常思考的是,我們在科研上做了多少“賭注”。我們必須在人力、資源上押注,而這些押注往往基于非常有限的信息。你讀了一些文獻,知道你的朋友在做什么,然后你就賭下一個想法是對的,實驗會成功。作為一個與許多不同實驗室合作過的人,我親眼目睹了多少這樣的“賭注”最終失敗,這對科學(xué)本身的速度,以及對從事這些項目的研究人員的職業(yè)生涯和生活都造成了巨大影響。

因此,我非常興奮的是,我們能提高每個科研“賭注”的成功率。讓研究者能提前看到一點結(jié)果,做出更好的決策。即使我們只將成功率提高15%、20%或30%,這也意味著為整個領(lǐng)域節(jié)省了大量的資源和時間。

Rob我們的愿景是,我們正在構(gòu)建的東西可以在整個研究鏈條和藥物開發(fā)的價值鏈中被使用。我們剛才舉的例子大多是基礎(chǔ)研究或轉(zhuǎn)化研究,但我希望我們的模型也能在臨床環(huán)境中同樣有用。早些時候我提到,科學(xué)家們常常要做一些艱難的決定:你手頭有一定數(shù)據(jù),這些數(shù)據(jù)不足以得出結(jié)論,但你必須做出決定。一個很好的例子就是臨床試驗。一期臨床試驗的目的是測試藥物安全性,僅此而已。

然而,如果你能從中獲得任何關(guān)于療效的信息,那將非常有價值。于是人們就陷入一種困境:他們使用一個本沒有足夠統(tǒng)計效力來得出療效結(jié)論的試驗,只能“看天意”地尋找療效信號,以此來決定是否繼續(xù)推進。這是一個非常重要的決定,因為如果你選擇了這個項目,很可能就會放棄另一個。這不僅僅關(guān)乎這一種藥物,而是關(guān)乎你所有的“投籃機會”。

我們正在積極研究這一點:把我們的模型拿出來,以一個小規(guī)模一期試驗(比如只有12名患者)的結(jié)果作為條件,然后推斷出如果進行一個數(shù)百名患者的、完全具備統(tǒng)計效力的試驗,結(jié)果會是什么樣。當(dāng)然,這不能替代一個耗資一億美元的試驗,但它提供的信息比你之前多得多。

Jeff而且還更便宜。

Rob確實便宜得多。這能幫助你做出更好的決策。

Jeff如果你要下1億美元的賭注,你肯定希望在下注前掌握一些信息吧?

Rob沒錯!這能讓你更有信心地決定是放棄這個項目,還是加大投入。

主持人:非常感謝你們今天抽出時間。最后留給你們一分鐘。人們可以去哪里了解更多關(guān)于SynthesizeBio的信息,獲取你們的模型,開始成為一個能被基礎(chǔ)模型賦能的科學(xué)家?

Jeff大家可以上 Synthesize.bio這個網(wǎng)站,通過我們的網(wǎng)絡(luò)平臺直接訪問模型。我們也提供API接口,方便大家在RPython環(huán)境中使用——這也是很多計算生物學(xué)家的工作環(huán)境。他們今天就可以去訪問這些模型,也可以閱讀我們關(guān)于GEM-1模型的預(yù)印本論文,了解我們是如何嚴謹?shù)卦u估結(jié)果的,確保我們始終以懷疑精神對待科學(xué)。

Rob我想再強調(diào)一下,我們真心希望盡可能多的人使用我們的模型。目前我們正在免費提供,無論你在何處、從事何種工作,任何人都可以試用我們的模型,看看它們在哪些方面表現(xiàn)良好,并告訴我們哪些地方還有不足。

因為我們這個模型的酷炫之處在于,它幾乎可以用于生物醫(yī)學(xué)研究的任何領(lǐng)域。我們?nèi)栽谔剿鳎烤乖谀男╊I(lǐng)域會產(chǎn)生最具變革性的影響。就像大語言模型一樣,五年前,我不會告訴你LLM會徹底改變編程,我想沒人會這么說。我們也在摸索,我們的模型將在哪些領(lǐng)域帶來速度和科研能力的最大提升。

主持人:太棒了超級興奮。我認為我們還處在非常早期的階段,所以我非常期待看到它將走向何方。正如我所說,屬于生物學(xué)的ChatGPT時刻”還沒到來,但我相信這將對未來藥物開發(fā)產(chǎn)生深遠影響。再次感謝兩位今天的分享

—The End—



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
如果在家突發(fā)腦梗,黃金自救“5步驟”,奉勸你每個都要記在心里

如果在家突發(fā)腦梗,黃金自救“5步驟”,奉勸你每個都要記在心里

爆炸營養(yǎng)彭鑫蕊
2025-09-12 16:27:58
N8L國慶訂單超過1.6萬?萬事俱備,只欠上市!

N8L國慶訂單超過1.6萬?萬事俱備,只欠上市!

藍色海邊
2025-10-09 01:43:35
又有臺風(fēng)!最強或17級以上!有(雷)陣雨~

又有臺風(fēng)!最強或17級以上!有(雷)陣雨~

化州社區(qū)
2025-10-08 07:04:00
看哭了!湖南邵陽一男子連續(xù)開車670公里。從東莞趕回湖南老家!

看哭了!湖南邵陽一男子連續(xù)開車670公里。從東莞趕回湖南老家!

小彭聊社會
2025-09-28 04:26:59
巔峰難再…萊萬21年金球第2惜敗梅西+20年被取消,現(xiàn)已37歲排名17

巔峰難再…萊萬21年金球第2惜敗梅西+20年被取消,現(xiàn)已37歲排名17

直播吧
2025-09-24 16:35:01
黃金的飆漲是對美國乃至全球金融市場的警鐘? 未來五年或暴漲150%

黃金的飆漲是對美國乃至全球金融市場的警鐘? 未來五年或暴漲150%

國民策劃
2025-10-08 14:20:46
女籃世預(yù)賽分組出爐!中國隊獲上上簽:日本隊卻陷入死亡之組!

女籃世預(yù)賽分組出爐!中國隊獲上上簽:日本隊卻陷入死亡之組!

籃球快餐車
2025-10-08 05:34:30
十三分鐘的火焰:越南裔朱贊用20分點燃明尼蘇達的夜

十三分鐘的火焰:越南裔朱贊用20分點燃明尼蘇達的夜

環(huán)球體壇啄木鳥
2025-10-08 21:49:21
林德克內(nèi)西辟謠:吐槽中國大城市污染嚴重 是隊報記者斷章取義

林德克內(nèi)西辟謠:吐槽中國大城市污染嚴重 是隊報記者斷章取義

醉臥浮生
2025-10-08 16:20:38
西安事變中,張學(xué)良飄了:假如楊虎城不同意放人,直接開槍打死他

西安事變中,張學(xué)良飄了:假如楊虎城不同意放人,直接開槍打死他

凡人侃史
2025-10-07 16:18:48
英媒:切爾西擔(dān)心帕爾默傷勢比預(yù)期嚴重,他可能無法出戰(zhàn)森林

英媒:切爾西擔(dān)心帕爾默傷勢比預(yù)期嚴重,他可能無法出戰(zhàn)森林

雷速體育
2025-10-08 23:11:08
中國為什么不愿意摧毀美國霸權(quán)?

中國為什么不愿意摧毀美國霸權(quán)?

云石
2025-10-07 10:25:03
鐵飯碗變瓷飯碗?國企工資發(fā)不出了!真相扎心

鐵飯碗變瓷飯碗?國企工資發(fā)不出了!真相扎心

倪衛(wèi)濤頻道
2025-08-23 23:35:02
當(dāng)時很多蒙古考察日記中,都提到蒙古人性交不節(jié)制,得病者極多

當(dāng)時很多蒙古考察日記中,都提到蒙古人性交不節(jié)制,得病者極多

牛牛叨史
2025-09-17 13:38:18
半夜接到陌生電話要我挪車,我果斷拒絕,第二天才發(fā)現(xiàn)躲過一劫

半夜接到陌生電話要我挪車,我果斷拒絕,第二天才發(fā)現(xiàn)躲過一劫

五元講堂
2024-09-02 10:53:43
切馬:能與羅德里相比令我倍感榮幸;希望有朝一日能回歸皇馬

切馬:能與羅德里相比令我倍感榮幸;希望有朝一日能回歸皇馬

懂球帝
2025-10-08 19:23:10
林夕說“北京歡迎你”是其最后悔的創(chuàng)作!大義面前,才能不值一提

林夕說“北京歡迎你”是其最后悔的創(chuàng)作!大義面前,才能不值一提

元寶課堂
2025-10-08 22:12:17
文雋叫麥浚龍報班重新學(xué)寫劇本,列8點批《風(fēng)林火山》劇本唔合格

文雋叫麥浚龍報班重新學(xué)寫劇本,列8點批《風(fēng)林火山》劇本唔合格

粵睇先生
2025-10-09 00:40:03
錢再多有什么用!51歲曹穎的現(xiàn)狀,給所有中年女性提了醒

錢再多有什么用!51歲曹穎的現(xiàn)狀,給所有中年女性提了醒

涵豆說娛
2025-10-08 15:37:37
為什么感覺月薪過萬很普遍了真相了!抱歉,這才是大多數(shù)人工資

為什么感覺月薪過萬很普遍了真相了!抱歉,這才是大多數(shù)人工資

一口娛樂
2025-10-08 05:56:53
2025-10-09 03:15:00
智藥局 incentive-icons
智藥局
我們更懂藥物創(chuàng)新
834文章數(shù) 162關(guān)注度
往期回顧 全部

科技要聞

2025年諾貝爾化學(xué)獎揭曉

頭條要聞

特朗普:芝加哥市長和伊利諾伊州州長都該入獄

頭條要聞

特朗普:芝加哥市長和伊利諾伊州州長都該入獄

體育要聞

阿爾巴退役,他是巴薩隊史第一左后衛(wèi)嗎

娛樂要聞

許凱復(fù)出拍戲 疑資本力保網(wǎng)友怒斥頭鐵

財經(jīng)要聞

假期外圍市場太熱鬧!A股明天怎么走?

汽車要聞

家用SUV的越級感 8萬級的全新博越就能擁有

態(tài)度原創(chuàng)

藝術(shù)
游戲
本地
時尚
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

《小小夢魘3》M站73分:雙人合作機制并未充分利用

本地新聞

讀港校想省錢,社恐輸在起跑線

到了秋天才知道,年紀大的女人要告別“小腳褲”,這樣穿顯瘦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 国产成人av在线影院| 亚洲小说图片| 日韩一区二区影院| 一进来就能看的毛片| 精品天堂色吊丝一区二区| 人人干人人色人人澡| 成人做爰www网站视频| 国产伊人一自拍| 欧洲亚洲日韩性无码专区| 无码免费观看视频| 国语精品自产拍在线观看网站| 日韩精品人涩人| 欧美精品亚洲精品日韩传电影| 久久亚洲免费av大香| 性高潮久久久精品| 亚州天堂网aⅴ在线| 国产99精品玖玖| 伊人久久大香线蕉精品| 99久久精品国产成人综合| 欧洲变态另类zozo| 日欧一区二区三区| 亚洲精品无码鲁网中文电影| 精品成人A区在线观看| 91久操东北夫妻| 国产乱子伦视频三区| 亚洲成色精品一二三区| 日韩无码精品一区二区三区| 久久久久久久极品欧美| 色吊丝一区二区中文字幕| 欧美交A欧美精品喷水| 亚洲а∨精品天堂在线| xxxx日韩| 亚洲国产成人无码电影| 久久蜜桃传媒| 精品国产一区二区三区四区色 | 亚洲欧洲一区二区| 少妇好滑好紧好深一区二区| 狠狠CAO日日橹夜夜十橹| 伊人久久大香线蕉av一区二区| 国产无码你懂得| 亚洲AV无日韩毛片久久|