近期,美國斯坦福大學(xué)叢樂教授、美國普林斯頓大學(xué)王夢迪教授與谷歌 DeepMind 團(tuán)隊(duì)合作,首次將大語言模型(LLM,Large Language Model)用于基因編輯實(shí)驗(yàn),成功開發(fā)出一種名為 CRISPR-GPT 的智能體系統(tǒng)。
值得關(guān)注的是,它能夠綜合利用 LLM 的計算效率和特定領(lǐng)域的知識,實(shí)現(xiàn)為研究人員解決 CRISPR 基因編輯實(shí)驗(yàn)“量身定制”的自動化設(shè)計與分析。
圖丨后排中間為叢樂,前排左二為屈元昊(來源:屈元昊)
該系統(tǒng)為研究人員提供智能化的基因編輯方案設(shè)計,在確保編輯精準(zhǔn)性的同時,顯著降低了實(shí)驗(yàn)操作的復(fù)雜性。具體包括:基因編輯實(shí)驗(yàn)設(shè)計、CRISPR 系統(tǒng)的選擇、設(shè)計指導(dǎo) gRNA 序列、推薦細(xì)胞遞送方法、預(yù)測脫靶效應(yīng)、推薦實(shí)驗(yàn)程序和設(shè)計驗(yàn)證修改、實(shí)驗(yàn)的數(shù)據(jù)分析、確認(rèn)編輯結(jié)果的過程。
該研究顯示出 CRISPR-GPT 在促進(jìn)復(fù)雜生物發(fā)現(xiàn)任務(wù)方面的潛力,有望加速生物、醫(yī)學(xué)、農(nóng)業(yè)等領(lǐng)域的發(fā)現(xiàn)和應(yīng)用。
近日,相關(guān)論文以《CRISPR-GPT: 基因編輯實(shí)驗(yàn)的智能體自動化》(CRISPR-GPT for agentic automation of gene-editing experiment)為題發(fā)表在Nature Biomedical Engineering上 [1]。斯坦福大學(xué)博士研究生屈元昊和普林斯頓大學(xué)博士研究生黃凱旋是共同第一作者,斯坦福大學(xué)叢樂教授和普林斯頓大學(xué)王夢迪教授擔(dān)任共同通訊作者。
圖丨相關(guān)論文(來源:Nature Biomedical Engineering)
首次將大模型應(yīng)用于基因編輯實(shí)驗(yàn)設(shè)計
當(dāng)下,基因編輯技術(shù)讓人們對基因信息的精確改變成為可能。2012 年,基因編輯系統(tǒng) CRISPR-Cas9 的問世,標(biāo)志著該領(lǐng)域取得重大突破。
2013 年,基因編輯先驅(qū)、美國國家科學(xué)院院士張鋒教授與叢樂等人(后者為第一作者),在Science發(fā)表 CPISPR 基因編輯的突破性論文《利用 CRISPR/Cas 系統(tǒng)的多重基因組工程》(Multiplex Genome Engineering Using CRISPR/Cas Systems)[2]。
2020 年,美國加州大學(xué)伯克利分校教授詹妮弗·杜德納(Jennifer Doudna)以及德國馬克斯普朗克感染生物學(xué)研究所教授埃馬紐爾·夏彭蒂耶(Emmanuelle Charpentier),因在 CRISPR-Cas9 的貢獻(xiàn)而獲得諾貝爾化學(xué)獎。
隨著基因編輯技術(shù)的進(jìn)步和發(fā)展,其在研究基因功能、治療遺傳病、制備基因修飾模型和治療癌癥、增強(qiáng)農(nóng)作物恢復(fù)力等方面發(fā)揮著愈發(fā)重要的作用。
然而,創(chuàng)建一個高效的基因編輯系統(tǒng),不僅需要對 CRISPR 深入了解,還要經(jīng)過復(fù)雜的實(shí)驗(yàn),這需要投入大量的時間和進(jìn)行專業(yè)的科研訓(xùn)練。
近年來,LLM 在日常對話、世界知識、圖像生成等方面展現(xiàn)出巨大的應(yīng)用潛力。LLM 技術(shù)的發(fā)展為解決科學(xué)問題提供了新的契機(jī)的同時,AI for Science 應(yīng)用也日益增多。此前,已有化學(xué)家通過 LLM 構(gòu)建智能體,輔助科研人員進(jìn)行實(shí)驗(yàn)設(shè)計和化學(xué)合成方案制定。
基于其他領(lǐng)域的成功應(yīng)用案例,結(jié)合以基因編輯作為工具解決生物學(xué)問題的實(shí)際需求,該團(tuán)隊(duì)提出了一個關(guān)鍵問題:能否將 LLM 應(yīng)用于基因編輯領(lǐng)域,通過智能體為研究人員提供專業(yè)輔助?
理論上雖然可行,但實(shí)際應(yīng)用中面臨諸多挑戰(zhàn):通用 LLM 存在幻覺等固有問題,且由于缺乏專業(yè)領(lǐng)域知識,無法為研究人員提供精準(zhǔn)、具體的基因編輯設(shè)計方案。該團(tuán)隊(duì)發(fā)現(xiàn),通用 LLM 的輸出結(jié)果缺乏一致性,往往會提供眾多不同的選擇方案,導(dǎo)致研究人員難以確定最適合的基因編輯系統(tǒng)。
(來源:Nature Biomedical Engineering)
為解決這些問題,CRISPR-GPT 的每個模塊都通過將 LLM 與特定領(lǐng)域的生物數(shù)據(jù)進(jìn)行微調(diào)來優(yōu)化,以確?;蚓庉嫻ぷ鞯臏?zhǔn)確性和效率,用戶可以根據(jù)特定研究需求靈活調(diào)整設(shè)計方案。
這一創(chuàng)新的人工智能工具采用思維鏈推理模型和狀態(tài)機(jī)架構(gòu),確保即使是基因編輯領(lǐng)域的“新手”生物學(xué)家,也能夠迭代優(yōu)化實(shí)驗(yàn)設(shè)計。該系統(tǒng)可完成多種基因編輯任務(wù),包括 CRISPR 基因敲除、表觀遺傳編輯、先導(dǎo)編輯、堿基編輯等。
CRISPR-GPT 的核心優(yōu)勢在于,充分利用 LLM 的推理能力來處理自然語言交互。用戶無需按照固定模式輸入需求,而是像咨詢專家一樣自然提問,系統(tǒng)便能協(xié)助解決基因編輯實(shí)驗(yàn)設(shè)計中的各類問題。
斯坦福大學(xué)叢樂課題組博士研究生屈元昊的主要研究方向包括基因編輯、單細(xì)胞測序以及人工智能在生物醫(yī)學(xué)中的應(yīng)用。他對 DeepTech 表示:“據(jù)我了解,這是首次將大模型應(yīng)用于基因編輯實(shí)驗(yàn)設(shè)計的研究。我們的核心創(chuàng)新在于讓 AI 真正理解基因編輯的專業(yè)知識,并能像領(lǐng)域?qū)<乙粯舆M(jìn)行推理和決策?!?/strong>
三種模式:通過智能交互“量身定制” CRISPR 基因編輯實(shí)驗(yàn)
目前,CRISPR-GPT 共有三種交互模式,分別適用于不同背景的研究人員,真正實(shí)現(xiàn)個性化的基因編輯實(shí)驗(yàn)設(shè)計。
第一,預(yù)設(shè)模式。該模式適用于對基因編輯不太熟悉的研究人員(初學(xué)者),通過該模式能夠從最初的 CRISPR 系統(tǒng)選擇,一直到最后的數(shù)據(jù)分析,完整地做完基因編輯實(shí)驗(yàn)。
第二,自動模式。這種模式比較適合具有基因編輯領(lǐng)域基礎(chǔ)的科研人員,以幫助他們解決某一個或某幾個問題,而不需要從頭開始基因編輯實(shí)驗(yàn)。
例如,研究人員可以用自然語言的方式對該系統(tǒng)說:我想設(shè)計一個靶向于某基因的 gRNA。在自動模式中,通過 LLM 的推理能力,讓它能夠具體地分析每個用戶不同的需求。
第三,問答模式。在研究人員對一些不熟悉的 CRISPR 系統(tǒng)進(jìn)行實(shí)驗(yàn)時,可采用問答模式,自由地咨詢與 CRISPR 基因編輯實(shí)驗(yàn)相關(guān)的問題。
(來源:Nature Biomedical Engineering)
基于叢樂實(shí)驗(yàn)室在基因編輯領(lǐng)域多年的技術(shù)積累,經(jīng)常會收到來自世界各地的學(xué)者咨詢關(guān)于 CRISPR 的各種問題。目前,研究人員正在將關(guān)于 CRISPR 問題和回答的數(shù)據(jù)集,與在網(wǎng)絡(luò)中提取關(guān)于 CRISPR 數(shù)據(jù)集整合到 CRISPR-GPT 中。
屈元昊表示:“我們將實(shí)驗(yàn)室多年積累的 CRISPR 問答數(shù)據(jù)集整合到系統(tǒng)中,通過 LLM 進(jìn)行專門訓(xùn)練和微調(diào)。這樣 CRISPR-GPT 就能基于真實(shí)的專家知識為用戶提供更準(zhǔn)確、可靠的答案,進(jìn)而真正解決實(shí)際研究中遇到的問題。”
“專家級”智能決策:模擬專家思維提供精準(zhǔn)解決方案
CRISPR-GPT 采用“專家思維”模式,通過逐步推理為用戶提供各類基因編輯實(shí)驗(yàn)的智能化解決方案。
以遞送系統(tǒng)選擇為例,這是基因編輯領(lǐng)域一個關(guān)鍵且復(fù)雜的技術(shù)難題。在干細(xì)胞或免疫細(xì)胞的體內(nèi)編輯中,實(shí)驗(yàn)成功與否很大程度上取決于遞送系統(tǒng)和 CRISPR-Cas 系統(tǒng)的匹配選擇。
傳統(tǒng)上,這個過程需要研究人員具備深厚的生物學(xué)背景,查閱大量文獻(xiàn),并憑借經(jīng)驗(yàn)進(jìn)行判斷,既耗時又依賴個人專業(yè)水平。
CRISPR-GPT 通過智能化方式解決這一難題。當(dāng)系統(tǒng)識別到特定生物學(xué)關(guān)鍵詞(如“A-375 細(xì)胞”)時,會自動關(guān)聯(lián)到其細(xì)胞類型特征(腫瘤細(xì)胞系)。
基于預(yù)設(shè)的專家知識,系統(tǒng)首先提出幾個可能的備選遞送方案(如逆轉(zhuǎn)錄病毒遞送系統(tǒng))。接下來,系統(tǒng)會進(jìn)行實(shí)時文獻(xiàn)搜索,參考學(xué)術(shù)引用數(shù)據(jù)等指標(biāo)對備選方案進(jìn)行綜合評估,最終為用戶提供 1-2 個最優(yōu)的遞送系統(tǒng)選擇。
屈元昊表示:“我們的核心理念是讓 AI 像專家一樣思考問題。系統(tǒng)不僅具備專業(yè)知識,還配備了實(shí)時文獻(xiàn)搜索等工具,能夠智能化地為用戶推薦最適合的遞送系統(tǒng)。這完全改變了傳統(tǒng)依賴個人經(jīng)驗(yàn)和手工查閱文獻(xiàn)的研究模式,讓基因編輯實(shí)驗(yàn)設(shè)計變得更高效、更精準(zhǔn)?!?/p>
(來源:Nature Biomedical Engineering)
在一項(xiàng)針對人類肺癌細(xì)胞系的實(shí)驗(yàn)中,CRISPR-GPT 成功設(shè)計了針對 TGFβR1、SNAI1、BAX 和 BCL2L1 四個關(guān)鍵基因的敲除實(shí)驗(yàn),并通過 CRISPR-Cas12a 系統(tǒng)進(jìn)行高效的基因編輯。根據(jù)實(shí)驗(yàn)結(jié)果,這些基因的編輯效率高達(dá) 80%。
在另一項(xiàng)針對人類黑色素瘤細(xì)胞系的實(shí)驗(yàn)中,CRISPR-GPT 成功設(shè)計并實(shí)施了對 NCR3LG1 和 CEACAM1 兩個基因的表觀遺傳激活實(shí)驗(yàn)。結(jié)果證明,這兩個基因的表達(dá)水平得到了明顯提高。上述兩項(xiàng)實(shí)驗(yàn)不僅表現(xiàn)優(yōu)異,并且均一次成功。
為評估 CRISPR-GPT 智能體的性能,該團(tuán)隊(duì)邀請了 8 名具有 CRISPR 和基因編輯專業(yè)知識的研究人員設(shè)計一系列任務(wù),測試 CRISPR-GPT 協(xié)助實(shí)驗(yàn)設(shè)計的能力。
他們從準(zhǔn)確性、推理能力、完整性和簡潔性四個維度,將 CRISPR-GPT 與 ChatGPT-3.5 和 ChatGPT-4o 進(jìn)行對比評估。專家評估結(jié)果顯示,CRISPR-GPT 在基因編輯實(shí)驗(yàn)設(shè)計的上述四個方面以及綜合評分均優(yōu)于通用 LLM。
為自動化生物科研開辟新道路
研發(fā) CRISPR-GPT 是為了更好地促進(jìn)科研的發(fā)展,但是這也是一把“雙刃劍”,不能忽視可能帶來的倫理道德和基因編輯安全等相關(guān)問題。
為此,該團(tuán)隊(duì)通過與倫理道德專家和基因編輯安全專家交流和討論,采取了一系列預(yù)防措施。比如,通過設(shè)計關(guān)鍵詞過濾和指導(dǎo)原則等,對人類受試者的應(yīng)用限制、保護(hù)遺傳信息的隱私以及對可能出現(xiàn)的意外結(jié)果(例如編輯更強(qiáng)大的病毒)的警告。
總體來說,CRISPR-GPT 實(shí)現(xiàn)了簡化、自動化復(fù)雜生物學(xué)研究的基因編輯實(shí)驗(yàn)的設(shè)計過程。由于該系統(tǒng)集成了 LLM 與學(xué)科專業(yè)知識、外部工具和模塊化任務(wù)執(zhí)行系統(tǒng),研究人員可以更簡易、更準(zhǔn)確、更高效地計劃和開展基因編輯的相關(guān)實(shí)驗(yàn)。
“這項(xiàng)研究為自動化生物科研開辟了新道路。目前我們正在不斷優(yōu)化技術(shù),解決實(shí)際應(yīng)用中的各種挑戰(zhàn)。我相信未來會有更多生物學(xué)研究能夠借助 AI 和機(jī)器學(xué)習(xí)技術(shù)來完成,這將徹底改變科研的工作方式?!鼻徽f。
用機(jī)器幫助和替代人類執(zhí)行實(shí)驗(yàn)任務(wù),能夠減輕科研人員的工作負(fù)擔(dān),并極大地加速探索科學(xué)的進(jìn)展;而人類的最主要工作是思考、判斷、設(shè)計實(shí)驗(yàn),以及發(fā)現(xiàn)需要解決的科學(xué)問題。
該團(tuán)隊(duì)希望未來可以通過所開發(fā)的智能體控制機(jī)器人或自動化實(shí)驗(yàn)平臺,真正地實(shí)現(xiàn)用先進(jìn)的工具幫科研人員全自動地做實(shí)驗(yàn),或生產(chǎn)基因編輯的細(xì)胞等模式。
隨著基因編輯工程領(lǐng)域的不斷發(fā)展,CRISPR-GPT 與自動化實(shí)驗(yàn)室的集成平臺和機(jī)器人技術(shù)的進(jìn)步,為加速科學(xué)發(fā)現(xiàn)和研究相關(guān)疾病帶來了新的希望。
目前,該課題組還有一系列基于生物醫(yī)學(xué)智能體研發(fā)的相關(guān)工作正在進(jìn)行中:為 CRISPR-GPT 提供底層支撐的RNA基座大模型,RNAGenesis,展現(xiàn)對 gRNA,aptamer,ASO/RNAi 等藥物分子的強(qiáng)大設(shè)計能力。課題組參與和推出了通用科研智能體,如 Biomni,STELLA 系統(tǒng),展示了多智能體協(xié)作與自進(jìn)化能力。感興趣的讀者可以訪問 genomics.stanford.edu 了解最新進(jìn)展,并參與 CRISPR-GPT 智能體的 beta 測試。課題組持續(xù)招募 PhD/ 博士后,歡迎聯(lián)系 clab.stanford.edu。
參考資料:
1.Qu,Y. et al. CRISPR-GPT for agentic automation of gene-editing experiments.Nature Biomedical Engineering(2025).
https://www.nature.com/articles/s41551-025-01463-z
2.Cong,L. et al. Multiplex Genome Engineering Using CRISPR/Cas Systems.Science339,6121,819-823(2013).
https://www.science.org/doi/abs/10.1126/science.1231143
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.