近日,Cell出版社旗下《Trends in Biotechnology》雜志在線發(fā)表了河南農(nóng)業(yè)大學農(nóng)學院陳震、姬祥課題組聯(lián)合撰寫的“AI sheds new light on genome editing”綜述論文。該研究系統(tǒng)綜述了深度學習技術在基因組編輯領域中的應用與發(fā)展。
人工智能,尤其是深度學習技術,極大地革新了生物數(shù)據(jù)的獲取與分析方式,推動了生物技術、醫(yī)學和農(nóng)業(yè)等多個領域的突破。數(shù)十年來,“序列-結構-功能”范式始終指導著蛋白質(zhì)研究。如今,深度學習正通過蛋白質(zhì)表征學習重塑這一范式-其不僅能破譯復雜生物模式,更實現(xiàn)了AI驅(qū)動的蛋白質(zhì)設計與改造(圖1)。以CRISPR/Cas系統(tǒng)為主的基因組編輯技術已在基礎研究、農(nóng)業(yè)育種和生物醫(yī)藥等領域展現(xiàn)出巨大的應用潛力,然而如何高效發(fā)現(xiàn)、設計與改造新型基因組編輯工具仍是難以解決的領域瓶頸。
本研究系統(tǒng)綜述了人工智能與基因組編輯交叉領域中的前沿進展,首先詳細闡述了深度學習技術在基因組編輯工具的挖掘、改造與設計中的應用并探討了其優(yōu)缺點。傳統(tǒng)序列比對工具如BLAST和HMMER在識別遠緣同源蛋白時因序列差異大而效果受限,而深度學習結合“序列–結構–功能”范式,通過蛋白質(zhì)三維結構的預測和分析,大幅提升了識別能力。隨著AlphaFold DB等高質(zhì)量結構數(shù)據(jù)庫的開放,科學家們開展了大規(guī)模結構聚類和結構同源搜索,成功挖掘出多種新型的CRISPR相關蛋白;AI蛋白質(zhì)工程方法實現(xiàn)了基因編輯蛋白的快速進化。傳統(tǒng)的高通量突變篩選和理性設計耗時費力,機器學習輔助的定向進化和零樣本蛋白設計為這一難題提供了新的解決思路:即在實驗數(shù)據(jù)不足時,直接用深度學習模型預測有益突變,大大降低了對實驗篩選數(shù)據(jù)的依賴。零樣本方法利用預訓練模型預測有益突變,快速鎖定潛在突變位點,而少樣本方法結合少量實驗數(shù)據(jù)與主動學習策略,可以顯著提高突變的成功率;深度生成式AI模型為基因編輯工具的從頭設計開辟了新路徑。大語言模型通過學習大量序列數(shù)據(jù),能夠設計出自然界尚不存在的全新基因編輯器。擴散模型更能生成符合功能需求的三維蛋白結構。雖然目前多數(shù)設計案例仍處于初步驗證階段,但生成式AI展示了設計復雜“分子機器”的巨大潛力,為基因編輯技術的未來發(fā)展奠定了堅實基礎。針對現(xiàn)有進展,本研究最后討論了領域內(nèi)面臨的諸多挑戰(zhàn)(包括技術局限性、可解釋性不足以及潛在的倫理風險)。
圖1 深度學習在基因組編輯蛋白中的應用
河南農(nóng)業(yè)大學小麥玉米兩熟高效全國重點實驗室25級博士生秦兆輝、鄧兆龍為共同第一作者,陳震、姬祥教授為共同通訊作者,李成偉教授、王道文研究員為共同作者。該研究獲得了國家自然科學基金、國家重點研發(fā)計劃和河南省自然科學基金等項目的資助。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.