網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌Genie 3炸裂登場(chǎng)！專(zhuān)家預(yù)言：世界模型開(kāi)啟AI醫(yī)療新紀(jì)元，中國(guó)團(tuán)隊(duì)發(fā)布全球首個(gè)成果！

2025-08-06 19:32:02　來(lái)源: 智藥局

四川舉報(bào)

分享至

昨晚，谷歌DeepMind正式發(fā)布Genie 3，這款通用型世界模型，能夠生成前所未有的豐富交互環(huán)境。

作為首個(gè)支持實(shí)時(shí)交互的世界模型，Genie 3能以每秒20-24幀速度實(shí)時(shí)生成畫(huà)面，并在720p分辨率下保持?jǐn)?shù)分鐘的畫(huà)面一致性。

相較于前代，Genie 3在分辨率、幀率與交互時(shí)長(zhǎng)等方面進(jìn)一步優(yōu)化，并首次加入“可提示的世界事件”和“視覺(jué)記憶”等關(guān)鍵特性，使得真實(shí)感大幅提升。

一句話(huà)，Genie 3可以根據(jù)需求生成近乎真實(shí)的現(xiàn)實(shí)世界。

Genie 3的誕生，再次點(diǎn)燃了業(yè)界對(duì)于世界模型的熱情。

所謂世界模型（World Model），即是一種能夠預(yù)測(cè)未來(lái)情況、幫助模型理解和規(guī)劃行動(dòng)的內(nèi)部模擬系統(tǒng)。

它的重要意義在于讓機(jī)器能夠像人類(lèi)一樣進(jìn)行高效的決策，不再僅依賴(lài)于當(dāng)下觀(guān)察到的信息，而是基于現(xiàn)實(shí)情境和事實(shí)進(jìn)行推理。

正如Meta首席AI科學(xué)家、圖靈獎(jiǎng)得主Yann LeCun所言：「如果AI不能理解世界的運(yùn)作，就永遠(yuǎn)只是“工具”，而世界模型是讓AI擁有“常識(shí)”的第一步?！?/p>

世界模型將大大提升AI的“智能”水平，從而為醫(yī)療健康帶來(lái)更多可能性。

今年1月，臨床研究專(zhuān)家Matthew H. Maxwell發(fā)布了一篇博客文章，他認(rèn)為世界模型有望將AI醫(yī)療提升到一個(gè)新的層次，包括更準(zhǔn)確的預(yù)測(cè)疾病風(fēng)險(xiǎn)、更早的干預(yù)以及更加個(gè)性化的治療。

6月，香港科技大學(xué)（廣州）與約翰霍普金斯大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)合作推出了首個(gè)醫(yī)學(xué)世界模型（Medical World Model），首次讓AI具備了「預(yù)演」疾病演變的能力，通過(guò)生成式模型模擬不同治療方案下的腫瘤變化，為臨床決策提供可視化依據(jù)。

論文鏈接：https://arxiv.org/pdf/2506.02327

在大語(yǔ)言模型（LLM）徹底改變了AI醫(yī)療的現(xiàn)有格局之后，世界模型正嶄露頭角，有望帶領(lǐng)我們進(jìn)入一個(gè)更具革命性的新階段。

它將使AI不再局限于靜態(tài)數(shù)據(jù)，而是能夠理解、模擬和預(yù)測(cè)一個(gè)更加貼近現(xiàn)實(shí)、更加動(dòng)態(tài)變化的醫(yī)療環(huán)境，為醫(yī)生和患者帶來(lái)前所未有的智能輔助。

谷歌祭出「創(chuàng)世引擎」，世界模型重塑AI醫(yī)療

在DeepMind研究路線(xiàn)圖中，世界模型是邁向通用人工智能（AGI）的重要階梯：通過(guò)學(xué)習(xí)環(huán)境的時(shí)空動(dòng)態(tài)，它們不僅預(yù)測(cè)未來(lái)狀態(tài)，還能評(píng)估自身行動(dòng)的后果。

2024年2月，DeepMind發(fā)布了第一代Genie，依靠超過(guò)20萬(wàn)小時(shí)的公開(kāi)互聯(lián)網(wǎng)游戲視頻學(xué)習(xí)而成。

2024年12月，Genie 2問(wèn)世，實(shí)現(xiàn)了從靜態(tài)照片到可交互3D場(chǎng)景的轉(zhuǎn)換，雖然只能維持幾十秒。

而昨晚發(fā)布的Genie 3，在進(jìn)一步提升分辨率、幀率與交互時(shí)長(zhǎng)的同時(shí)，最大的亮點(diǎn)在于實(shí)時(shí)響應(yīng)的用戶(hù)交互，以及能夠長(zhǎng)達(dá)數(shù)分鐘的場(chǎng)景一致性。

根據(jù)官方介紹，Genie 3的一致性是一種涌現(xiàn)能力，能夠基于場(chǎng)景描述和用戶(hù)動(dòng)作逐幀生成更加豐富，動(dòng)態(tài)，變化的世界。

如此突破，讓DeepMind首席執(zhí)行官、2024年諾貝爾化學(xué)獎(jiǎng)得主DemisHassabis感嘆道，上世紀(jì)90年代，他曾夢(mèng)想有一天實(shí)現(xiàn)這一技術(shù)。如今，愿望終于達(dá)成。

Genie 3成為世界模型的重要時(shí)刻，為了讓AI能夠?qū)W習(xí)并理解真實(shí)世界的運(yùn)作規(guī)律，OpenAI、DeepMind、李飛飛等我們耳熟能詳?shù)拿郑谇案昂罄^。

那么，世界模型，到底能為醫(yī)療帶來(lái)什么呢？

曾在知名臨床研究機(jī)構(gòu)Alcanza Clinical Research擔(dān)任首席營(yíng)銷(xiāo)官和首席運(yùn)營(yíng)官的Matthew H. Maxwell認(rèn)為，這可能預(yù)示著AI醫(yī)療的新階段。

他表示，AI已經(jīng)在醫(yī)療保健領(lǐng)域展示了其應(yīng)用價(jià)值，從解讀醫(yī)學(xué)影像到支持臨床決策和簡(jiǎn)化患者數(shù)據(jù)管理。

而世界模型允許進(jìn)行更精細(xì)的推理、長(zhǎng)期規(guī)劃和個(gè)性化干預(yù)，有望將這些應(yīng)用提升到一個(gè)新的復(fù)雜層次。

比如說(shuō)，在預(yù)防醫(yī)學(xué)領(lǐng)域，世界模型可以：

整體風(fēng)險(xiǎn)評(píng)估
考慮時(shí)間跨度內(nèi)的多種變量（例如持續(xù)的血糖監(jiān)測(cè)數(shù)據(jù)、體力活動(dòng)記錄、飲食史）以提供情境相關(guān)的風(fēng)險(xiǎn)預(yù)測(cè)。
個(gè)性化預(yù)防策略
模擬患者特定的場(chǎng)景——例如不同的鍛煉方案或飲食變化——并推薦最有效的行動(dòng)方案。
實(shí)時(shí)更新和警報(bào):
整合可穿戴傳感器和遠(yuǎn)程監(jiān)測(cè)設(shè)備的數(shù)據(jù)，動(dòng)態(tài)調(diào)整建議。
縱向洞察
建?；颊咴谝簧械娘L(fēng)險(xiǎn)概況，當(dāng)疾病風(fēng)險(xiǎn)開(kāi)始上升時(shí)，允許采取主動(dòng)干預(yù)措施。

他指出，目前世界模型在醫(yī)療領(lǐng)域已經(jīng)有一些潛在/初步的應(yīng)用。

例如，英國(guó)國(guó)民健康服務(wù)（NHS）正在測(cè)試AI模型，以預(yù)測(cè)敗血癥風(fēng)險(xiǎn)。雖然這些模型沒(méi)有明確標(biāo)記為“世界模型”，但它們整合了隨時(shí)間變化的患者軌跡——這是構(gòu)建世界模型的核心原則。

又比如，一些醫(yī)院已經(jīng)開(kāi)始將遠(yuǎn)程血壓監(jiān)測(cè)數(shù)據(jù)整合到AI驅(qū)動(dòng)的護(hù)理路徑中，“世界模型”可以細(xì)化藥物劑量調(diào)整和生活方式建議。

另外，在藥物發(fā)現(xiàn)領(lǐng)域，世界模型可以作為一個(gè)高效的模擬器，科學(xué)家可以在這個(gè)虛擬實(shí)驗(yàn)室里進(jìn)行數(shù)百萬(wàn)次實(shí)驗(yàn)，大大加速研究進(jìn)程，降低成本。

盡管如此，數(shù)據(jù)仍是構(gòu)建世界模型的最大挑戰(zhàn)，醫(yī)療數(shù)據(jù)往往不完整、噪聲大且分散，而世界模型需要更加全面的數(shù)據(jù)集。

如何整合這些數(shù)據(jù)源需要臨床醫(yī)生、AI科學(xué)家、政策制定者和患者的共同努力。

港科大團(tuán)隊(duì)聯(lián)手，發(fā)布首個(gè)醫(yī)學(xué)世界模型

世界模型在醫(yī)療領(lǐng)域的潛力巨大，一些團(tuán)隊(duì)已經(jīng)將藍(lán)圖變?yōu)楝F(xiàn)實(shí)。

今年6月，香港科技大學(xué)（廣州）與約翰霍普金斯大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)合作提出的首個(gè)醫(yī)學(xué)世界模型（Medical World Model，MeWM）

論文第一作者為楊逸君，共同作者包括計(jì)算機(jī)視覺(jué)奠基人Alan Yuille和美國(guó)工程院院士Rama Chellappa，通訊作者為朱磊和陳杰能。

這項(xiàng)成果引入世界模型理念，構(gòu)建了「觀(guān)察–模擬–評(píng)估–優(yōu)化」的閉環(huán)路徑。

模型以影像數(shù)據(jù)為起點(diǎn)，通過(guò)感知模塊建立初始狀態(tài)。接著，進(jìn)展預(yù)測(cè)模型會(huì)模擬不同干預(yù)措施下的未來(lái)走向?；谏嬖u(píng)估的結(jié)果，策略模塊生成旨在恢復(fù)的行動(dòng)。這些行動(dòng)反過(guò)來(lái)影響后續(xù)的觀(guān)察與模擬，形成一個(gè)優(yōu)化臨床決策的閉環(huán)。

具體來(lái)看，模型在以下三個(gè)方面做出了重要突破：

腫瘤演變模擬器：使用3D擴(kuò)散模型模擬不同治療方案下的腫瘤形態(tài)演變

生存風(fēng)險(xiǎn)預(yù)知：通過(guò)生存分析模型預(yù)測(cè)治療方案的患者預(yù)后生存風(fēng)險(xiǎn)，利用逆動(dòng)力學(xué)推理最優(yōu)治療方案，方案制定準(zhǔn)確率大幅超越傳統(tǒng)多模態(tài)大模型；

臨床決策閉環(huán)：構(gòu)建「方案生成-模擬推演-生存評(píng)估」的自動(dòng)化、可視化優(yōu)化循環(huán)，通用支持癌癥介入治療規(guī)劃。

在術(shù)后腫瘤生成效果評(píng)估中，MeWM經(jīng)受了由三位放射科醫(yī)生參與的「圖靈測(cè)試」。研究共準(zhǔn)備了240份CT圖像，其中120例為真實(shí)術(shù)后圖像，另外120例由不同模型合成。

結(jié)果顯示，MeWM 所生成圖像被誤判為真實(shí)的比例最高，遠(yuǎn)優(yōu)于其他方法，說(shuō)明其合成結(jié)果在外觀(guān)上最接近真實(shí)術(shù)后腫瘤。

在肝癌TACE治療方案中，MeWM 展現(xiàn)出顯著的性能優(yōu)勢(shì)。

在私有數(shù)據(jù)集上，其F1-score達(dá)到52.38%，較GPT-4o、Claude-3.7和MedGPT等多模態(tài)大模型提升超過(guò)10%；在公開(kāi)數(shù)據(jù)集上，F(xiàn)1-score達(dá)到64.08%，接近專(zhuān)業(yè)放射科醫(yī)生（71.43%）的水平。

不同于僅依賴(lài)視覺(jué)語(yǔ)言推理的模型，MeWM基于生成的術(shù)后CT進(jìn)行生存分析評(píng)分，使得模型能夠更準(zhǔn)確地判斷不同治療組合帶來(lái)的潛在療效差異。

不同于其他模型，MeWM真正厲害的地方在于，能模擬未來(lái)的各種可能，然后反過(guò)來(lái)告訴醫(yī)生現(xiàn)在該怎么做，成為世界模型在臨床決策中的首次落地實(shí)踐。

Genie 3的問(wèn)世，代表了世界模型的最新前沿，而像MeWM這樣的成果，則向我們展現(xiàn)出世界模型在醫(yī)療領(lǐng)域的巨大應(yīng)用潛力。

世界模型所帶來(lái)的，不僅是更精準(zhǔn)的診斷，更是一個(gè)能夠模擬、預(yù)測(cè)和優(yōu)化復(fù)雜醫(yī)療情境的全新智能引擎。

它讓AI擁有了“常識(shí)”，能夠真正像人類(lèi)一樣思考和規(guī)劃，為醫(yī)生和患者帶來(lái)更具預(yù)見(jiàn)性、更高效的醫(yī)療解決方案。

可以預(yù)見(jiàn)，這將是未來(lái)醫(yī)療健康領(lǐng)域最令人期待的變革之一。

—The End—

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.