昨晚,谷歌DeepMind正式發(fā)布Genie 3,這款通用型世界模型,能夠生成前所未有的豐富交互環(huán)境。
作為首個(gè)支持實(shí)時(shí)交互的世界模型,Genie 3能以每秒20-24幀速度實(shí)時(shí)生成畫(huà)面,并在720p分辨率下保持?jǐn)?shù)分鐘的畫(huà)面一致性。
相較于前代,Genie 3在分辨率、幀率與交互時(shí)長(zhǎng)等方面進(jìn)一步優(yōu)化,并首次加入“可提示的世界事件”和“視覺(jué)記憶”等關(guān)鍵特性,使得真實(shí)感大幅提升。
一句話(huà),Genie 3可以根據(jù)需求生成近乎真實(shí)的現(xiàn)實(shí)世界。
Genie 3的誕生,再次點(diǎn)燃了業(yè)界對(duì)于世界模型的熱情。
所謂世界模型(World Model),即是一種能夠預(yù)測(cè)未來(lái)情況、幫助模型理解和規(guī)劃行動(dòng)的內(nèi)部模擬系統(tǒng)。
它的重要意義在于讓機(jī)器能夠像人類(lèi)一樣進(jìn)行高效的決策,不再僅依賴(lài)于當(dāng)下觀(guān)察到的信息,而是基于現(xiàn)實(shí)情境和事實(shí)進(jìn)行推理。
正如Meta首席AI科學(xué)家、圖靈獎(jiǎng)得主Yann LeCun所言:「如果AI不能理解世界的運(yùn)作,就永遠(yuǎn)只是“工具”,而世界模型是讓AI擁有“常識(shí)”的第一步?!?/p>
世界模型將大大提升AI的“智能”水平,從而為醫(yī)療健康帶來(lái)更多可能性。
今年1月,臨床研究專(zhuān)家Matthew H. Maxwell發(fā)布了一篇博客文章,他認(rèn)為世界模型有望將AI醫(yī)療提升到一個(gè)新的層次,包括更準(zhǔn)確的預(yù)測(cè)疾病風(fēng)險(xiǎn)、更早的干預(yù)以及更加個(gè)性化的治療。
6月,香港科技大學(xué)(廣州)與約翰霍普金斯大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)合作推出了首個(gè)醫(yī)學(xué)世界模型(Medical World Model),首次讓AI具備了「預(yù)演」疾病演變的能力,通過(guò)生成式模型模擬不同治療方案下的腫瘤變化,為臨床決策提供可視化依據(jù)。
論文鏈接:https://arxiv.org/pdf/2506.02327
在大語(yǔ)言模型(LLM)徹底改變了AI醫(yī)療的現(xiàn)有格局之后,世界模型正嶄露頭角,有望帶領(lǐng)我們進(jìn)入一個(gè)更具革命性的新階段。
它將使AI不再局限于靜態(tài)數(shù)據(jù),而是能夠理解、模擬和預(yù)測(cè)一個(gè)更加貼近現(xiàn)實(shí)、更加動(dòng)態(tài)變化的醫(yī)療環(huán)境,為醫(yī)生和患者帶來(lái)前所未有的智能輔助。
谷歌祭出「創(chuàng)世引擎」,世界模型重塑AI醫(yī)療
在DeepMind研究路線(xiàn)圖中,世界模型是邁向通用人工智能(AGI)的重要階梯:通過(guò)學(xué)習(xí)環(huán)境的時(shí)空動(dòng)態(tài),它們不僅預(yù)測(cè)未來(lái)狀態(tài),還能評(píng)估自身行動(dòng)的后果。
2024年2月,DeepMind發(fā)布了第一代Genie,依靠超過(guò)20萬(wàn)小時(shí)的公開(kāi)互聯(lián)網(wǎng)游戲視頻學(xué)習(xí)而成。
2024年12月,Genie 2問(wèn)世,實(shí)現(xiàn)了從靜態(tài)照片到可交互3D場(chǎng)景的轉(zhuǎn)換,雖然只能維持幾十秒。
而昨晚發(fā)布的Genie 3,在進(jìn)一步提升分辨率、幀率與交互時(shí)長(zhǎng)的同時(shí),最大的亮點(diǎn)在于實(shí)時(shí)響應(yīng)的用戶(hù)交互,以及能夠長(zhǎng)達(dá)數(shù)分鐘的場(chǎng)景一致性。
根據(jù)官方介紹,Genie 3的一致性是一種涌現(xiàn)能力,能夠基于場(chǎng)景描述和用戶(hù)動(dòng)作逐幀生成更加豐富,動(dòng)態(tài),變化的世界。
如此突破,讓DeepMind首席執(zhí)行官、2024年諾貝爾化學(xué)獎(jiǎng)得主DemisHassabis感嘆道,上世紀(jì)90年代,他曾夢(mèng)想有一天實(shí)現(xiàn)這一技術(shù)。如今,愿望終于達(dá)成。
Genie 3成為世界模型的重要時(shí)刻,為了讓AI能夠?qū)W習(xí)并理解真實(shí)世界的運(yùn)作規(guī)律,OpenAI、DeepMind、李飛飛等我們耳熟能詳?shù)拿郑谇案昂罄^。
那么,世界模型,到底能為醫(yī)療帶來(lái)什么呢?
曾在知名臨床研究機(jī)構(gòu)Alcanza Clinical Research擔(dān)任首席營(yíng)銷(xiāo)官和首席運(yùn)營(yíng)官的Matthew H. Maxwell認(rèn)為,這可能預(yù)示著AI醫(yī)療的新階段。
他表示,AI已經(jīng)在醫(yī)療保健領(lǐng)域展示了其應(yīng)用價(jià)值,從解讀醫(yī)學(xué)影像到支持臨床決策和簡(jiǎn)化患者數(shù)據(jù)管理。
而世界模型允許進(jìn)行更精細(xì)的推理、長(zhǎng)期規(guī)劃和個(gè)性化干預(yù),有望將這些應(yīng)用提升到一個(gè)新的復(fù)雜層次。
比如說(shuō),在預(yù)防醫(yī)學(xué)領(lǐng)域,世界模型可以:
整體風(fēng)險(xiǎn)評(píng)估
考慮時(shí)間跨度內(nèi)的多種變量(例如持續(xù)的血糖監(jiān)測(cè)數(shù)據(jù)、體力活動(dòng)記錄、飲食史)以提供情境相關(guān)的風(fēng)險(xiǎn)預(yù)測(cè)。
個(gè)性化預(yù)防策略
模擬患者特定的場(chǎng)景——例如不同的鍛煉方案或飲食變化——并推薦最有效的行動(dòng)方案。
實(shí)時(shí)更新和警報(bào):
整合可穿戴傳感器和遠(yuǎn)程監(jiān)測(cè)設(shè)備的數(shù)據(jù),動(dòng)態(tài)調(diào)整建議。
縱向洞察
建?;颊咴谝簧械娘L(fēng)險(xiǎn)概況,當(dāng)疾病風(fēng)險(xiǎn)開(kāi)始上升時(shí),允許采取主動(dòng)干預(yù)措施。
他指出,目前世界模型在醫(yī)療領(lǐng)域已經(jīng)有一些潛在/初步的應(yīng)用。
例如,英國(guó)國(guó)民健康服務(wù)(NHS)正在測(cè)試AI模型,以預(yù)測(cè)敗血癥風(fēng)險(xiǎn)。雖然這些模型沒(méi)有明確標(biāo)記為“世界模型”,但它們整合了隨時(shí)間變化的患者軌跡——這是構(gòu)建世界模型的核心原則。
又比如,一些醫(yī)院已經(jīng)開(kāi)始將遠(yuǎn)程血壓監(jiān)測(cè)數(shù)據(jù)整合到AI驅(qū)動(dòng)的護(hù)理路徑中,“世界模型”可以細(xì)化藥物劑量調(diào)整和生活方式建議。
另外,在藥物發(fā)現(xiàn)領(lǐng)域,世界模型可以作為一個(gè)高效的模擬器,科學(xué)家可以在這個(gè)虛擬實(shí)驗(yàn)室里進(jìn)行數(shù)百萬(wàn)次實(shí)驗(yàn),大大加速研究進(jìn)程,降低成本。
盡管如此,數(shù)據(jù)仍是構(gòu)建世界模型的最大挑戰(zhàn),醫(yī)療數(shù)據(jù)往往不完整、噪聲大且分散,而世界模型需要更加全面的數(shù)據(jù)集。
如何整合這些數(shù)據(jù)源需要臨床醫(yī)生、AI科學(xué)家、政策制定者和患者的共同努力。
港科大團(tuán)隊(duì)聯(lián)手,發(fā)布首個(gè)醫(yī)學(xué)世界模型
世界模型在醫(yī)療領(lǐng)域的潛力巨大,一些團(tuán)隊(duì)已經(jīng)將藍(lán)圖變?yōu)楝F(xiàn)實(shí)。
今年6月,香港科技大學(xué)(廣州)與約翰霍普金斯大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)合作提出的首個(gè)醫(yī)學(xué)世界模型(Medical World Model,MeWM)
論文第一作者為楊逸君,共同作者包括計(jì)算機(jī)視覺(jué)奠基人Alan Yuille和美國(guó)工程院院士Rama Chellappa,通訊作者為朱磊和陳杰能。
這項(xiàng)成果引入世界模型理念,構(gòu)建了「觀(guān)察–模擬–評(píng)估–優(yōu)化」的閉環(huán)路徑。
模型以影像數(shù)據(jù)為起點(diǎn),通過(guò)感知模塊建立初始狀態(tài)。接著,進(jìn)展預(yù)測(cè)模型會(huì)模擬不同干預(yù)措施下的未來(lái)走向?;谏嬖u(píng)估的結(jié)果,策略模塊生成旨在恢復(fù)的行動(dòng)。這些行動(dòng)反過(guò)來(lái)影響后續(xù)的觀(guān)察與模擬,形成一個(gè)優(yōu)化臨床決策的閉環(huán)。
具體來(lái)看,模型在以下三個(gè)方面做出了重要突破:
腫瘤演變模擬器:使用3D擴(kuò)散模型模擬不同治療方案下的腫瘤形態(tài)演變
生存風(fēng)險(xiǎn)預(yù)知:通過(guò)生存分析模型預(yù)測(cè)治療方案的患者預(yù)后生存風(fēng)險(xiǎn),利用逆動(dòng)力學(xué)推理最優(yōu)治療方案,方案制定準(zhǔn)確率大幅超越傳統(tǒng)多模態(tài)大模型;
臨床決策閉環(huán):構(gòu)建「方案生成-模擬推演-生存評(píng)估」的自動(dòng)化、可視化優(yōu)化循環(huán),通用支持癌癥介入治療規(guī)劃。
在術(shù)后腫瘤生成效果評(píng)估中,MeWM經(jīng)受了由三位放射科醫(yī)生參與的「圖靈測(cè)試」。研究共準(zhǔn)備了240份CT圖像,其中120例為真實(shí)術(shù)后圖像,另外120例由不同模型合成。
結(jié)果顯示,MeWM 所生成圖像被誤判為真實(shí)的比例最高,遠(yuǎn)優(yōu)于其他方法,說(shuō)明其合成結(jié)果在外觀(guān)上最接近真實(shí)術(shù)后腫瘤。
在肝癌TACE治療方案中,MeWM 展現(xiàn)出顯著的性能優(yōu)勢(shì)。
在私有數(shù)據(jù)集上,其F1-score達(dá)到52.38%,較GPT-4o、Claude-3.7和MedGPT等多模態(tài)大模型提升超過(guò)10%;在公開(kāi)數(shù)據(jù)集上,F(xiàn)1-score達(dá)到64.08%,接近專(zhuān)業(yè)放射科醫(yī)生(71.43%)的水平。
不同于僅依賴(lài)視覺(jué)語(yǔ)言推理的模型,MeWM基于生成的術(shù)后CT進(jìn)行生存分析評(píng)分,使得模型能夠更準(zhǔn)確地判斷不同治療組合帶來(lái)的潛在療效差異。
不同于其他模型,MeWM真正厲害的地方在于,能模擬未來(lái)的各種可能,然后反過(guò)來(lái)告訴醫(yī)生現(xiàn)在該怎么做,成為世界模型在臨床決策中的首次落地實(shí)踐。
Genie 3的問(wèn)世,代表了世界模型的最新前沿,而像MeWM這樣的成果,則向我們展現(xiàn)出世界模型在醫(yī)療領(lǐng)域的巨大應(yīng)用潛力。
世界模型所帶來(lái)的,不僅是更精準(zhǔn)的診斷,更是一個(gè)能夠模擬、預(yù)測(cè)和優(yōu)化復(fù)雜醫(yī)療情境的全新智能引擎。
它讓AI擁有了“常識(shí)”,能夠真正像人類(lèi)一樣思考和規(guī)劃,為醫(yī)生和患者帶來(lái)更具預(yù)見(jiàn)性、更高效的醫(yī)療解決方案。
可以預(yù)見(jiàn),這將是未來(lái)醫(yī)療健康領(lǐng)域最令人期待的變革之一。
—The End—
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.