當(dāng) AI 系統(tǒng)在醫(yī)學(xué)診斷上的表現(xiàn)超過人類專家時(shí),人機(jī)協(xié)作一定會(huì)帶來更好的結(jié)果嗎?來自美國芝加哥大學(xué)的一項(xiàng)研究給出了意外的答案。
這項(xiàng)研究專門針對前列腺癌磁共振成像(MRI,Magnetic Resonance Imaging)診斷進(jìn)行了深入的人機(jī)協(xié)作實(shí)驗(yàn)。之所以選擇這個(gè)難題,該論文第一作者、芝加哥大學(xué)陳詫姹博士對 DeepTech 解釋道:“前列腺癌 MRI 診斷是一個(gè)真實(shí)存在且難度較高的問題。許多以往的 AI 醫(yī)療研究所選擇的領(lǐng)域,醫(yī)生診斷的準(zhǔn)確率可能已高達(dá) 90% 以上,但前列腺 MRI 診斷即使對經(jīng)驗(yàn)豐富的放射科醫(yī)生也極具挑戰(zhàn)性。”
圖丨陳詫姹(來源:陳詫姹)
也就是說,在一個(gè)比較難的問題上,AI 可能給人帶來的幫助更大,因?yàn)?AI 會(huì)比人更好,而且人也有更多的進(jìn)步空間。
研究團(tuán)隊(duì)訓(xùn)練了一個(gè)基于 nnU-Net 架構(gòu)的 AI 模型,使用包含 1411 個(gè)病例的 PI-CAI 公開數(shù)據(jù)集。這個(gè)模型在測試集上的 AUROC(Area Under the Receiver Operating Characteristic curve,接受者操作特征曲線下面積)分別達(dá)到 0.730 和 0.790,明顯超過了參與研究的 8 名放射科醫(yī)生的平均水平(這些醫(yī)生來自美國和歐洲,年齡在 29 到 52 歲之間,大多具有豐富的前列腺 MRI 診斷經(jīng)驗(yàn))。
實(shí)驗(yàn)?zāi)M了兩種可能的臨床 AI 部署場景。第一種是在醫(yī)生獨(dú)立診斷后,再提供 AI 的建議作為參考;第二種則是直接將 AI 的建議前置提供給醫(yī)生。
圖丨實(shí)驗(yàn)流程概覽(來源:arXiv)
第一階段實(shí)驗(yàn)中,8 名放射科醫(yī)生需要對 75 個(gè)病例進(jìn)行三步診斷:先獨(dú)立診斷,然后查看 AI 預(yù)測,最后做出最終判斷。30 天后的第二階段實(shí)驗(yàn)里,醫(yī)生們首先會(huì)看到詳細(xì)的個(gè)人表現(xiàn)反饋,包括第一階段的各項(xiàng)診斷指標(biāo),然后在 AI 預(yù)測直接展示的情況下診斷 100 個(gè)新病例。
(來源:arXiv)
研究結(jié)果首先證實(shí)了 AI 輔助的直接價(jià)值,但也揭示了一個(gè)更深層次的協(xié)作瓶頸。在第一組實(shí)驗(yàn)中,放射科醫(yī)生獨(dú)立診斷的平均準(zhǔn)確率為 63.2%,獲得 AI 輔助后,他們的平均準(zhǔn)確率提升至 66.2%。然而,這一“人+AI”的協(xié)作表現(xiàn),仍未能超越 AI 模型本身 69.3% 的獨(dú)立診斷準(zhǔn)確率。
原因何在?陳詫姹觀察到:雖然醫(yī)生會(huì)更加依賴 AI 的決策,但他們不知道在哪種情況下該相信 AI 的建議。醫(yī)生并不能分辨出哪些情況下 AI 是對的,哪些情況下 AI 是錯(cuò)的,所以即使他們總體上更信任 AI,最終的準(zhǔn)確率提升還是有限。
研究顯示,在第一階段研究中,當(dāng)醫(yī)生的初步診斷與 AI 出現(xiàn)分歧時(shí)(平均 22.6 個(gè)病例),醫(yī)生只在 4.6 個(gè)案例中選擇改變自己的判斷,改變率僅為 20.4%。且在這些存在分歧的病例中,醫(yī)生自己的準(zhǔn)確率只有 44.4%,遠(yuǎn)低于總體水平。這說明醫(yī)生往往在最需要 AI 幫助的時(shí)候,反而更堅(jiān)持自己的判斷。
第二階段實(shí)驗(yàn)中,性能反饋和直接展示 AI 建議確實(shí)提高了醫(yī)生對 AI 的采納率,從第一階段的 75.5% 上升到 78.4%,但這種提升并沒有帶來診斷表現(xiàn)的顯著改善??磥恚唵蔚馗嬖V醫(yī)生數(shù)據(jù)還不夠,無法根本改變他們的決策習(xí)慣。
(來源:arXiv)
既然個(gè)體層面的協(xié)作存在局限,研究團(tuán)隊(duì)便將目光轉(zhuǎn)向了群體決策,探索實(shí)現(xiàn)“互補(bǔ)性能”(Complementary Performance)的可能性,即人機(jī)團(tuán)隊(duì)的表現(xiàn)超越任何一方單獨(dú)表現(xiàn)的理想狀態(tài)。他們將 8 位醫(yī)生在 AI 輔助下做出的診斷結(jié)果進(jìn)行整合,通過“多數(shù)票決”(majority vote)的方式形成一個(gè)集體的最終決策。
這一策略的效果十分顯著。數(shù)據(jù)顯示,這個(gè)“人+AI”群體的平均診斷準(zhǔn)確率達(dá)到了 73.3%,不僅顯著優(yōu)于人類專家的獨(dú)立表現(xiàn)(63.2%),也首次超越了 AI 模型的獨(dú)立表現(xiàn)(69.3%)。
(來源:arXiv)
“這個(gè)結(jié)果的意義在于,”陳詫姹強(qiáng)調(diào),“它說明在這個(gè)問題上,人類和 AI 確實(shí)是可以互補(bǔ)的。只有他們能互補(bǔ),你最后才能看到一個(gè)比任何一方單獨(dú)表現(xiàn)都更好的結(jié)果?!?/strong>
這一發(fā)現(xiàn)表明,雖然讓單個(gè)醫(yī)生完美地駕馭 AI 存在困難,但通過群體智慧的機(jī)制,人類的經(jīng)驗(yàn)、直覺與 AI 強(qiáng)大的數(shù)據(jù)分析能力確實(shí)可以實(shí)現(xiàn)互補(bǔ),從而達(dá)到最佳診斷效果。這為未來 AI 在臨床中的應(yīng)用模式提供了新的思路:或許重點(diǎn)不應(yīng)僅僅是為單個(gè)醫(yī)生提供一個(gè)“超級工具”,而是構(gòu)建一個(gè)人與 AI 深度融合的“協(xié)作團(tuán)隊(duì)”。
對于如何更好地實(shí)現(xiàn)這種互補(bǔ),陳詫姹認(rèn)為,未來的方向包括持續(xù)優(yōu)化 AI 模型本身,使其更加精準(zhǔn)。同時(shí),更重要的是要增進(jìn)醫(yī)生對 AI 的 理解?!澳阋嬖V他們 AI 模型能做到什么樣,有哪些病歷是 AI 模型特別擅長的,然后哪些病歷 AI 模型可能沒有那么好?!蓖ㄟ^給予醫(yī)生關(guān)于 AI 模型能力邊界的清晰認(rèn)知和數(shù)據(jù)反饋,能幫助他們建立更合理、更有效的信任。
圖丨相關(guān)論文(來源:arXiv)
相關(guān)論文相關(guān)以《領(lǐng)域?qū)<夷芊袂‘?dāng)?shù)匾蕾?AI?一項(xiàng)關(guān)于 AI 輔助前列腺癌 MRI 診斷的案例研究》(Can Domain Experts Rely on AI Appropriately? A Case Study on AI-Assisted Prostate Cancer MRI Diagnosis)為題發(fā)表于會(huì)議 ACM Conference on Fairness, Accountability, and Transparency [1]。芝加哥大學(xué)陳詫姹博士是第一作者,芝加哥大學(xué)譚宸浩教授擔(dān)任通訊作者。
參考資料:
1.https://arxiv.org/pdf/2502.03482v1
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.