If A.I. Can Diagnose Patients, What Are Doctors For?
大語言模型正在改變醫(yī)學(xué)——但這項(xiàng)技術(shù)也存在“副作用”。
本文即將刊登于2025 年 9 月 29 日《紐約客》雜志,印刷版標(biāo)題為:
“Prompt Diagnosis.”
作者:德魯夫·庫拉爾(Dhruv Khullar) , 《紐約客》雜志特約撰稿人,執(zhí)業(yè)醫(yī)師,威爾康奈爾醫(yī)學(xué)院副教授。他撰寫醫(yī)學(xué)、醫(yī)療保健和政治方面的文章。
“我擔(dān)心這些工具會(huì)削弱我獨(dú)立診斷的能力?!币幻t(yī)學(xué)生表示。插圖:Petra Péterffy
2017年,馬修·威廉姆斯——一位三十多歲、身材健碩的光頭軟件工程師——在舊金山山區(qū)進(jìn)行了一次長途騎行。之后,他和幾個(gè)朋友共進(jìn)晚餐,點(diǎn)了一個(gè)漢堡、一份薯?xiàng)l和一杯奶昔。吃到一半時(shí),他感覺腹脹難忍,不得不讓別人開車送他回家。當(dāng)晚,威廉姆斯被腹部劇烈疼痛驚醒,他擔(dān)心自己得了闌尾炎。于是他去了附近的急診診所,醫(yī)生卻告訴他可能只是便秘,開了些瀉藥就讓他回去了。
幾小時(shí)后,威廉姆斯的疼痛加劇,還開始嘔吐,感覺胃都要脹破了。一位朋友送他去了醫(yī)院,CT掃描顯示他患的是盲腸扭轉(zhuǎn)——這是一種急癥,部分腸道發(fā)生扭轉(zhuǎn),導(dǎo)致消化道梗阻。之前的醫(yī)療團(tuán)隊(duì)不僅漏診了這種疾病,甚至可能因?yàn)殚_了瀉藥而加重了病情。威廉姆斯被緊急送進(jìn)手術(shù)室,外科醫(yī)生切除了他大約6英尺(約1.8米)長的腸道。
手術(shù)后康復(fù)期間,威廉姆斯幾乎每次進(jìn)食都會(huì)出現(xiàn)嚴(yán)重腹瀉。醫(yī)生說他的腸道只需要時(shí)間恢復(fù)?!扒闆r嚴(yán)重到我沒法出門,因?yàn)槲铱倳?huì)吃到讓自己不舒服的東西?!彼f。在接下來的幾年里,威廉姆斯先后咨詢了多位營養(yǎng)師和腸胃科醫(yī)生,總共8位臨床醫(yī)生,但沒人能找出他癥狀的原因?!坝袝r(shí)候醫(yī)生會(huì)這樣,‘你又不會(huì)死,那下次再來吧’?!彼f。威廉姆斯的飲食基本局限于雞蛋、米飯、蘋果泥和酸面包?!爸钡侥阍僖膊荒苷_M(jìn)食,你才會(huì)明白食物在生活中——在社交、文化層面——有多重要?!彼嬖V我,“約會(huì)時(shí)解釋自己為什么不能吃馬蘇里拉芝士條,那種感覺很尷尬。當(dāng)你的食物變得寡淡無味,你的生活也會(huì)隨之失去色彩。”
2023年,威廉姆斯一時(shí)興起,把自己的病史輸入了ChatGPT。“我切除了大部分回腸和盲腸瓣,為什么以下這些食物會(huì)導(dǎo)致我腸胃不適?”他輸入這句話,然后列出了幾種會(huì)讓他反應(yīng)最嚴(yán)重的食物。幾秒鐘后,人工智能指出了可能引發(fā)他癥狀的三個(gè)原因:高脂肪食物、可發(fā)酵纖維和高草酸鹽食物。草酸鹽是一種存在于綠葉蔬菜和多種其他食物中的化合物,正常情況下會(huì)被威廉姆斯已切除的那部分胃腸道分解——但他此前從未聽說過這種物質(zhì),就連醫(yī)生也沒提過。他讓人工智能列出高草酸鹽食物清單,結(jié)果令他震驚?!扒鍐紊狭械拿恳环N食物,都會(huì)讓我病得最嚴(yán)重?!彼f——菠菜、杏仁、巧克力、大豆,還有十幾種其他食物?!案杏X它好像一直跟著我,記錄下了我的情況?!蓖匪拱堰@些信息帶給一位營養(yǎng)師,營養(yǎng)師根據(jù)食物的草酸鹽含量為他定制了飲食方案。他的癥狀有所改善,飲食種類也豐富了起來。如今,威廉姆斯不再需要時(shí)刻留意最近的洗手間在哪里。“我的生活回來了。”他說。
在我接受醫(yī)學(xué)培訓(xùn)期間,我十分敬佩那些資深醫(yī)生——他們憑借某種知識(shí)與直覺的“魔力”,總能精準(zhǔn)抓住破解病例的關(guān)鍵線索:患者指甲的異常形狀、幾十年前的職業(yè)風(fēng)險(xiǎn)、一份被忽略的血液檢測報(bào)告。這些醫(yī)生的大腦里運(yùn)行著怎樣的“算法”?我能將這種“算法”為己所用嗎?然而在未來,診斷或許將越來越成為一門計(jì)算機(jī)科學(xué)。調(diào)查顯示,許多人對人工智能診斷的信任度甚至高于專業(yè)醫(yī)生的診斷。與此同時(shí),僅在美國,每年就有數(shù)十萬人因誤診致殘;尸檢研究表明,約十分之一的死亡案例可能與誤診有關(guān)。如果威廉姆斯當(dāng)初沒有質(zhì)疑最初的診斷,他或許也會(huì)成為其中一員。“我比信任醫(yī)生更信任人工智能。”他說,“而且我覺得不止我一個(gè)人這樣想?!?/p>
20世紀(jì)初,馬薩諸塞州綜合醫(yī)院的醫(yī)生理查德·卡博特開始舉辦研討會(huì),向?qū)嵙?xí)生展示臨床推理過程。一位資深醫(yī)生會(huì)拿到一位既往患者的病歷,并深入探究病例的更多細(xì)節(jié)。如果患者住院期間有相關(guān)信息可用,就會(huì)被披露出來。隨著信息逐漸豐富,醫(yī)生會(huì)逐步得出診斷結(jié)論,再與病理學(xué)家(通常是通過尸檢)最終得出的結(jié)論進(jìn)行對比。這種被稱為“臨床病理討論會(huì)”(簡稱CPC)的會(huì)議后來廣受歡迎,《新英格蘭醫(yī)學(xué)雜志》刊登其會(huì)議記錄已有一個(gè)多世紀(jì)之久。臨床病理討論會(huì)代表了診斷推理的“黃金標(biāo)準(zhǔn)”:如果能解決臨床病理討論會(huì)上的病例,幾乎就能解決任何病例。
臨床病理討論會(huì)還啟發(fā)了眾多“教機(jī)器學(xué)醫(yī)學(xué)”的嘗試。20世紀(jì)50年代末,一位計(jì)算機(jī)科學(xué)家和一位放射科醫(yī)生按癥狀和疾病對病例進(jìn)行分類,提出計(jì)算機(jī)程序可以利用邏輯、博弈論等數(shù)學(xué)工具分析病例。他們在《科學(xué)》雜志的一篇里程碑式論文中寫道:“計(jì)算機(jī)特別適合幫助醫(yī)生收集和處理臨床信息,并提醒他們那些可能被忽略的診斷結(jié)果。”70年代,匹茲堡大學(xué)的一位計(jì)算機(jī)科學(xué)家開發(fā)了一個(gè)名為“INTERNIST-1”的程序,其開發(fā)基礎(chǔ)是他與一位才華橫溢卻令人生畏的醫(yī)生杰克·邁爾斯的一系列對話。(邁爾斯有個(gè)“黑杰克”的綽號(hào),因?yàn)樗卺t(yī)生資格考試中讓很多新醫(yī)生不及格。)邁爾斯挑選了“相當(dāng)多”的臨床病理討論會(huì)病例,展示自己的推理過程;最終,INTERNIST-1在各類病例上的表現(xiàn)與部分醫(yī)生不相上下。但病例的細(xì)節(jié)必須費(fèi)力地輸入計(jì)算機(jī),每次分析可能需要一個(gè)多小時(shí)。研究人員得出結(jié)論:“該程序目前的形式還不足以可靠地應(yīng)用于臨床。”
隨后,大型語言模型問世了。去年,哈佛大學(xué)計(jì)算機(jī)科學(xué)家阿爾瓊·曼拉伊,以及該校新設(shè)立的“醫(yī)學(xué)人工智能”項(xiàng)目的博士生托馬斯·巴克利,開始研發(fā)一種教育與研究工具,旨在幾乎能解決所有臨床病理討論會(huì)的病例。這種工具需要能夠引用文獻(xiàn)、解釋推理過程,并幫助醫(yī)生分析疑難病例。曼拉伊和巴克利基于OpenAI的先進(jìn)“推理模型”o3,開發(fā)了一個(gè)定制版本——該模型在給出答案前,會(huì)先花時(shí)間將復(fù)雜問題拆解成中間步驟。一種名為“檢索增強(qiáng)生成”(RAG)的技術(shù)會(huì)在人工智能生成答案前,從外部來源獲取數(shù)據(jù)。他們開發(fā)的這個(gè)模型有點(diǎn)像學(xué)生寫論文時(shí)會(huì)查閱教科書,而非僅憑記憶寫作。為了向臨床病理討論會(huì)的創(chuàng)始人致敬,他們將這個(gè)人工智能命名為“CaBot”(卡博特)。
今年7月,我前往哈佛大學(xué)康特韋醫(yī)學(xué)圖書館,見證了CaBot與一位資深診斷專家的“對決”。這場活動(dòng)讓我想起1997年國際象棋大師加里·卡斯帕羅夫與最終擊敗他的IBM超級計(jì)算機(jī)“深藍(lán)”的那場對弈。我走過菲尼亞斯·蓋奇的頭骨陳列處——這位患者因一場爆炸導(dǎo)致一根鐵棍貫穿頭部卻奇跡生還,因而聞名。隨后,我來到一間寬敞的會(huì)議室,幾十名學(xué)生、醫(yī)生和研究人員坐在里面,興奮地交談著。即將與CaBot對決的是馬薩諸塞州綜合醫(yī)院的內(nèi)科醫(yī)生丹尼爾·雷斯波——他曾是我住院醫(yī)師培訓(xùn)時(shí)的同學(xué)。我記得雷斯波對診斷推理的癡迷程度,堪比奧運(yùn)選手對競技項(xiàng)目的投入:在我值夜班打盹時(shí),他有時(shí)還在看教科書;他還經(jīng)常跑到實(shí)驗(yàn)室,親自查看患者的尿液樣本。
曼拉伊留著一頭黑色短發(fā),性格溫和。他的辦公地點(diǎn)位于康特韋圖書館的一層——這里曾是圖書館的書庫,如今擺放著一排計(jì)算機(jī)。他介紹了當(dāng)天的病例:“今天,我們要見識(shí)一下CaBot醫(yī)生的能力?!彼枋隽艘晃?1歲的男性患者:該患者因持續(xù)約10天的發(fā)燒、身體酸痛和腳踝腫脹入院,小腿上有疼痛性皮疹,還曾暈厥過兩次。幾個(gè)月前,醫(yī)生曾為他做過心臟支架手術(shù)。CT掃描顯示他肺部有結(jié)節(jié),胸腔淋巴結(jié)腫大。
雷斯波戴著一副學(xué)者風(fēng)格的眼鏡,穿著深色西裝,首先登場。他說,診斷的第一步是明確問題核心:“如果你能把問題提煉成清晰簡潔的表述,大腦解決問題的過程會(huì)更輕松?!彼麖?qiáng)調(diào)了三個(gè)問題:患者是誰?病情發(fā)展速度如何?哪些癥狀構(gòu)成了綜合征?有些癥狀之間存在關(guān)聯(lián),有些則可能只是干擾項(xiàng)?!氨M管有這么多其他數(shù)據(jù),但我認(rèn)為這些才是關(guān)鍵?!彼贿呎f,一邊向觀眾展示了維恩圖中標(biāo)出的四個(gè)關(guān)鍵癥狀。這些癥狀將他的診斷指向了三個(gè)方向:淋巴瘤、感染性疾病和自身免疫性疾病。
淋巴瘤的病情發(fā)展速度不會(huì)這么快?!八俣?,關(guān)鍵是速度!”雷斯波說。罕見感染的可能性也不大——患者出生在美國,沒有免疫功能低下,也沒有去過高風(fēng)險(xiǎn)地區(qū),而且感染也無法解釋他的關(guān)節(jié)疼痛?!澳姆N疾病會(huì)同時(shí)導(dǎo)致發(fā)燒、關(guān)節(jié)炎、肺門淋巴結(jié)腫大和下肢皮疹呢?”雷斯波最終說道,“是 L?fgren 綜合征( L?fgren syndrome )?!盠?fgren綜合征是結(jié)節(jié)病(一種炎癥性疾?。┑暮币姳憩F(xiàn)形式。我們了解到,該患者在住院期間接受了抗炎的類固醇治療,病情有所好轉(zhuǎn),這也印證了診斷的正確性。觀眾們紛紛鼓掌。
曼拉伊回到講臺(tái)上,笑著解釋道:“雷斯波醫(yī)生有六周時(shí)間準(zhǔn)備這次展示,而CaBot醫(yī)生只有六分鐘。”屏幕上出現(xiàn)了一張由人工智能生成的幻燈片,標(biāo)題是《當(dāng)腳踝腫脹、淋巴結(jié)腫大與暈厥相遇》。曼拉伊按下“播放”鍵,然后坐下。一個(gè)溫暖、隨意卻又專業(yè)的女性聲音響徹會(huì)議室:“大家早上好,我是CaBot醫(yī)生。我認(rèn)為這是一個(gè)極具啟發(fā)性的病例,它涉及皮膚病學(xué)、風(fēng)濕病學(xué)、肺病學(xué),甚至心臟病學(xué)。那么,我們直接切入正題吧?!?/p>
這個(gè)聲音的風(fēng)格和語調(diào)與人類醫(yī)生毫無二致,它開始回顧患者的用藥史和病史?!皼]有特殊接觸史,”CaBot說,“患者一直生活在新英格蘭地區(qū)的城市里,六個(gè)月前被家里的貓抓過——這個(gè)信息我會(huì)記在心里,但不會(huì)就此下定論!”觀眾們笑了起來。顯然,這個(gè)模型已經(jīng)篩選出了它認(rèn)為與病例最相關(guān)的信息?!瓣P(guān)節(jié)癥狀是核心?!彼f。接著,它著重指出了CT掃描中顯示的、沿患者肺部淋巴管分布的小結(jié)節(jié)?!白⒁膺@些結(jié)節(jié)是如何沿著肺裂分布的?!盋aBot觀察道。
人工智能列出了一系列可能的診斷,并逐一分析了每種診斷的合理性與不足。它提到患者的C反應(yīng)蛋白(一種炎癥生物標(biāo)志物,有時(shí)與自身免疫性疾病相關(guān))水平很高?!熬C合來看,”CaBot說,“最符合的診斷是急性結(jié)節(jié)病,表現(xiàn)為L?fgren綜合征?!睍?huì)議室里先是一陣沉默,隨后響起了竊竊私語。醫(yī)療領(lǐng)域的一個(gè)新邊界,似乎被突破了。
長久以來,當(dāng)我試圖想象人工智能能完成醫(yī)生那些復(fù)雜的認(rèn)知工作時(shí),我總會(huì)問:它怎么可能做到?但這次演示讓我不得不面對相反的問題:它怎么會(huì)做不到?CaBot偶爾也會(huì)出錯(cuò)——比如把“hilar”(肺門的)讀成“hee-lar”,而正確發(fā)音應(yīng)為“high-lur”;而且它建議的治療方案比雷斯波的更激進(jìn),包括進(jìn)行淋巴結(jié)活檢(大多數(shù)專家認(rèn)為沒必要做活檢,但該患者的實(shí)際醫(yī)療團(tuán)隊(duì)曾考慮過這一方案)。盡管如此,這次展示的水平還是高得驚人——比我在醫(yī)學(xué)培訓(xùn)期間聽過的許多病例分析都要好。而生成這份分析報(bào)告的時(shí)間,只夠我煮一杯咖啡。
CaBot的成功,與一些患者使用聊天機(jī)器人的體驗(yàn)形成了鮮明對比。最近一項(xiàng)研究發(fā)現(xiàn),OpenAI的GPT-4在回答開放式醫(yī)療問題時(shí),約三分之二的答案是錯(cuò)誤的。另一項(xiàng)研究顯示,GPT-3.5對復(fù)雜兒科病例的誤診率超過80%。與此同時(shí),主流大型語言模型在回答中加入免責(zé)聲明的概率大幅下降。一項(xiàng)分析發(fā)現(xiàn),2022年,超過四分之一的健康相關(guān)問題回答中會(huì)包含“我沒有資格提供醫(yī)療建議”之類的表述;而今年,這一比例僅為1%。在一項(xiàng)新調(diào)查中,約五分之一的美國人表示,他們曾采納過人工智能給出的醫(yī)療建議,后來發(fā)現(xiàn)這些建議是錯(cuò)誤的。今年早些時(shí)候,亞利桑那州的一家毒物控制中心報(bào)告稱,總呼叫量有所下降,但嚴(yán)重中毒患者的數(shù)量卻有所增加。該中心主任認(rèn)為,這可能是因?yàn)槿斯ぶ悄芄ぞ哒`導(dǎo)人們,讓他們沒有及時(shí)尋求醫(yī)療幫助。聊天機(jī)器人還存在嚴(yán)重的隱私問題:一旦你的醫(yī)療信息輸入聊天界面,它就不再歸你所有了。去年,埃隆·馬斯克鼓勵(lì)X平臺(tái)(原推特)用戶將自己的醫(yī)療影像上傳到該平臺(tái)的人工智能工具Grok進(jìn)行“分析”。后來有調(diào)查發(fā)現(xiàn),該公司未經(jīng)許可,就將數(shù)十萬條聊天記錄對搜索引擎開放。
同行評審醫(yī)學(xué)期刊《內(nèi)科醫(yī)學(xué)年鑒:臨床病例》最近刊登了一個(gè)頗具警示意義的案例。一位60歲的男性擔(dān)心自己攝入的鹽(氯化鈉)過多,向ChatGPT詢問可行的替代品。人工智能建議他使用溴化物——這是一種早期抗癲癇藥物,在體內(nèi)蓄積時(shí)會(huì)引發(fā)神經(jīng)和精神問題。該男子從網(wǎng)上購買了溴化物,幾個(gè)月后被送進(jìn)急診室,他堅(jiān)信鄰居要毒死自己。他感到極度口渴,卻因多疑而拒絕喝水。血液檢測顯示,他的溴化物水平比正常數(shù)值高出數(shù)百倍。他開始出現(xiàn)幻覺,并試圖逃離醫(yī)院。醫(yī)生不得不對他實(shí)施非自愿精神科強(qiáng)制留觀。當(dāng)醫(yī)生在ChatGPT中重復(fù)他的問題時(shí),人工智能再次推薦了溴化物。
CaBot的演示結(jié)束后,曼拉伊的合作者、貝斯以色列女執(zhí)事醫(yī)療中心的醫(yī)生亞當(dāng)·羅德曼起身發(fā)言。羅德曼負(fù)責(zé)哈佛大學(xué)將生成式人工智能整合到醫(yī)學(xué)院課程中的相關(guān)工作。他指出,雷斯波和CaBot都使用了一種名為“鑒別診斷”的方法:先列出所有可能的解釋,然后系統(tǒng)地排除不符合的選項(xiàng)。但雷斯波更注重患者癥狀的整體關(guān)聯(lián)——“他采用的是綜合征分析法。”羅德曼說——而CaBot則聚焦于肺部結(jié)節(jié),這是大多數(shù)醫(yī)生可能不會(huì)關(guān)注的點(diǎn)?!癈aBot醫(yī)生很早就決定:‘嘿,看看這張CT掃描圖,這些結(jié)節(jié)是沿淋巴分布的,我要基于這一點(diǎn)來進(jìn)行鑒別診斷!’”羅德曼說。人工智能還指出,肺部沒有出現(xiàn)可能提示肺結(jié)核的空洞;它還強(qiáng)調(diào)了一些雷斯波甚至沒有提到的細(xì)微影像特征。羅德曼認(rèn)為,雖然人工智能的推理過程人類可以理解,但它具備獨(dú)特的優(yōu)勢?!耙?yàn)樗狭撕A啃畔?,所以能找出這些人類極少會(huì)注意到的細(xì)節(jié),并以此構(gòu)建診斷清單?!彼f。曼拉伊和同事們用數(shù)百個(gè)近期的臨床病理討論會(huì)病例對該人工智能進(jìn)行測試,發(fā)現(xiàn)它的正確診斷率約為60%,遠(yuǎn)高于此前研究中人類醫(yī)生的診斷率。
羅德曼后來告訴我,要學(xué)會(huì)在醫(yī)療領(lǐng)域合理運(yùn)用人工智能,本身就需要一門專門的“科學(xué)”。去年,他參與合著了一項(xiàng)研究:部分醫(yī)生在ChatGPT的輔助下分析病例,但他們的表現(xiàn)并不比不使用聊天機(jī)器人的醫(yī)生好。然而,僅靠聊天機(jī)器人本身,診斷準(zhǔn)確率卻比人類醫(yī)生更高。在后續(xù)研究中,羅德曼的團(tuán)隊(duì)提出了使用人工智能的具體方法:他們讓一部分醫(yī)生在分析病例前先閱讀人工智能的意見,讓另一部分醫(yī)生將自己的初步診斷告知人工智能,請求后者提供二次意見。這一次,兩組醫(yī)生的診斷準(zhǔn)確率都高于單獨(dú)診斷的人類醫(yī)生。其中,先參考人工智能意見的那組醫(yī)生在提出后續(xù)診療步驟時(shí),速度更快、效果更好。但當(dāng)聊天機(jī)器人后給出意見時(shí),它常?!安环摹薄昂雎葬t(yī)生結(jié)論”的指令,似乎在“作弊”——將自己的分析錨定在醫(yī)生已有的診斷上。
有人將人類與人工智能能力進(jìn)行戰(zhàn)略性結(jié)合的系統(tǒng)稱為“半人馬”(centaur);羅德曼的研究表明,這種模式在醫(yī)學(xué)領(lǐng)域有一定前景。但如果人工智能工具始終存在缺陷,而人類又失去了不依賴它們獨(dú)立工作的能力——這種風(fēng)險(xiǎn)被稱為“認(rèn)知技能退化”(cognitive de-skilling)——那么用羅德曼的話說,“我們就完蛋了”。最近一項(xiàng)研究發(fā)現(xiàn),在結(jié)腸鏡檢查中使用人工智能檢測息肉的腸胃科醫(yī)生,自己檢測息肉的能力會(huì)顯著下降。“如果你是個(gè)愛打賭的人,就該培養(yǎng)那些既懂如何使用人工智能,又懂獨(dú)立思考的醫(yī)生?!绷_德曼說。
醫(yī)學(xué)的未來必然會(huì)涉及人工智能,醫(yī)學(xué)院也已開始鼓勵(lì)學(xué)生使用大型語言模型。“我擔(dān)心這些工具會(huì)削弱我獨(dú)立診斷的能力?!钡每怂_斯大學(xué)西南醫(yī)學(xué)中心的醫(yī)學(xué)生本杰明·波普霍克告訴我。波普霍克之所以決定當(dāng)醫(yī)生,是因?yàn)樗?2歲的表弟死于腦瘤。在最近一次輪轉(zhuǎn)中,教授讓他們班用ChatGPT、OpenEvidence(一種日益流行的醫(yī)療領(lǐng)域大型語言模型,向醫(yī)療專業(yè)人員免費(fèi)開放)等人工智能工具分析一個(gè)病例。每個(gè)聊天機(jī)器人都正確診斷出了肺栓塞(肺部血栓)。“沒有對照組,”波普霍克說——也就是說,沒有學(xué)生在不借助工具的情況下獨(dú)立分析病例。有一段時(shí)間,波普霍克發(fā)現(xiàn)自己幾乎每次接診患者后都會(huì)使用人工智能?!拔抑雷约合蛑髦吾t(yī)生陳述的觀點(diǎn),其實(shí)是人工智能的想法,這讓我感覺很‘不光彩’?!彼嬖V我。有一天離開醫(yī)院時(shí),他突然意識(shí)到一個(gè)令人不安的事實(shí):那天他沒有獨(dú)立思考過任何一個(gè)患者的病情。于是他決定,從那以后,必須先自己得出診斷結(jié)論,再咨詢?nèi)斯ぶ悄??!拔襾磲t(yī)學(xué)院是為了成為一名真正的、大寫的‘醫(yī)生’(Doctor)。”他說,“如果你的工作只是把癥狀輸入人工智能,那你還算醫(yī)生嗎?還是說,你只是比患者更會(huì)給人工智能‘提指令’而已?”
在CaBot演示結(jié)束幾周后,曼拉伊給了我使用這個(gè)模型的權(quán)限。它的訓(xùn)練數(shù)據(jù)來自《新英格蘭醫(yī)學(xué)雜志》的臨床病理討論會(huì)病例,我首先用《美國醫(yī)學(xué)會(huì)雜志》系列(JAMA network,一組頂尖醫(yī)學(xué)期刊)的病例對它進(jìn)行測試。對于患有皮疹、腫塊、增生、肌肉流失等多種病癥的患者,它都能做出準(zhǔn)確診斷,但也存在少數(shù)例外:它曾將一種腫瘤誤認(rèn)為另一種,還把病毒性口腔潰瘍誤診為癌癥。(相比之下,ChatGPT對我提供的病例誤診了約一半,比如把癌癥當(dāng)成感染,把過敏反應(yīng)當(dāng)成自身免疫性疾病。)不過,真實(shí)患者的病情不會(huì)像精心整理的病例研究那樣清晰呈現(xiàn),我想看看CaBot在醫(yī)生實(shí)際遇到的場景中會(huì)如何表現(xiàn)。
我把馬修·威廉姆斯的大致經(jīng)歷告訴了CaBot:騎行、晚餐、腹痛、嘔吐、兩次急診就診。我沒有像醫(yī)生那樣有條理地組織這些信息。令人擔(dān)憂的是,當(dāng)CaBot生成那份條理清晰的分析報(bào)告時(shí),幻燈片里滿是虛構(gòu)的實(shí)驗(yàn)室數(shù)值、生命體征和體格檢查結(jié)果?!吧细共颗蚵??!比斯ぶ悄苠e(cuò)誤地描述道,“輕輕搖晃患者時(shí),能聽到典型的振水音——液體在密閉腔體內(nèi)晃動(dòng)的聲音。”CaBot甚至編造了一份CT掃描報(bào)告,聲稱顯示威廉姆斯的胃腫脹。它最終得出了錯(cuò)誤的診斷:胃扭轉(zhuǎn)(胃部扭轉(zhuǎn)),而非腸扭轉(zhuǎn)。
之后,我將威廉姆斯第二次急診就診的正式病歷摘要(由接診醫(yī)生詳細(xì)記錄)輸入CaBot,得到的結(jié)果截然不同——這可能是因?yàn)椴v包含了更多按重要性排序的數(shù)據(jù)。病歷顯示,患者的血紅蛋白水平驟降,白細(xì)胞數(shù)量增多,且疼痛難忍、身體蜷縮。這一次,CaBot抓住了關(guān)鍵數(shù)據(jù),沒有再編造信息?!敖g窄性腸梗阻的指征——持續(xù)性疼痛、白細(xì)胞增多、血紅蛋白下降——全都在向我們發(fā)出信號(hào)?!彼f。CaBot診斷患者為小腸梗阻,可能由扭轉(zhuǎn)或疝氣引起,并建議“盡早請外科醫(yī)生會(huì)診”。從技術(shù)層面看,CaBot的診斷略有偏差:威廉姆斯的問題出在大腸而非小腸,但后續(xù)應(yīng)采取的診療步驟幾乎完全相同——外科醫(yī)生終究會(huì)發(fā)現(xiàn)腸道的扭轉(zhuǎn)。
與CaBot交流,既讓人感到振奮,又有些不安。我感覺自己現(xiàn)在隨時(shí)都能獲得任何??频亩卧\斷意見,但前提是我必須保持警惕,且具備足夠的醫(yī)學(xué)知識(shí)——這樣才能充分利用它的優(yōu)勢,同時(shí)發(fā)現(xiàn)它的錯(cuò)誤。人工智能模型可能聽起來像博士一樣專業(yè),卻會(huì)犯小學(xué)生級別的判斷錯(cuò)誤。聊天機(jī)器人無法為患者進(jìn)行體格檢查,而且眾所周知,它們在處理開放式問題時(shí)表現(xiàn)不佳。如果你能明確強(qiáng)調(diào)關(guān)鍵信息,它們的輸出結(jié)果會(huì)更準(zhǔn)確,但大多數(shù)人并沒有接受過“按重要性排序癥狀”的訓(xùn)練。一個(gè)胸痛患者可能是胃食管反流、炎癥,也可能是心臟病發(fā)作;醫(yī)生會(huì)追問疼痛是否在進(jìn)食時(shí)、行走時(shí)或躺下時(shí)出現(xiàn),以及身體前傾時(shí)疼痛會(huì)加劇還是緩解。有時(shí),我們會(huì)留意那些能顯著提高特定疾病可能性的表述:“有生以來最劇烈的頭痛”可能提示腦出血,“眼前發(fā)黑如幕布降下”則暗示視網(wǎng)膜動(dòng)脈阻塞。人工智能與早期診斷技術(shù)的區(qū)別,就像電鋸與手鋸——但如果使用者不夠謹(jǐn)慎,就可能切到自己的手指。
參加過足夠多的臨床病理討論會(huì),或看過足夠多集《豪斯醫(yī)生》(House)后,你會(huì)覺得每個(gè)醫(yī)學(xué)病例都像一個(gè)待解的謎?!都~約時(shí)報(bào)雜志》專欄及網(wǎng)飛(Netflix)劇集《診斷》(Diagnosis)的核心人物、醫(yī)生莉薩·桑德斯曾將自己的工作比作夏洛克·福爾摩斯探案。但日常醫(yī)療實(shí)踐往往遠(yuǎn)沒有那么戲劇化,反而充滿重復(fù)。比如,在我接受培訓(xùn)期間輪轉(zhuǎn)退伍軍人事務(wù)部(VA)醫(yī)院時(shí),我感覺自己不像福爾摩斯,倒像西西弗斯(Sisyphus,希臘神話中不斷推石上山卻又看著石頭滾落的人物)。幾乎每個(gè)患者的癥狀都離不開這幾種組合:肺氣腫、心力衰竭、糖尿病、慢性腎病和高血壓。我還學(xué)會(huì)了一個(gè)新說法——“可能是多因素導(dǎo)致的”(likely multifactorial),意思是患者的癥狀有多種解釋,而我們需要想辦法在治療一種疾病的同時(shí),不加重另一種。(比如,為緩解心臟負(fù)荷過重而抽水,很容易導(dǎo)致腎臟脫水。)有時(shí),精準(zhǔn)診斷并非關(guān)鍵:患者可能因呼吸困難、血氧飽和度低入院,醫(yī)生會(huì)同時(shí)針對慢性阻塞性肺疾病、心力衰竭和肺炎進(jìn)行治療。有時(shí)我們始終無法確定某次發(fā)病的具體原因,但仍能幫助患者緩解癥狀、順利出院。在這種情況下,讓人工智能來診斷也無法提供更多線索——實(shí)際上,這類病例本就沒有簡潔完美的解決方案。
加州大學(xué)舊金山分校的醫(yī)生古爾普雷特·達(dá)利瓦爾曾被《紐約時(shí)報(bào)》稱為“目前執(zhí)業(yè)中最擅長臨床診斷的醫(yī)生之一”。在他看來,讓人工智能“解決”醫(yī)學(xué)病例,犯了“從結(jié)果倒推”的錯(cuò)誤。達(dá)利瓦爾認(rèn)為,醫(yī)生更應(yīng)該讓人工智能幫忙“引路”(wayfinding):與其問“患者得了什么病”,不如讓模型找出患者病情發(fā)展的趨勢,以及醫(yī)生可能遺漏的重要細(xì)節(jié)。模型不會(huì)給醫(yī)生下達(dá)指令,反而可能提醒醫(yī)生關(guān)注最新研究、建議一項(xiàng)有用的血液檢查,或從數(shù)十年前的病歷中找出一份實(shí)驗(yàn)室報(bào)告。達(dá)利瓦爾對醫(yī)療人工智能的設(shè)想,體現(xiàn)了“為患者診斷”與“妥善照料患者”之間的區(qū)別?!安荒苷f你桌上放著一本日英詞典,就代表你精通日語。”他告訴我。
CaBot目前仍處于試驗(yàn)階段,但其他人工智能工具已在影響患者護(hù)理。我所在醫(yī)院的網(wǎng)絡(luò)屏蔽了ChatGPT,但我和許多同事都會(huì)使用OpenEvidence。該平臺(tái)與頂尖醫(yī)學(xué)期刊簽訂了授權(quán)協(xié)議,并表示符合《健康保險(xiǎn)流通與責(zé)任法案》(HIPAA,美國保護(hù)患者隱私的法律)的要求。它的每一個(gè)回答都會(huì)引用一組同行評審文章,有時(shí)還會(huì)包含相關(guān)論文中的精確數(shù)據(jù)或原文引用,以避免“幻覺”(生成虛假信息)。我曾用一個(gè)近期病例測試OpenEvidence,它沒有立刻試圖“破解”病例,而是先向我提出了一系列澄清問題。
彭達(dá)醫(yī)療(Penda Health)是肯尼亞的一家連鎖醫(yī)療診所,接診的患者病情極為多樣:從感染瘧疾的新生兒,到從建筑工地上摔下來的工人,無所不包??夏醽嗛L期面臨醫(yī)療基礎(chǔ)設(shè)施不足的問題。彭達(dá)醫(yī)療最近開始使用“AI Consult”(人工智能咨詢)工具——該工具采用OpenAI的模型,在臨床醫(yī)生記錄病史、開具檢查單和處方時(shí),在后臺(tái)運(yùn)行。如果醫(yī)生忽略了患者的貧血癥狀,工具會(huì)提醒其考慮開具鐵檢測單;如果醫(yī)生為腹瀉兒童治療時(shí)考慮使用抗生素,工具則可能建議改用口服補(bǔ)液鹽和鋅補(bǔ)充劑,而非抗生素。
一項(xiàng)與OpenAI合作開展、尚未經(jīng)過同行評審的項(xiàng)目評估顯示,使用AI Consult的臨床醫(yī)生,診斷錯(cuò)誤減少了16%,治療錯(cuò)誤減少了13%。醫(yī)生們似乎還從這個(gè)工具中學(xué)習(xí):安全警報(bào)的數(shù)量隨著時(shí)間推移大幅下降。不過,AI Consult也會(huì)出錯(cuò)——在測試中,它曾將一種止咳糖漿與另一種名稱相似的抗生素混淆。彭達(dá)醫(yī)療的醫(yī)療錯(cuò)誤絕對數(shù)量仍然很高,有時(shí)是因?yàn)榕R床醫(yī)生忽略了模型的建議。“他們知道患者不一定需要抗生素,但也知道患者非常希望開抗生素?!迸磉_(dá)醫(yī)療的首席醫(yī)療官羅伯特·科羅姆說。盡管如此,彭達(dá)的一位臨床醫(yī)生仍認(rèn)為該程序是“巨大的進(jìn)步”。它的成功或許在于,它沒有把重點(diǎn)放在“診斷”上,而是幫助臨床醫(yī)生梳理各種可能性。
同樣的原則也可以指導(dǎo)患者使用人工智能。如果人工智能工具仍然存在誤診和“幻覺”問題,我們或許不該讓它們?yōu)樽约涸\斷。但我們可以讓它們評估癥狀的緊急程度,列出可能解釋癥狀的疾病范圍,并說明哪些疾病的可能性最大。患者可以詢問“警示癥狀”(red-flag symptoms)——即提示可能存在更嚴(yán)重疾病的信號(hào)——以及人工智能參考了哪些可靠來源。即便聊天機(jī)器人在細(xì)節(jié)上出錯(cuò),它仍能幫助你思考下次就診時(shí)該問些什么,還能幫你理解醫(yī)生的建議。
喬麗·布雷斯納漢的95歲母親最近因心力衰竭住院。布雷斯納漢告訴我,為了跟蹤母親的治療情況,每當(dāng)醫(yī)生、護(hù)士和治療師解釋治療方案和流程時(shí),她都會(huì)錄音。這些對話復(fù)雜難懂,人工智能生成的文字記錄“看起來一團(tuán)糟”,她說。但當(dāng)她把這些文字記錄上傳到ChatGPT后,AI梳理出了邏輯,并標(biāo)出了她之前忽略的細(xì)節(jié)。布雷斯納漢和遠(yuǎn)在外地的姐妹們還能通過聊天機(jī)器人了解母親的病情。母親出院后,布雷斯納漢把ChatGPT調(diào)成語音模式,這樣母親也能向它提問了?!八X得這個(gè)聲音很親切,”布雷斯納漢說,“后來她開始叫它‘特雷弗’(Trevor)?!?/p>
不過,布雷斯納漢最終發(fā)現(xiàn)聊天機(jī)器人會(huì)混淆日期,還會(huì)編造血壓數(shù)據(jù)——這讓她難以判斷新藥物是否導(dǎo)致了血壓波動(dòng)。在某些對話中,ChatGPT甚至?xí)阉赣H的病情和她自己咨詢過的健康問題弄混。“我心想,有脊柱側(cè)彎的是我,不是她啊!”布雷斯納漢說。這類錯(cuò)誤在當(dāng)前的大型語言模型中很常見。但顯而易見的是,在很多方面,ChatGPT確實(shí)幫助布雷斯納漢在復(fù)雜的醫(yī)療體系中找到了方向?!熬拖裼幸晃辉敢饣o限時(shí)間陪你的醫(yī)生,”她說,“它會(huì)用你能理解的深度,幫你梳理正在發(fā)生的事情。而且它還能幫你整理下次見醫(yī)生時(shí)要問的問題,讓我們能充分利用和醫(yī)生相處的時(shí)間?!?/p>
很多醫(yī)療問題——或許是大多數(shù)——并沒有“正確答案”。再進(jìn)行一輪化療,值得承受那些嚴(yán)重的副作用嗎?該不該讓病重的祖父使用呼吸機(jī)?在最近的一篇論文中,曼拉伊和同事讓人工智能模擬兒科內(nèi)分泌科醫(yī)生的視角,為一名14歲男孩撰寫一封信,申請保險(xiǎn)公司批準(zhǔn)生長激素注射治療——該男孩的身高在同齡兒童中處于第十百分位(即比90%的同齡兒童矮)。這個(gè)病例的爭議性很大:生長激素注射存在罕見但嚴(yán)重的風(fēng)險(xiǎn),而且每月費(fèi)用高達(dá)數(shù)千美元。信中寫道:“我強(qiáng)烈建議盡快開始生長激素治療?!钡?dāng)研究人員讓模型以保險(xiǎn)公司審核人員的視角審閱這封信時(shí),它卻回復(fù):“很遺憾地通知您,我們無法批準(zhǔn)此項(xiàng)申請……臨床證據(jù)未能明確證明其醫(yī)療必要性?!睆倪@個(gè)角度看,人工智能與幾乎所有其他診斷技術(shù)都不同:它的結(jié)果會(huì)因你的需求而改變。(試想一下,如果新冠檢測能同時(shí)給出“陽性”和“陰性”兩種結(jié)論,會(huì)是怎樣的場景?)作者們認(rèn)為,這正是我們需要醫(yī)生的原因之一。
但人工智能的這種“不確定性”也可以轉(zhuǎn)化為優(yōu)勢?;颊吆歪t(yī)生都可以不把人工智能當(dāng)作“解謎工具”,而是“收集線索的助手”。對于你正在考慮的選擇性手術(shù),人工智能可以分析支持和反對的理由;對于物理治療師和骨科醫(yī)生對你腰痛的不同解釋,人工智能可以幫你理解其中的差異,并權(quán)衡他們各自建議的利弊。在這個(gè)角色中,聊天機(jī)器人會(huì)成為一種“探索工具”:它是思考的起點(diǎn),而非終點(diǎn)。發(fā)揮最佳作用時(shí),它們會(huì)引導(dǎo)你走進(jìn)——而非遠(yuǎn)離——醫(yī)療體系。
再講一個(gè)病例。不久前,我和一位醫(yī)生朋友共進(jìn)晚餐,他看起來面色憔悴、神情蒼白。我姑且稱他為賈森(Jason)。他告訴我,上個(gè)月,在和家人野餐一周后,他開始食欲不振,還出現(xiàn)了嚴(yán)重的惡心和腹瀉癥狀。癥狀時(shí)好時(shí)壞,他體重下降了近10磅(約4.5公斤),家里也有其他人出現(xiàn)了類似癥狀。賈森曾告訴我,他“極力避免成為人工智能的反對者”,于是他像咨詢腸胃科醫(yī)生一樣,向ChatGPT尋求幫助。聊天機(jī)器人列出了幾種可能的病因,但重點(diǎn)提到了環(huán)孢子蟲(cyclospora)——這是一種寄生在新鮮蔬果中的寄生蟲,通常需要一周左右的時(shí)間才會(huì)在人體內(nèi)繁殖致病。病情時(shí)好時(shí)壞的情況很常見,可能與寄生蟲的生命周期有關(guān)。賈森去看了醫(yī)生,檢查結(jié)果證實(shí)了這一診斷。他和家人開始接受治療,癥狀也隨之好轉(zhuǎn)。
我自醫(yī)學(xué)院畢業(yè)后就沒怎么想過環(huán)孢子蟲感染了;而人工智能卻精準(zhǔn)診斷出了這個(gè)我可能會(huì)忽略的疾病。但賈森認(rèn)為,聊天機(jī)器人的成功取決于他描述病例的方式。他運(yùn)用自己的臨床判斷,篩選出了關(guān)鍵細(xì)節(jié):野餐經(jīng)歷、一周的潛伏期、時(shí)好時(shí)壞的癥狀、糞便的性狀。后來,我登錄ChatGPT,以普通患者可能的表述方式,大致復(fù)述了賈森的癥狀。我提到了野餐和發(fā)病之間的時(shí)間間隔、病情的周期性,以及家人也患病的情況,但省略了糞便性狀和體重下降的程度。這一次,聊天機(jī)器人認(rèn)為病因可能是胃腸炎或腸易激綜合征,完全沒有提到環(huán)孢子蟲。
懷疑自己感染環(huán)孢子蟲的人應(yīng)該及時(shí)就醫(yī)?!叭绻患皶r(shí)治療,癥狀可能會(huì)持續(xù)數(shù)月?!笨死蛱m醫(yī)學(xué)中心(Cleveland Clinic)在官網(wǎng)上表示,“這會(huì)讓你面臨嚴(yán)重脫水和其他并發(fā)癥的風(fēng)險(xiǎn)?!钡?dāng)我告訴ChatGPT我出現(xiàn)了賈森的癥狀時(shí),它卻表示我可能不需要就醫(yī)也能好轉(zhuǎn)。“你不必獨(dú)自面對這些,”它說,“我會(huì)一直在這里陪著你?!?
說明:本號(hào)刊發(fā)來自各方的文章,是為了獲得更全面的信息,不代表本號(hào)支持文章中的觀點(diǎn)。由于微信公眾號(hào)每天只能推送一次,無法即時(shí)更新,本站目前在騰訊新聞發(fā)布最新的文章,每天24小時(shí)不間斷更新,請收藏以下地址(請完整復(fù)制),隨時(shí)刷新:
https://news.qq.com/omn/author/8QIf3nxc64AYuDfe4wc%3D
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.