憑借大量數(shù)據(jù)、強(qiáng)大的模型和統(tǒng)計(jì)思維,科學(xué)家可以對(duì)各種復(fù)雜現(xiàn)象做出預(yù)測(cè)。如今,這種利用機(jī)器學(xué)習(xí)和海量數(shù)據(jù)集力量的實(shí)踐正在不斷發(fā)展。在本集中,聯(lián)合主持人之一Steven Strogatz(史蒂文·斯特羅加茨,1959 -)與統(tǒng)計(jì)學(xué)家Emmanuel Candès(伊曼紐爾·坎德斯,1970 -)討論了黑匣子、不確定性和歸納推理的力量。
圖源:Peter Greenwood | Quanta Magazine
作者:Steven Strogatz 量子雜志播客主持人 2024-11-7
譯者:zzllrr小樂(數(shù)學(xué)科普公眾號(hào))2024-11-8
科學(xué)家們通常會(huì)建立定量模型——比如天氣或流行病——用其做出預(yù)測(cè),然后他們可以根據(jù)真實(shí)情況進(jìn)行測(cè)試。這項(xiàng)工作可以揭示我們對(duì)復(fù)雜現(xiàn)象的理解程度,并決定下一步研究的方向。近年來,大語言模型(LLM)等“黑匣子”系統(tǒng)取得的顯著成功表明,有時(shí)在根本不知道某些東西如何工作的情況下也可以做出成功的預(yù)測(cè)。在本集中,著名統(tǒng)計(jì)學(xué)家Emmanuel Candès(下文簡稱EC)和主持人Steven Strogatz(下文簡稱SS)討論了如何在大學(xué)招生、選舉預(yù)測(cè)和藥物發(fā)現(xiàn)等各個(gè)領(lǐng)域研究中使用統(tǒng)計(jì)學(xué)、數(shù)據(jù)科學(xué)和人工智能。
SS:做出預(yù)測(cè)是一項(xiàng)融入我們生活各個(gè)方面的挑戰(zhàn),而且往往甚至是以我們沒有想到的方式進(jìn)行。今天下午會(huì)下雨嗎?股市將如何對(duì)最新新聞反應(yīng)?媽媽過生日會(huì)想要什么?
通常,我們至少在科學(xué)方面建立知識(shí)庫和理論理解,并應(yīng)用我們所知道的知識(shí)來預(yù)測(cè)未來的結(jié)果。但這種方法面臨著嚴(yán)重的局限性,特別是當(dāng)要分析的系統(tǒng)非常復(fù)雜且人們對(duì)其了解甚少時(shí)。
我是Steve Strogatz,這是《Quanta Magazine量子雜志》的播客“The Joy of Why”(為何之樂),我和我的搭檔主持人Janna Levin輪流主持,探索當(dāng)今數(shù)學(xué)和科學(xué)中最懸而未決的問題。
在本期節(jié)目中,數(shù)學(xué)家兼統(tǒng)計(jì)學(xué)家伊曼紐爾·坎德斯(Emmanuel Candès,1970 -)將與我們一起探討數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)如何幫助我們,用前所未有的方式解決復(fù)雜的預(yù)測(cè)問題?我們應(yīng)該對(duì)他們的預(yù)測(cè)有多大的信心或懷疑?我們能找到量化這種不確定性的方法嗎?
伊曼紐爾是斯坦福大學(xué)數(shù)學(xué)和統(tǒng)計(jì)學(xué)系主任兼教授 。他的工作涉及數(shù)學(xué)、統(tǒng)計(jì)學(xué)、信息論、信號(hào)處理和科學(xué)計(jì)算。他是美國國家科學(xué)院院士,并獲得過麥克阿瑟獎(jiǎng)、科拉茨獎(jiǎng)和拉格朗日獎(jiǎng)。
伊曼紐爾,歡迎來到“為何之樂”(The Joy of Why)。
伊曼紐爾·坎德斯(Emmanuel Candès,1970 -)
EC:非常感謝你邀請(qǐng)我,既然你提到了美國國家科學(xué)院,首先讓我祝賀你也當(dāng)選。真是太棒了。
SS:你太好了。謝謝。嗯,我很榮幸能夠加入你和我們所有其他令人尊敬的同事。
好吧,讓我們從現(xiàn)在幾乎每個(gè)人都在思考的事情——機(jī)器學(xué)習(xí)模型開始。我們不斷聽到很多這方面的消息。我們知道,它們可以深入研究大量數(shù)據(jù)集,并經(jīng)常發(fā)現(xiàn)人類無法檢測(cè)到的模式。
但這些模型,人們經(jīng)常將它們稱為“黑匣子”(黑盒)。我只是想知道,你自己會(huì)使用這個(gè)短語嗎?如果是的話,我們所說的黑匣子是什么意思?
EC:正如你所說,機(jī)器學(xué)習(xí)算法將過去收集的數(shù)據(jù)作為輸入。并給定一組特征,嘗試對(duì)未知標(biāo)簽進(jìn)行預(yù)測(cè)。
因此我不得不說,預(yù)測(cè)建模的文化與統(tǒng)計(jì)學(xué)科領(lǐng)域本身一樣古老。從弗朗西斯·高爾頓(Francis Galton,1822 - 1911)、卡爾·皮爾遜(Karl Pearson,1857 - 1936)和羅納德·費(fèi)舍爾(Ronald Fisher,1890 - 1962)開始,統(tǒng)計(jì)學(xué)家一直非常專注于根據(jù)數(shù)據(jù)進(jìn)行預(yù)測(cè)。但他們使用相對(duì)簡單的模型——即可以進(jìn)行數(shù)學(xué)分析的模型、我們?cè)诖髮W(xué)教授的模型,這些模型有時(shí)可以提供可靠的推論。
但我認(rèn)為我不需要告訴你,現(xiàn)在我們已經(jīng)超越了這些簡單的回歸。我們正在使用深度學(xué)習(xí)、梯度提升、隨機(jī)預(yù)測(cè)——這些技術(shù)已經(jīng)變得非常流行,有時(shí)甚至結(jié)合起來使用。現(xiàn)在變得如此復(fù)雜,非常困難。我們使用“黑匣子”一詞來指代過于復(fù)雜以至于難以分析的算法。當(dāng)然,有很多理論學(xué)家試圖了解黑匣子中發(fā)生的事情。
SS:謝謝。精彩的解釋。這似乎是一個(gè)全新的統(tǒng)計(jì)領(lǐng)域。
EC:當(dāng)然。但這并不意味著我們必須放棄迄今為止所做的一切。我的研究小組一直在做的事情,以及目前世界各地許多小組正在做的事情,就是嘗試獲取這些黑匣子的輸出并將它們視為統(tǒng)計(jì)對(duì)象。
因此,我們看到了統(tǒng)計(jì)的整個(gè)分支,它在不做出任何建模假設(shè)的情況下推理這些黑匣子的輸出。這樣分析的結(jié)果是可信的,這樣我們就可以量化不確定性,從而做出可靠的決策。因此,p值和置信區(qū)間等所有內(nèi)容都以一種或另一種方式存在。
p值的概念,本質(zhì)上是一種衡量方法,用于量化你對(duì)某個(gè)實(shí)驗(yàn)結(jié)果應(yīng)該感到驚訝的程度。在黑匣子的背景下,如果黑匣子做出了預(yù)測(cè),我仍然可以問我應(yīng)該對(duì)這個(gè)預(yù)測(cè)感到多么驚訝。所以我需要能夠量化驚訝的因素。因而我希望能夠?qū)㈩A(yù)測(cè)轉(zhuǎn)換為你所說的p值,讓我可以實(shí)際校準(zhǔn)黑匣子的結(jié)果。
令人驚訝的是,我們不必放棄我們一直在做的事情。大多數(shù)情況下,我們正走向一個(gè)參數(shù)模型較少,但獲得經(jīng)過良好校準(zhǔn)的結(jié)果(量化不確定性)的概念仍然存在的世界。
SS:這太有趣了。我真的很喜歡你的說法,這有點(diǎn)像黑匣子可以保持黑色。我們不必查看模型的底層或內(nèi)部,即可通過分析來理解正在發(fā)生的事情。因此,就像我們正在采用舊的方法論、傳統(tǒng)統(tǒng)計(jì)學(xué)的舊愿望來量化不確定性,并為這些黑匣子模型的新世界重建理論。
EC:當(dāng)然。新世界的重建有很多不同的風(fēng)格,但我會(huì)給你舉一個(gè)例子。讓我們想象一下,在不遠(yuǎn)的將來,人們申請(qǐng)大學(xué),由于大學(xué)收到了如此多的申請(qǐng),我們會(huì)至少將部分決策過程外包給黑匣子。假設(shè)現(xiàn)在學(xué)生申請(qǐng)康奈爾大學(xué),即你的母校,并且你決定以某種方式使用黑匣子來預(yù)測(cè)他們?cè)诳的螤柎髮W(xué)的表現(xiàn)。那么問題是,這些預(yù)測(cè)的校準(zhǔn)程度如何?
你可以做的是,可以說,“好吧,我已經(jīng)訓(xùn)練了我的模型,現(xiàn)在我已經(jīng)保留了一組我知道結(jié)果的學(xué)生,我實(shí)際上可以看到黑匣子如何預(yù)測(cè)這些結(jié)果?!爆F(xiàn)在我可以試著理解一下,什么樣的學(xué)生誤差較大?什么樣的學(xué)生誤差小呢?我可以從這個(gè)黑匣子中獲得怎樣的準(zhǔn)確性呢?
現(xiàn)在,當(dāng)你要使用黑匣子來篩選一些候選人時(shí),你可以據(jù)此進(jìn)行校準(zhǔn)。因?yàn)槟阋呀?jīng)觀察到了測(cè)試集上的黑匣子預(yù)測(cè)之間的不匹配,所以你可以了解一點(diǎn)黑匣子的準(zhǔn)確性和你實(shí)際可以得出的結(jié)論。通過觀察一組學(xué)生的黑匣子的結(jié)果(你有結(jié)果、標(biāo)簽),你實(shí)際上不能產(chǎn)生學(xué)生怎么樣的點(diǎn)預(yù)測(cè),但你可以獲得一個(gè)預(yù)測(cè)區(qū)間,有可能在規(guī)定的時(shí)間內(nèi)包含學(xué)生們真實(shí)的表現(xiàn)。
當(dāng)我這么說時(shí),我是說你沒有模型。內(nèi)部任何地方都沒有高斯分布(Gaussian distribution)。你僅利用隨機(jī)抽取學(xué)生的事實(shí),查看黑匣子對(duì)隨機(jī)子集的作用,然后使用這些觀察結(jié)果來實(shí)際推廣到未見過的學(xué)生。
這在很大程度上是一種統(tǒng)計(jì)精神,也就是說,你收集申請(qǐng)學(xué)生的特征數(shù)據(jù),以及黑匣子對(duì)這些學(xué)生的描述。你正在從中學(xué)習(xí),以便能夠說出對(duì)未來有效的事情。
SS:很好。我真的很想解開這個(gè)例子,太誘人了。我認(rèn)為,特征和標(biāo)簽的語言可能有點(diǎn)抽象。讓我看看我是否明白你所說的。
如果我想象一群高中生申請(qǐng)康奈爾大學(xué)或你所在的機(jī)構(gòu)斯坦福大學(xué),無論哪種方式,特征可能是他們的高中GPA(平均學(xué)分績點(diǎn)),是否參加過校隊(duì)運(yùn)動(dòng),是非裔美國人還是拉丁裔,是男是女,諸如此類。你會(huì)需要這些特征?
EC:是的,這些都是特征。這些基本上就是你的申請(qǐng)文件中的內(nèi)容,對(duì)嗎?這些就是你對(duì)申請(qǐng)人的了解,可以進(jìn)行數(shù)字化。但我認(rèn)為我們現(xiàn)在生活在一個(gè)現(xiàn)代世界,所以你的論文可能是一個(gè)特征。因?yàn)槟愕恼撐膶⒆兂梢淮當(dāng)?shù)字。這就是圍繞大語言模型的革命。這也是一個(gè)數(shù)字特征,你可以用它來預(yù)測(cè)你的英語寫得怎么樣?你的詞匯量有多豐富?你知道,有很多東西你可以使用。
SS:是的,但是就大學(xué)可能想要預(yù)測(cè)的內(nèi)容而言,為了簡單起見,如果我們說我們想要預(yù)測(cè)學(xué)生畢業(yè)時(shí)的GPA,該怎么辦?
EC:舉個(gè)更簡單點(diǎn)兒的例子:學(xué)生會(huì)在四年內(nèi)畢業(yè)嗎?因此,在這種情況下,讓我們看一下你的第一個(gè)示例:你想要預(yù)測(cè)兩年本科教育后的GPA。我可以說,黑匣子對(duì)這些學(xué)生(的表現(xiàn))說了些什么?通過觀察誤差的分布——即學(xué)生的真實(shí)GPA與黑匣子預(yù)測(cè)之間的差異——我可能會(huì)對(duì)黑匣子對(duì)一個(gè)隨機(jī)學(xué)生的預(yù)測(cè)的典型誤差有所了解。
因此,當(dāng)新學(xué)生進(jìn)來時(shí),我會(huì)感覺到我將要面臨的誤差,我可以給你一個(gè)可能包含該學(xué)生的真實(shí)結(jié)果的區(qū)間,而不是只給你一個(gè)點(diǎn)預(yù)測(cè)。令我們驚訝的是,對(duì)于某些申請(qǐng)或某些學(xué)生來說,這個(gè)區(qū)間可能很短。我們對(duì)他們的表現(xiàn)相當(dāng)有信心。對(duì)于其他人來說,區(qū)間可能很寬。
SS:嗯嗯。在這種情況下,區(qū)間,這個(gè)例子中的區(qū)間是多少?
EC:一個(gè)區(qū)間可能是我預(yù)測(cè)的2.9到3.9,所以中心(中點(diǎn))在3.4左右,另一個(gè)區(qū)間我預(yù)測(cè)是3.3到3.5,區(qū)間要短得多。它們的中心預(yù)測(cè)出來是相同的,但范圍卻相差很大。
如果我是一名招生人員,我想了解有關(guān)我的預(yù)測(cè)引擎的信息,對(duì)嗎?比如,準(zhǔn)確度如何?點(diǎn)預(yù)測(cè)有什么程度的不確定性?
如果我們從事金融業(yè),我有一個(gè)投資策略,我說,“史蒂文,我可以向你保證6%的回報(bào)率”,那么 6%±1% 和 6%±10% 之間的情況就非常不同了。如果你屬于后者,你可能會(huì)失去很多錢和很多客戶。
SS:好的,非常棒。你給出的這個(gè)例子,無論是在金融還是GPA方面,確實(shí)有助于強(qiáng)調(diào)為什么我們不僅關(guān)心平均值(或者我們可能稱之為“點(diǎn)估計(jì)”),而且還關(guān)心我們可能具有高置信度的區(qū)間。我的意思是,我希望任何人都能看到能夠預(yù)測(cè)區(qū)間而不僅僅是數(shù)字是多么有價(jià)值。
因此,如果可以的話,我現(xiàn)在想轉(zhuǎn)向大學(xué)環(huán)境之外的另一個(gè)現(xiàn)實(shí)世界的例子,與選舉預(yù)測(cè)有關(guān)。這里請(qǐng)聽眾知曉,我們是在2024年美國大選前幾個(gè)月錄制這個(gè)播客的。但我們預(yù)測(cè),這一集——請(qǐng)?jiān)徫矣秒p關(guān)語——將在選舉結(jié)束后的某個(gè)時(shí)間播出。所以我確信這是我們聽眾非常關(guān)心的事情。
我知道你和你的學(xué)生也曾在這一領(lǐng)域工作過。問題是,你能為我們提供哪些關(guān)于用于預(yù)測(cè)選舉的復(fù)雜模型的見解?
EC:也許首先我應(yīng)該說清楚。我對(duì)選舉預(yù)測(cè)沒有真正的第一手經(jīng)驗(yàn)。我正在與《華盛頓郵報(bào)》的學(xué)生一起在他們的數(shù)據(jù)科學(xué)臺(tái)上工作,他們實(shí)際上在做這項(xiàng)工作。如果可以的話,我將擔(dān)任這部分對(duì)話的使者。
SS:我想對(duì)參與其中的年輕人給予一些贊揚(yáng)。而且我也覺得你可能有點(diǎn)謙虛,因?yàn)槟阌泻軆?yōu)秀的品質(zhì)。但我的意思是,至少就萊尼而言,為《華盛頓郵報(bào)》工作的萊尼·布朗納(Lenny Bronner)和斯坦福大學(xué)的本科生不是嗎?他們不是建立在你幫助開發(fā)的一些技術(shù)的基礎(chǔ)上的嗎?
EC:確實(shí)如此。但如你所知,當(dāng)你實(shí)際在戰(zhàn)壕中從事一些具有重大意義的事情時(shí),例如預(yù)測(cè)選舉結(jié)果,即使我們寫的一些論文中包含了一般原則,仍然有大量的工作需要完成。我已經(jīng)盡力讓這一切順利進(jìn)行。
SS:很好。謝謝。
EC:新聞機(jī)構(gòu)本質(zhì)上要做的是,一些投票已結(jié)束,一些選區(qū)正在計(jì)票,一些縣剛開始計(jì)票。事實(shí)上,這是一個(gè)非??岬膯栴},因?yàn)檫x票已經(jīng)在盒子里了,可以這么說,你還沒有打開盒子,你想知道里面有什么。
許多正在進(jìn)行的統(tǒng)計(jì)工作,例如在《華盛頓郵報(bào)》(我最了解的組織),他們正在嘗試預(yù)測(cè)未計(jì)票的縣。因此,你不必對(duì)他們的觀眾類型進(jìn)行點(diǎn)估計(jì),“圣克拉拉會(huì)以這種方式投票”,你可以統(tǒng)計(jì)未計(jì)票縣的預(yù)測(cè),在州一級(jí)匯總它們,并非常細(xì)致地了解加州的投票情況。
現(xiàn)在,這是如何完成的?顯然我們需要預(yù)測(cè)各縣的投票情況。這將基于很多特征。它是一個(gè)以城市為主的縣嗎?是農(nóng)村縣嗎?教育水平如何?與縣相關(guān)的社會(huì)經(jīng)濟(jì)變量是什么?最重要的是,上次該縣的投票結(jié)果如何?
因此,你正在使用所有這些特征,你正在嘗試學(xué)習(xí)一個(gè)可以準(zhǔn)確預(yù)測(cè)各縣投票情況的模型。如果你愿意的話,這就是你的黑匣子,除了他們使用的模型沒有我所看到的復(fù)雜,相當(dāng)簡單。
但第二部分是校準(zhǔn)。因?yàn)槟悴荒苤皇窃趶V播中說,“哦,你知道,加州會(huì)這樣投票。”事實(shí)上,這只是一個(gè)點(diǎn)估計(jì)。如果你弄錯(cuò)了,這會(huì)產(chǎn)生巨大的后果。因此,他們要做的是統(tǒng)計(jì)加州的一系列可能的投票結(jié)果,這些結(jié)果會(huì)隨著選舉的進(jìn)行而動(dòng)態(tài)更新。這真實(shí)地反映了他們對(duì)投票結(jié)果完全統(tǒng)計(jì)后會(huì)發(fā)生什么的了解程度。
他們所做的事情非常酷,因?yàn)樗麄兇_實(shí)在預(yù)測(cè)誤差。他們正在預(yù)測(cè)不確定性。當(dāng)然,你可以看到,隨著越來越多的縣被統(tǒng)計(jì),他們的不確定性范圍正在縮小。
而且他們相當(dāng)忠實(shí)。正如我們?cè)诂F(xiàn)場(chǎng)所說,他們正在進(jìn)行回溯測(cè)試,他們說:“好吧,讓我們看看這個(gè)模型在2020年會(huì)如何運(yùn)作?!彼麄兿M_保他們投射的時(shí)間間隔包含真實(shí)的標(biāo)簽、真實(shí)的投票、規(guī)定的時(shí)間比例。
所以這一切都設(shè)計(jì)得很好。我認(rèn)為,《華盛頓郵報(bào)》非常尊重他們的讀者,不僅為你提供了點(diǎn)估計(jì),而且還讓你真正感受到了他們的點(diǎn)估計(jì)的準(zhǔn)確性,這值得稱贊。
SS:現(xiàn)在,為了明確這一點(diǎn),我們不是在談?wù)摳鶕?jù)提前一年的民意調(diào)查或類似的東西來預(yù)測(cè)選舉。這是根據(jù)即將公布的結(jié)果對(duì)選舉之夜進(jìn)行的預(yù)測(cè)。
EC:沒錯(cuò)。所以讀者必須想象基本上在某個(gè)地方的盒子里有選票。唯一的一件事是,盒子還沒有被打開。但我在其他縣、其他轄區(qū)的其他地方也看到過類似的盒子被打開。我將利用這些知識(shí)來預(yù)測(cè)這個(gè)盒子里的東西。這將是一個(gè)非常精確的預(yù)測(cè),遵循我們之前提出的原則。而且你確實(shí)有權(quán)使用民意調(diào)查作為特征,作為模型中的預(yù)測(cè)變量。
SS:我想你可以。我認(rèn)為很多人可能對(duì)民意調(diào)查持懷疑態(tài)度。我們已經(jīng)看到進(jìn)行民意調(diào)查有多么困難。但話又說回來,模型可能會(huì)考慮到這一點(diǎn)。也許它沒有分配太多的權(quán)重。
EC:沒錯(cuò)。該模型將考慮到這一點(diǎn)?,F(xiàn)在,民意調(diào)查有一點(diǎn)棘手,那就是不同縣的民意調(diào)查可能會(huì)有所不同,對(duì)嗎?
通常,當(dāng)你擬合統(tǒng)計(jì)模型時(shí),你希望數(shù)據(jù)集中所有單元的特征都相同。那么回到我們之前關(guān)于大學(xué)招生的例子,對(duì)吧?每個(gè)人都有高中GPA。對(duì)于“你在校隊(duì)嗎?”每個(gè)人都有是/否的答案。
因此,將你的民意調(diào)查用作一項(xiàng)特征可能會(huì)比較棘手,因?yàn)槟承┛h可能有它,而其他縣可能沒有。所以你必須要小心一點(diǎn)。
SS:好的。我們一直在與Emmanuel Candès討論統(tǒng)計(jì)數(shù)據(jù)、預(yù)測(cè)模型及其固有的不確定性。
那么讓我們來看另一個(gè)現(xiàn)實(shí)世界的例子。我在這里思考的是預(yù)測(cè)模型的醫(yī)學(xué)應(yīng)用。藥物發(fā)現(xiàn)——當(dāng)然,這非常重要,關(guān)系到生死攸關(guān)的后果。例如,有人采取了利用AI人工智能生成人工數(shù)據(jù)來增加樣本量的舉措。這聽起來有點(diǎn)難以想象這會(huì)起作用,但顯然這可能是一個(gè)有用的策略。
EC:你問的問題非常有趣,我認(rèn)為你再次觸及了統(tǒng)計(jì)科學(xué)作為一門學(xué)科的未來。
統(tǒng)計(jì)學(xué)一直是一門經(jīng)驗(yàn)科學(xué),試圖理解周圍的世界。例如,現(xiàn)在我們正在處理生成式人工智能(Gen AI),或者非常奇特的機(jī)器學(xué)習(xí)算法。
為了了解藥物,我們從體內(nèi)開始:就像,我們只是給人們注射東西。然后我們?cè)隗w外做了這個(gè)?,F(xiàn)在我們正在進(jìn)入計(jì)算機(jī)模擬,正如你所指出的,對(duì)吧?我們想使用算法來預(yù)測(cè)藥物的作用。
假設(shè)你是一家大型制藥公司,并且擁有龐大種類的化合物庫,可以達(dá)到四億、五億種。你想知道哪些化合物實(shí)際上會(huì)與目標(biāo)結(jié)合。那么,你怎么做呢?
你應(yīng)該將你的化合物一一取出并試驗(yàn)它們是否會(huì)與你的目標(biāo)結(jié)合。但正如你可以想象的那樣,這需要大量的時(shí)間和金錢。所以現(xiàn)在人們正在使用機(jī)器學(xué)習(xí)來猜測(cè)他們是否會(huì)結(jié)合。在過去的幾年里,我們已經(jīng)看到了像AlphaFold這樣的東西。例如,我們已經(jīng)看到很多模型試圖僅根據(jù)氨基酸序列來預(yù)測(cè)化合物的形狀。
現(xiàn)在,這不會(huì)取代物理實(shí)驗(yàn),但機(jī)器學(xué)習(xí)在這種情況下所做的,它將優(yōu)先考慮你應(yīng)該首先嘗試的化合物。我們?cè)谶@個(gè)領(lǐng)域所做的事情之一就是說,“好吧,我們將訓(xùn)練一些非常奇特的模型——它們實(shí)際上是黑匣子。我的意思是,它們太復(fù)雜了,我不知道它們到底做了什么,但它們會(huì)產(chǎn)生親和力(親密度)分?jǐn)?shù),即化合物對(duì)目標(biāo)疾病的親和力。”我說:“我可以相信這個(gè)嗎?”
在沒有任何統(tǒng)計(jì)模型的情況下,只需查看算法對(duì)未經(jīng)訓(xùn)練的分子的預(yù)測(cè),我們就可以選擇[一個(gè)]數(shù)據(jù)自適應(yīng)閾值(即如果你愿意,一旦預(yù)測(cè)的親和力高于此閾值,你將選擇所有這些分子),則可以保證我提供給你的內(nèi)容中有80%實(shí)際上是你感興趣的。
在下游,你將對(duì)一些真實(shí)的事物進(jìn)行一些真實(shí)的實(shí)驗(yàn)。但在這里,非常令人興奮的是人工智能確實(shí)可以加快應(yīng)該傳遞給實(shí)驗(yàn)室的藥物的優(yōu)先順序。
SS:不,它為有根據(jù)的猜測(cè)的概念賦予了全新的含義。正如你所說,這些現(xiàn)在都是經(jīng)過精心教育的猜測(cè),必須進(jìn)行測(cè)試。
EC:它們?nèi)匀恍枰邮軠y(cè)試。現(xiàn)在還有另一件事,這一次可能更可怕,那就是,如果我們使用生成式AI來構(gòu)建人們所謂的“數(shù)字孿生”,即非物理的東西,但可以通過生成式人工智能生成,會(huì)怎么樣。因此,這里出現(xiàn)了一個(gè)新的研究方向。
舉例來說,假設(shè)我想研究某些藥物的統(tǒng)計(jì)特性,對(duì)吧?問題是我的樣本太少了。假設(shè)我想估計(jì)哪部分藥物具有某種特性。問題是我有很多氨基酸序列,但我還沒有測(cè)量它們的特性。正如你可以想象的那樣,趨勢(shì)是使用預(yù)測(cè)模型(黑匣子),用預(yù)測(cè)代替真實(shí)測(cè)量,然后假裝它是真實(shí)數(shù)據(jù)。然后對(duì)這些預(yù)測(cè)進(jìn)行平均,得出具有其特性的藥物的總體比例。這是錯(cuò)誤的,因?yàn)檫@種方法引入了偏見(偏差)。
我們想要使用這個(gè)預(yù)測(cè)模型,我們想要使用生成式AI來填充缺失的數(shù)據(jù),以創(chuàng)建新的數(shù)據(jù)集。但與此同時(shí),我們需要了解如何消除偏見,得出科學(xué)有效的結(jié)論。
讓我舉個(gè)例子。假設(shè)我只想估計(jì)隨機(jī)變量的平均值。我們不妨稱之為y 。我有一些特征,我們稱它們?yōu)閤 。我可以嘗試學(xué)習(xí)的是,可以擬合一個(gè)模型來根據(jù)x預(yù)測(cè)y?,F(xiàn)在,當(dāng)我沒有真實(shí)標(biāo)簽時(shí),我可以用預(yù)測(cè)來替換真實(shí)標(biāo)簽和真實(shí)數(shù)值。
我可以對(duì)它們進(jìn)行平均,但它們會(huì)有偏差。但你猜怎么著?我可以消除偏差,因?yàn)槲覐哪憬o我的標(biāo)簽數(shù)據(jù)中估計(jì)了偏差。
SS:很好。
EC:因此,如果我做得正確,我可以有效地極大地增加樣本量。如果我的預(yù)測(cè)具有合理的準(zhǔn)確性,那么就好像我的樣本量要大得多。所以我能告訴你的信息的準(zhǔn)確性要高得多。
SS:嗯,我忍不住要問你,因?yàn)檫@對(duì)我們來說是一種難得的享受。你因?qū)θ藗兯f的“壓縮感知”(compressed sensing)領(lǐng)域的貢獻(xiàn)而聞名。我不知道它是否完全適合我們今天的討論,但我想請(qǐng)你告訴我們壓縮感知及其在醫(yī)學(xué)成像、MRI(磁共振成像)或其他方面的應(yīng)用如何適合我們正在談?wù)摰目蚣??即使沒有,你能告訴我們一些相關(guān)信息嗎?
EC:它不直接適合。我認(rèn)為壓縮感知的事實(shí)是稀疏性(sparsity)是一個(gè)重要的現(xiàn)象。我們現(xiàn)在看到的是人們測(cè)量陽光下的一切,因?yàn)槲覀儾恢雷罱K什么是重要的,對(duì)嗎?因此,我們需要像你我這樣的人來篩選重要的事情。壓縮感知所說的是,如果我們測(cè)量很多東西,但如果只有少數(shù)東西重要,并且如果我們使用壓縮感知理論建議的正確算法,那么我們應(yīng)該能夠建立一個(gè)非常準(zhǔn)確的預(yù)測(cè)模型。
就像,我們會(huì)明白很多變量與預(yù)測(cè)結(jié)果無關(guān),它會(huì)很快關(guān)注那些對(duì)結(jié)果有影響的變量,然后相應(yīng)建立一個(gè)好的預(yù)測(cè)模型。
SS:所以你一直在使用“稀疏”這個(gè)詞。在這種情況下,這是否意味著所有那些無關(guān)緊要的變量,我們可以有效地將它們的貢獻(xiàn)設(shè)置為零?
EC:沒錯(cuò)。所以說,在這種情況下,對(duì)于我們的觀眾來說,可能會(huì)說,即使我測(cè)量了一百萬個(gè)遺傳變異,表型的分布并不取決于這一百萬個(gè)東西。它可能取決于20、30個(gè)。這就是稀疏性。
因此,壓縮感知提出的問題是,當(dāng)某些事物依賴于長列表中的少數(shù)但未知的事物時(shí),你如何著手并找到它們?
SS:嗯嗯。因此,該技術(shù)或方法將識(shí)別哪些是關(guān)鍵的20(或任何小數(shù)目)個(gè)。
EC:沒錯(cuò)。讓我們把這看作一個(gè)矩陣問題,可以嗎?我有個(gè)矩陣,它有一百萬列,這些都是遺傳變異。然后我得到一個(gè)反應(yīng)y ,這些是該矩陣的行。如果我想求解一個(gè)系統(tǒng)y = ax ,比如哪些遺傳變異對(duì)預(yù)測(cè)y很重要?經(jīng)典理論會(huì)說,我有多少未知數(shù)就需要多少個(gè)人。但壓縮感知理論說,不,這不對(duì)。因?yàn)槿绻闾崆爸肋@些基因變異中只有少數(shù)很重要,那么你就可以與更少的人打交道。這就是為什么我們可以開發(fā)不需要一百萬患者的表型預(yù)測(cè)模型。
SS:太棒了。如今,科學(xué)界似乎無處不在的重大問題之一是可重復(fù)性(復(fù)現(xiàn)性、重現(xiàn)性)危機(jī)。我只是想知道你是否對(duì)此有統(tǒng)計(jì)意見。
EC:是的,你問這個(gè)問題很有趣。我想,首先我會(huì)對(duì)再現(xiàn)性危機(jī)進(jìn)行觀察。它發(fā)生在人們擁有大量數(shù)據(jù)集可供使用的時(shí)刻,通常是在制定科學(xué)假設(shè)之前,使用依賴于數(shù)十億個(gè)參數(shù)的極其奇特的模型。所以我首先要說的是,這場(chǎng)危機(jī)在這個(gè)時(shí)候發(fā)生并不是巧合,因?yàn)槲医o你一個(gè)數(shù)據(jù)集,你相信它是黃金。你要嘗試一個(gè)模型,但它不成功,你就會(huì)嘗試其他的東西。所以你要微調(diào)參數(shù),微調(diào)很多東西,直到發(fā)出咔噠聲,發(fā)現(xiàn)沒有任何問題。
但我認(rèn)為,作為一名統(tǒng)計(jì)學(xué)家,我們需要做的是(我們當(dāng)中有很多人正在研究這樣的事情),如何圍繞選擇模型、參數(shù)的自由而建立保障措施,以便有朝一日,你聲稱的發(fā)現(xiàn)有可能被一個(gè)獨(dú)立的實(shí)驗(yàn)重現(xiàn)?
統(tǒng)計(jì)界正在開發(fā)很多方法,確保當(dāng)你認(rèn)為你有某些發(fā)現(xiàn)時(shí),你就確實(shí)有這些發(fā)現(xiàn)。因此,對(duì)于該領(lǐng)域來說,這是一個(gè)非常激動(dòng)人心的時(shí)刻,開發(fā)方法現(xiàn)在并不是真正量化預(yù)測(cè)中的不確定性,而是實(shí)際上以這種方式進(jìn)行校準(zhǔn)。然后,當(dāng)你報(bào)告你的發(fā)現(xiàn)時(shí),我們會(huì)確保你報(bào)告的大部分內(nèi)容都是正確的。
SS:嗯,我現(xiàn)在想回到更廣泛的、甚至是社會(huì)的層面來思考一下教育問題。每個(gè)有學(xué)識(shí)或受過教育的公民都應(yīng)該了解一些概率和統(tǒng)計(jì)的概念,包括我們一直在談?wù)摰乃鼈兊默F(xiàn)代化身。我想知道你是否對(duì)此有想法。作為教育者或傳播者,我們可以做些什么來提高統(tǒng)計(jì)知識(shí)?
EC:這是個(gè)好問題。我認(rèn)為我在較低水平的統(tǒng)計(jì)教學(xué)中看到的是對(duì)公式的依賴——你知道,我應(yīng)該什么時(shí)候應(yīng)用哪個(gè)公式?我認(rèn)為這沒有幫助。
作為一名學(xué)生,我當(dāng)然學(xué)習(xí)了數(shù)學(xué)推理,這很重要。然后,通過高中和大學(xué),我學(xué)會(huì)了物理推理。這與數(shù)學(xué)推理不同,而且非常強(qiáng)大。但在斯坦福大學(xué)研究生院,我學(xué)到了一種叫做歸納推理(inductive reasoning)的新東西,它不是前兩者。我認(rèn)為我們需要在早期階段做好這方面的教學(xué)。
什么是歸納推理?這是根據(jù)特定觀察進(jìn)行概括的能力。我們?cè)撊绾巫龅竭@一點(diǎn)?我會(huì)提倡一種本質(zhì)上不太數(shù)學(xué)化的方法,它試圖讓孩子們理解如何從總體中的一個(gè)樣本推廣到我們尚未見過的個(gè)體,以及是什么使這成為可能。
學(xué)科領(lǐng)域之間有一點(diǎn)緊張。我們應(yīng)該更多地關(guān)注數(shù)學(xué)還是關(guān)注計(jì)算機(jī)科學(xué),而人工智能主要發(fā)生在哪里?我認(rèn)為,如果我們過多地關(guān)注數(shù)學(xué)或過多地關(guān)注計(jì)算機(jī)科學(xué),就會(huì)有失去統(tǒng)計(jì)推理能力的危險(xiǎn)。這可能有點(diǎn)抽象,但我發(fā)現(xiàn)統(tǒng)計(jì)推理非常強(qiáng)大,非常美麗。
因?yàn)槲也幌敕悍憾?,所以我給你提一個(gè)問題。我想這是發(fā)生在30年代的一件著名的事情。我認(rèn)為亞歷山大·史蒂文·科貝特(Alexander Steven Corbett,1934 - 1992)當(dāng)時(shí)在研究蝴蝶,他去了馬來西亞一年,他是一個(gè)非常認(rèn)真的人。每天他都會(huì)觀察蝴蝶的種類,并在筆記本上寫下,“這個(gè)物種我見過一次,這個(gè)物種我見過兩次,這個(gè)物種我見過三次,”等等。
于是他回到英國,找到了該領(lǐng)域的創(chuàng)始人之一R.A. Fisher(羅納德·艾爾默·費(fèi)舍爾,1890 - 1962),他問道:“如果我回到馬來西亞六個(gè)月,我會(huì)看到多少新物種?”這是一個(gè)不同于數(shù)學(xué)的問題。答案不在問題中。
而且我認(rèn)為深度學(xué)習(xí)不會(huì)有太大幫助。這就是統(tǒng)計(jì)學(xué)家所做的。這是一個(gè)非?,F(xiàn)代的問題,那就是,你有一個(gè)實(shí)驗(yàn)室,他們正在研究癌細(xì)胞。他們將做完全相同的事情:“這是我曾經(jīng)見過一次的癌細(xì)胞數(shù)量。這是我見過兩次的癌細(xì)胞數(shù)量?!彼麄冋f:“有多少癌細(xì)胞我還沒看到過?如果我繼續(xù)尋找癌細(xì)胞六個(gè)月、一年或兩年,預(yù)計(jì)我會(huì)看到多少新類型?”這就是你學(xué)習(xí)統(tǒng)計(jì)學(xué)時(shí)學(xué)到的東西。我覺得這很有趣。
SS:哦,好吧,那太好了。了解統(tǒng)計(jì)文化以及它與數(shù)學(xué)或計(jì)算機(jī)科學(xué)的不同之處真的很有趣。因?yàn)槿缃瘢S著人們所說的數(shù)據(jù)科學(xué)的興起,水變得渾濁起來。誰擁有統(tǒng)計(jì)數(shù)據(jù)?為什么我們稱其為數(shù)據(jù)科學(xué)?為什么不是統(tǒng)計(jì)呢?我相信你對(duì)此有自己的看法。
EC:當(dāng)然,因?yàn)閿?shù)據(jù)科學(xué)中有很多活動(dòng)傳統(tǒng)上是在統(tǒng)計(jì)系中找不到的。我有一位同事Jure Leskovec(尤雷·萊斯科維奇,1980 -),他是一位非常知名的數(shù)據(jù)科學(xué)家。
SS:康奈爾大學(xué)博士 [編者注:萊斯科維奇是康奈爾大學(xué)的博士后,擁有博士學(xué)位。來自卡內(nèi)基梅隆大學(xué)。]
EC:完全正確。他是一個(gè)才華橫溢的人。當(dāng)新冠疫情襲來時(shí),人們正在計(jì)算這個(gè)貝塔值。就像,你易受影響、暴露、感染、康復(fù)的模型,你有這些微分方程,如果貝塔數(shù)大于1,我們就會(huì)遇到問題,諸如此類,對(duì)吧?
所以這是一個(gè)非常宏觀的模型。Jure Leskovec所做的是創(chuàng)建了一個(gè)巨大的數(shù)據(jù)集。他追蹤了美國所有主要城市的一億人。他會(huì)看到他們白天去哪里,晚上回家在哪里。擬合全球范圍內(nèi)每個(gè)人都知道的流行病學(xué)模型,這實(shí)際上沒有意義,因?yàn)榧又莸男袨楹头鹆_里達(dá)州的行為非常不同。然后,你可以將其擬合到圖表上的某種節(jié)點(diǎn)上,這樣就可以擬合一個(gè)適合你所在位置人員流動(dòng)性的模型。
這就是數(shù)據(jù)科學(xué),因?yàn)镴ure所做的,你在統(tǒng)計(jì)部門看不到,他基本上在幾周內(nèi)跟蹤了1億人。我想說我統(tǒng)計(jì)部門的一些同事也在做這樣的事情,但我不能說出其中任何一個(gè)名字。這就是現(xiàn)代數(shù)據(jù)科學(xué)。這不是我在統(tǒng)計(jì)系通??吹降那闆r。
所以我在這一點(diǎn)上的立場(chǎng)是非常明確的。數(shù)據(jù)科學(xué)比傳統(tǒng)的統(tǒng)計(jì)學(xué)領(lǐng)域要大得多,但統(tǒng)計(jì)學(xué)是其知識(shí)支柱之一。
SS:哦,我很高興問你這個(gè)問題。我用這個(gè)發(fā)現(xiàn)了一個(gè)金礦,但你已經(jīng)表達(dá)了你對(duì)統(tǒng)計(jì)思維的迷戀。你的研究中有什么事情給你帶來特別的快樂嗎?
EC:是的,我想是的。我在斯坦福大學(xué)的工作是獨(dú)一無二的,因?yàn)榕c我一起工作的學(xué)生都非常出色。我覺得它讓我保持年輕,讓我保持警覺。我無法入睡,因?yàn)槲冶仨氁恢弊汾s他們。
我覺得在廣播中說這句話很奇怪,但我會(huì)因此而變得更好,因?yàn)榫拖窬裆?、身體上一樣,它們讓我保持健康。很高興看到他們成長,成為偉大的科學(xué)家。去年,我有兩名以前的學(xué)生在同一年獲得了麥克阿瑟獎(jiǎng)學(xué)金。與我一起工作的學(xué)生都取得了巨大的成就,這是一種榮幸。能夠感受到如此多的能量和對(duì)這個(gè)學(xué)科的熱情是一種榮幸,并且自私地講,我會(huì)說這對(duì)我的健康有好處。
SS:嗯,非常感謝。和你聊天真的很有趣。我們一直在與數(shù)學(xué)家和統(tǒng)計(jì)學(xué)家 Emmanuel Candès 進(jìn)行交談。再次感謝你加入我們的“The Joy of Why”(為何之樂)節(jié)目。
EC:謝謝你的寶貴時(shí)間。很高興。
參考資料
https://www.quantamagazine.org/how-is-ai-changing-the-science-of-prediction-20241107/
·開放 · 友好 · 多元 · 普適 · 守拙·
讓數(shù)學(xué)
更加
易學(xué)易練
易教易研
易賞易玩
易見易得
易傳易及
歡迎評(píng)論、點(diǎn)贊、在看、在聽
收藏、分享、轉(zhuǎn)載、投稿
查看原始文章出處
點(diǎn)擊zzllrr小樂
公眾號(hào)主頁
右上角
數(shù)學(xué)科普不迷路!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.