1936年10月16日,這對愛爾蘭吉尼斯酒業(yè)集團(Guinness)來說是一個悲傷和令人震驚的日子,就在這一天,她的全球研發(fā)總工程師(Chief Brewer)威廉戈賽特(Willia Seal Gosset)因為心臟病突發(fā)而去世了,當時離戈賽特坐上這個首席的位置,才剛剛一個月。
后面還有讓吉尼斯集團吃驚的,戈賽特去世后,他的一個朋友找到吉尼斯啤酒廠的控股家族,請求他們贊助出版戈賽特科學(xué)論文集的單行本,作為對這位學(xué)術(shù)巨擘的紀念。吉尼斯家族有點糊涂,他們只知道戈賽特是個非常善于管理的企業(yè)經(jīng)理人,在他的操盤下,作為愛爾蘭國粹的吉尼斯啤酒無論在產(chǎn)量,口感和品質(zhì)上都到達國際一流的水準,卻不知道他還發(fā)表過什么論文;經(jīng)過深入的查詢,圈內(nèi)和圈外的人們才意識到,原來發(fā)表在國際權(quán)威雜志《生物統(tǒng)計》(Biometrika)的一系列署名為“一個學(xué)生”(Student)的經(jīng)典統(tǒng)計學(xué)文獻,都是秘密地出自戈賽特之手。
下文是戈賽特最出名的文章:《論均值的可能誤差》。一個非常平庸的題目,從標題黨的角度看是不及格,卻是科學(xué)史上被使用最廣泛的工具, Student’s t 檢驗,任何從事科學(xué)和工程的專業(yè)人員對此都不會陌生。
1867年出生的戈塞特,在牛津畢業(yè)的時候拿到了化學(xué)和數(shù)學(xué)的雙學(xué)位,然后進入總部在都柏林的吉尼斯啤酒廠,一干就是38年,直到在61歲的時候去世。
當時的企業(yè)招收名校高科技人才還是一個比較罕見的現(xiàn)象,在吉尼斯之前,丹麥電話公司在這個方面是一個先行者,她在幾年前招了一些數(shù)學(xué)專業(yè)學(xué)生。不過,電話公司的業(yè)務(wù)和電子與計算相關(guān),數(shù)學(xué)在那里正有用武之地。但是你一個釀造廠招搞數(shù)學(xué)的人干什么呢?當時沒人能想得通。
既然我們寫啤酒廠的總工,那免不了要聯(lián)系現(xiàn)實一下,提一句當下熱評的“茅臺總工評院士”的新聞,中國人想不通茅臺釀造和科技工程有神馬聯(lián)系,正如當年的英國社會搞不懂一個牛津理科高材生在啤酒發(fā)酵車間有何用武之地。
也許是和戈塞特的化學(xué)專業(yè)有關(guān)吧,人們這樣想。但有意思的是,看一看戈塞特在吉尼斯38年的職場生涯,他的成就基本和化學(xué)無關(guān)。
戈塞特第一個轉(zhuǎn)化為論文的酒廠課題是大麥發(fā)酵的酵母用量問題。要保持啤酒穩(wěn)定的口感,必須精準控制投放酵母的量,量太少發(fā)酵不夠,太多了口味就變苦了。但是難度在于酵母培養(yǎng)在一個巨大的母罐之中,培養(yǎng)基是流動變換的,而且酵母菌無時不刻處在分裂和死亡之中,極難量化。
戈塞特的數(shù)學(xué)直覺讓他認識到酵母的濃度不是一個固定值,而應(yīng)該使用一個數(shù)學(xué)上的概率分布來描述和預(yù)測,經(jīng)過大量的觀測和嘗試,他發(fā)現(xiàn)單位體積內(nèi)的酵母量服從泊松分布。
也許有的工程控制論史家覺得這個成就的原創(chuàng)性不夠,因為泊松分布早在100多年前就由法國數(shù)學(xué)家泊松定義和描述過了,后來曾經(jīng)有人使用這個概率研究過普魯士軍隊中被馬踢死的士兵數(shù)目,但這都是純粹毫無實際社會意義的學(xué)術(shù)探索,而戈塞特第一個把概率分布的概念進入工業(yè)化生產(chǎn)過程,有了它,發(fā)酵用酵母投放量就有了更好的控制,吉尼斯的消費者就絕少抱怨咦你這個啤酒怎么今天比昨天的味道苦了,提高了產(chǎn)品的品牌口碑和銷售額,這是真金白銀的社會價值。
作為現(xiàn)代統(tǒng)計學(xué)開山鼻祖之一的戈塞特,他的另一個特殊作用是他在統(tǒng)計史上承前啟后的作用。
十幾年前我還在學(xué)校的時候,有一次去我的導(dǎo)師的辦公去找她。導(dǎo)師的辦公室在走廊盡頭的倒數(shù)第二間,她隔壁的房間有一個回廊凹入的結(jié)構(gòu),仿佛是刻意地從嘈雜的樓中開辟出一塊僻靜之所,但是這間占據(jù)風(fēng)水寶地的辦公室卻是常年鎖著門,我從未見過它的主人。
那一次我看到一位老先生步履緩慢地從我導(dǎo)師的門口走過,也許是年紀大了,他的目光有點遲滯,膚色黝黑,光禿的腦門發(fā)亮,稀疏的白發(fā)平整地分向兩邊。我看到他打開走廊盡頭的那間辦公室走了進去。我的導(dǎo)師帶有幾分莊嚴肅穆的表情對我說:這位老先生是R.A. Fisher最后的一個學(xué)生。
現(xiàn)代概率統(tǒng)計學(xué)公認的創(chuàng)始人是費舍爾(R.A.Fisher),他創(chuàng)立了以方差分析(ANOVA)為基礎(chǔ)的科學(xué)實驗設(shè)計技術(shù);史上第一個真正的數(shù)理統(tǒng)計學(xué)家是卡爾皮爾森(Karl Pearson)。皮爾森的名字被用來命名線行回歸(Pearson Correlation),這大概是知名度僅次于t檢驗的統(tǒng)計學(xué)概念了。皮爾森比戈塞特年長20歲,是他的老師;戈塞特又比費舍爾大15歲,在學(xué)術(shù)上是他的長輩。戈塞特在兩位統(tǒng)計巨擘之間起到了一個牽線搭橋的作用。
三位大師,不知是不是錯覺,皮爾森和費舍爾的目光犀利如鷹,而戈塞特的面容是柔和謙遜的。
皮爾森長期棲身學(xué)術(shù)界,他的興趣在于理論的完備性。比如,為了達到概率統(tǒng)計分布完善性,他可以派幾個人不厭其煩地測量成千上萬隨機人群的身高骨骼等各項參數(shù),用大樣本逼近正態(tài)分布的終極形式;費舍爾壯年時期建功立業(yè)的地方是英國鄉(xiāng)下一個農(nóng)業(yè)觀測站,作為那個地方唯一的統(tǒng)計師,他從事的也基本是自己隨心所欲的研究項目。
而戈塞特的治學(xué)方法和這兩位天馬行空的風(fēng)格大有不同,他在大公司拿薪水,從事的研究就有諸多的實際限制,不能想怎么來就怎么來。
啤酒的四大原料是水、大麥、酵母、啤酒花。過去評定啤酒花(hops)品質(zhì)的主要方法是釀酒師對其色澤和氣味的主觀判斷,后來吉尼斯引入定量化學(xué)手段。戈塞特的任務(wù)是,通過監(jiān)控啤酒花里軟脂酸(soft resin)的含量來對其品質(zhì)進行標準化。
皮爾森可以動輒測量成千上萬人的身高體重和頭圍的周長,來研究正態(tài)分布曲線的規(guī)律,戈塞特卻不可能打開所有吉尼斯裝啤酒花的罐子取樣,他每次最多只能取十幾個樣本。那么問題就來了,假如兩組啤酒花的軟脂酸含量的差值為0.1,這是說明啤酒花的質(zhì)量不穩(wěn)定呢,還是偶然的誤差所致?
作為概率分布理論的奠基人,皮爾森指出需要四個統(tǒng)計量來準確描述一個統(tǒng)計分布,均值(Mean),方差(variance),偏度(skewness)和峰度(Kurtosis)。而戈塞特通過大量吉尼斯酒廠的小樣本試驗發(fā)現(xiàn),均值和標準差的比例本身就是一個嶄新的統(tǒng)計量,他把它叫做t分布,其形狀由樣本量所決定。
如果說在測定酵母量的時候,戈塞特還僅僅是延用了已知的泊松分布;那么在監(jiān)控啤酒花質(zhì)量的工作中,他揭示了一個全新的統(tǒng)計分布。而在所有具有實際意義的科學(xué)實驗中,樣本數(shù)之有限是一個永恒的現(xiàn)實問題,戈塞特的工作沒有點石成金的奇效,他不能讓10個樣本的統(tǒng)計效驗力比肩N = 100,但是卻建立了用概率來量化小樣本實驗不確定性的框架。直到今天,幾乎所有定量學(xué)科都依然在使用t檢驗,報道p值和置信區(qū)間,這都要歸功于一位酒廠工程師在發(fā)酵車間的勞動。
這是輝瑞RNA疫苗報道的1- p值和95%的可信區(qū)間,雖然采用的是貝葉斯的表述,但是核心思想的傳承最早依然可以追溯到戈塞特的啤酒實驗。
也許是由于全職在工廠工作的原因,戈塞特沒有給出t分布的數(shù)學(xué)表達,這個工作是費舍爾后來完成的。作為實踐大師的戈塞特采用了大量實驗的方法算出了不同自由度下的t分布關(guān)鍵值的圖表,并用這些經(jīng)驗值指導(dǎo)吉尼斯酒廠的生產(chǎn)。
吉尼斯給戈塞特的紀念徽章
幾乎所有的天才有其極端和桀驁不馴的一面,這在戈塞特的老師皮爾森和晚輩費舍爾身上體現(xiàn)得尤其明顯。費舍爾是極右,他認為人類文明的最大危害是窮人和“笨人”生孩子太多導(dǎo)致惡性基因流行,所以高分貝地反對當時英國的福利制度,他后來成為倫敦大學(xué)“優(yōu)生”系的系主任,他的理念和納粹德國的種族優(yōu)越論不謀而和,所以在二戰(zhàn)期間被認為是納粹嫌疑分子,被禁止參與任何戰(zhàn)爭相關(guān)的政府項目。
而皮爾森是社會主義者,他蔑視貴族,同情下層人民,在讀了馬克思的著作之后,佩服得五體投地,為了表達崇拜,特別把他的原名(Carl Pearson)改成了卡爾馬克思的卡爾(Karl)。
可想而知,這兩個人是很難搞好關(guān)系的,雖然有戈塞特的從中牽線搭橋,皮爾森和費舍爾是終身的宿敵。在戈塞特的介紹下,皮爾森本有意聘用費舍爾當他的副手,但是費舍爾拒絕了,反而花了一輩子時間找出皮爾森文章中的各種理論瑕疵然后滿世界去說;而作為學(xué)霸的皮爾森把持了當年統(tǒng)計學(xué)權(quán)威期刊Biometrika, 禁止發(fā)表費舍爾的任何東西,他唯二的兩篇文章都是戈塞特介紹發(fā)表的。后來費舍爾不得不找一些不知名的學(xué)術(shù)期刊發(fā)表自己的成果,還得是自費。
但戈塞特是天才中的異數(shù),也許是他在大企業(yè)中從基層一直干到總工的緣故,他善長和各類人士培養(yǎng)良好的個人關(guān)系,整合集體的力量實現(xiàn)企業(yè)的目標,沒有人知道他的意識形態(tài),但他和勢不兩立的皮爾森和費舍爾保持了終生的友誼。同時他也是一個謙虛低調(diào)的人,當費舍爾把大量的數(shù)學(xué)證明寄給他,他會老老實實給皮爾森寫信說這些高維幾何問題我看不懂,請你定奪。當有人恭維他在t檢驗上的杰出貢獻,他謙虛地回答“即使沒有我,費舍爾早晚也會做出來”。
戈塞特一生在吉尼斯酒廠任職,收入豐厚衣食無憂,同時在學(xué)術(shù)上做出杰出貢獻,應(yīng)該是人生無憾了。但如果一定要找出美中不足的話,還真有一個,那就是他不是院士。
他的兩位忘年交皮爾森和費舍爾,都是英國皇家學(xué)會會員,但他不是。
在目前的“茅臺院士”的爭議中,有人質(zhì)疑茅臺總工的學(xué)術(shù)貢獻不夠,于是有人檢索了一下發(fā)現(xiàn)王工發(fā)表了40-60篇釀酒類文章。而當年吉尼斯的制度是,任何研發(fā)人員的工作都是為了雇主的盈利而服務(wù)的,發(fā)表文章可能會造成商業(yè)機密的外泄,因而不許發(fā)表。
但是戈塞特的老朋友皮爾森在Biometrika有一言九鼎的地位,所以他利用職務(wù)之便,允許戈塞特使用Student的化名發(fā)表,而且不提及吉尼斯酒廠的大名。所以,在很長一個歷史階段,盡管t檢驗被世界公認,戈塞特卻是一個陌生的名號。
如果不是吉尼斯這個規(guī)定,戈塞特肯定能評上院士,我們今天使用的將會是戈塞特檢驗,而非Student’s t test。
(圖片來自網(wǎng)絡(luò))
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.