- +1
概率論和統計學中的巨匠——數學與水晶球(下)
原創 Joseph 返樸
在中,我們了解了一些概率論中的基本內容,包括條件概率和貝葉斯定理等。本文我們將了解作為數學學科的概率論與統計學是如何發展到現在的。當然,這是一個極簡化的過程。有諸多非凡的學者,是他們的工作讓概率與統計不再只是游戲,而是成為了可以真正指導人們生活的水晶球。
撰文 | Joseph Malkevitch (紐約市立大學約克學院數學與計算機系榮譽教授)
編譯 | 施昊
所謂事后諸葛,就是人們會看到從當下發展到未來時到底發生了什么,并且會說如果回到過去會如何。下面將要呈現的是,作為一門數學學科的概率論是如何發展的一個極簡化的探究過程。我們能發現,概率論相關的數學研究既不局限于某個國家,也不限于那些在其他數學領域聞名的數學家。
另外,在人們最早試圖深入了解可能性和概率的概念的時候,人們就有兩種不同的想法。一種想法是,基于知識或證據來決定某件事發生的概率,比如颶風是否會襲擊紐約,而且這個系統的行為本身包含某種隨機性,比如投硬幣或擲骰子。從某種角度看,如果人們知道所有的信息,并且運用物理學定律推演,那么我們將知道每次玩轉盤、拋硬幣、擲骰子等游戲的結果,但顯然這是不可能的事情。不過,許多與之相似的過程都存在一些“規律性”的東西,這些才是概率論的研究主題。比如說,如果拋一對均勻的骰子,你將會有多大可能看到兩個點數之和等于四呢?
對概率的早期認識
幾乎可以肯定的是,在很早時候,那些具有數學天賦的人就意識到了“隨機性”,比如作出很大貢獻的杰羅拉多·卡拉達諾(Gerolamo Cardano,1501-1576)。卡拉達諾研究了一些在今天看來是組合數學中計數部分的一些問題。他研究了當拋擲三個不同的骰子時最后結果的規律。他想要數出出現8或者9點的方式個數,但是他犯了錯誤。從現代的觀點來看,卡拉達諾不是第一個也不是最后一個出現“錯誤”的人。為了說明他的錯誤,我們用下面的例子來闡述。
當我們拋一個均勻的硬幣兩次,用H表示正面,T表示反面,我們可以寫出HH,HT,TH 和TT四種結果。這里HT就是第一次是正面,第二次反面,反之亦然。如果我們數正面朝上的次數,答案是0,1或者2次。但是從現在的角度來看,說這三個結果(0,1,2)的可能性也就是P(0個正面)=P(1個正面)=P(2個正面)=1/3,這很奇怪。我們現在會說在拋兩次硬幣中1個正面朝上的概率是1/2,兩次正面朝上或者兩次背面朝上的概率是1/4。可是,這個似乎很簡單的錯誤在早期的概率論和組合數學中倒是很常見。事后看來卻是顯而易見的。
以數學基礎研究隨機性的“現代”起源要追溯到布萊茲·帕斯卡(Blaise Pascal ,1623-1662)和皮埃爾·德·費馬(Pierre de Fermat,1607-1665)的工作。1654年兩人通信探討了一個賭博游戲中的分配問題。
布萊茲士·帕斯卡
假設有兩個賭徒,每一局中他們各自贏的機會相等。有一天,他倆各拿出相同金額的錢作為賭注,約定誰先贏到某個局數(假設是5),賭注就全部歸誰。不料,這時有突發事件,他們必須結束賭局并離開。此時,兩個人誰也沒贏到5盤,那么這個賭注的錢應該怎么分呢?當然,此時贏得多的人應該相應地拿的賭注多。可是,多少才算是公平呢?在通信中,帕斯卡給出了一個公平的分配方案。
有趣的是,信中他還順帶解決了上帝“存在”的問題。雖然如今現代決策論可能被用來決定是否在特定的水下層位置進行石油鉆探,這無可厚非,而帕斯卡則用了一個令人驚訝的“現代”分析來解釋為什么會有人相信上帝。帕斯卡在這里的討論遵循了他著名的哲學專著《思想錄》中提出的觀點:上帝要么存在,要么不存在。每個人都必須決定他在這個問題上的立場,不能“不做決定”。關于上帝是否存在,帕斯卡認為單靠理性不能回答這個問題。可假設上帝存在的概率是有限的。人們可以從你決定堅持的立場來審視這一結果。帕斯卡認為,人們應該像上帝存在那樣生活,并去尋找上帝。如果上帝存在,那么人們收益會是“無窮的”——因為信仰上帝而得到福澤;如果上帝不存在,對個人信仰來說損失相對較小對信仰者來說,他們所付出的代價也遠小于因上帝存在而得到的福祉。當然,一些人覺得帕斯卡的觀點很有說服力,有些人則不然。
讓概率論成為數學
第一本關于概率論的“書”似乎是由克里斯蒂安·惠更斯(Christiaan Huygens, 1629-1695)所寫的。
克里斯蒂安·惠更斯
正如他所處的時代,那本“書”是以拉丁文出版的。而且是作為1657年弗朗斯·范·舒滕(Frans van Schooten)的數學著作Exercitationum Mathematicarum Libri Quinque 的“附錄”問世——《論賭博中的計算》(De ratiociniis in ludo Aleae)。因此,除了在一小群致力于發展現代科學和數學思想和工具的知識分子中有影響,這本書的影響有限。
在這項工作不久之后,與隨機性和統計相關的觀點引起了約翰·格朗特(John Graunt,1620-1674)對疾病數據的關注。這些數據可以用來保護人們免受疾病未來可能帶來的影響,尤其是關于傳染病的影響。格朗特的工作在今天可能會被說成是與人口統計學有關的領域。他構建了一張表格,這張表格的現代運用就是保險公司用來設定壽險保費的“生命表(Life table)”。生命表里面包含著一個人的年齡,,這個人在下一個生日前去世的概率,以及人們在特定年齡的預期壽命等等。比如,60歲的人比30歲的人更可能在某個特定時間段死亡,因此在設定購買人壽保險的價格時,人們會使用生命表。隨著時間的推移,人們已經意識到,并非所有人都能在給定的時間里活的一樣長。比如說假設到了一個給定的年紀,女性有可能活得更久。此外,吸煙者的平均壽命不太可能跟不吸煙者一樣。
在18世紀,有許多重要的發展出現。雅各布·伯努利(Jacob Bernoulli,1655-1705)在《猜度術》(Ars conjectandi)中討論了今天被稱為“大數定律”的想法。如果取一個“獨立”生成的測量樣本,那么隨著測量次數的增加,這些測量的平均值就會變得更加“穩定”。如果某人用多次投擲一枚均勻的骰子,點數結果是1、2、3、4、5或6。隨著投擲次數越來越多,點數的平均值會越來越接近7/2(即(1+2+3+4+5+6)/6)。今天,人們把一種特殊的概率模型(二項分布)稱為“伯努利試驗”,以紀念這位數學家。這類模型中的實驗只有兩種結果,比如拋硬幣(正面或反面),或者觀察大量老鼠的性別(雄性或雌性)。同一時期,亞伯拉罕·棣莫弗(Abraham de Moivre,1667-1754)研究了被稱為年金的金融工具,而且用了今天所謂的"正態分布"來近似二項分布。
拉普拉斯(Pierre de Simon Laplace, 1749-1827)做了一些概率研究的成果“總結”并進一步“拓展”了。拉普拉斯幾乎對數學的所有領域都作出了重要貢獻,而不僅僅在概率論方面。他早期的工作記錄在他1774年出版的“回憶錄“(《論事件原因的概率回憶錄》 Mémoire sur la probabilité des causes par les événements)中,里面提到了“逆概率(Inverse probability)”,得出了與貝葉斯相同的觀點。拉普拉斯在他的一些著作中強調了今天所謂的“等概率”模型,即盡管某些事件的概率是未知的,但它們仍被假設是等概率的。通常情況下,這并不總是合理的。因為,盡管一個人可能不知道事情發生的概率,但他可以肯定有些事情比其他事情更有可能發生。
拉普拉斯
19世紀對概率和統計有所貢獻的人包括:高斯(Johann Carl Friedrich Gau? ,1777-1855)和阿德里安-馬里·勒讓德(Adrien-Marie Legendre ,1752-1833),后者是應用最小二乘法的先驅,他將一組觀測數據擬合成曲線,并試圖外推以預測未來情況。
然而,隨著時間的推移,人們越來越清楚地認識到,作為一門數學學科,概率論必須建立在一個更“公理化”的基礎上。由于沒有明確的定義和精確的框架來證明結果,人們對概率論的基礎產生了一些擔憂。蘇聯數學家安德烈·柯爾莫哥洛夫(Andrey Kolmogorov, 1903-1987)就是一個敢于接受這一挑戰的人。柯爾莫戈哥洛夫對數學的貢獻非常廣泛,包括在同調和上同調上的工作。
安德烈·科爾莫戈洛夫的照片
讓概率論和統計學變得可靠
隨著19世紀末及后來科學和數學的飛速發展,人們不僅在科學領域,也在其他領域嘗試運用概率和統計的數學思想。雖然概率和統計逐漸有一個完善的理論基礎,其結果證明也基本符合現代的嚴格標準(比如大數定律,中心極限定理等),但爭論還是爆發了。要理解現實世界,基于概率論和統計學的方法論可靠嗎?如同之前提到的,當人們談論藥物A比藥物B效果更好的概率,和切爾諾貝利(1986)、三里島(1979)或福島(2011)再次發生災難的概率,這兩者之間是不同的,一些爭論就是與這些差異性相關。某些類型的實驗可以重復進行,結果可以制成表格,但很多事情沒有這種特性。
在過去的125年里,有許多受過數學訓練的學者開發了從數據中推斷結論的“統計”工具。下面是關于統計檢驗貢獻者的簡短評論。
卡爾·皮爾森(Karl Pearson,1857-1936)幫助奠定了統計檢驗的現代理論。他研究了統計假設檢驗理論的實施過程(包括卡方檢驗的使用),并為面對不同選擇如何系統地作出決策提供了論據。
卡爾·皮爾森
耶日.內曼(Jerzy Neynam,1894-1981)生于波蘭,但大部分職業生涯都在美國度過。在美國期間,他任教于加州大學伯克利分校,指導了39名博士生。因為在假設檢驗方法方面的工作,他的名字經常和卡爾·皮爾遜的名字聯系在一起,內曼幫助推進了把置信區間(1937)作為統計研究過程的一部分。
耶日·內曼
另一位試圖用統計學方法來深入了解遺傳學(進化)和其他學科的先驅是烏德尼·尤爾(Udny Yule,1871-1951)。尤爾寫了一些關于時間序列的論文,頗具影響力。他提出從等間隔時間的測量數據中理解數據。在時間序列的許多問題中,變量不和時間相關,而是和時間序列的滯后變量相關。觀察的差分值也是和同一時間序列的滯后變量的差分值相關。尤爾是皮爾森的學生,然而他更關注數字背后的隱藏現象,對數據分析得出的結論加以批判性的態度,這是皮爾遜所缺乏的,因此兩人對統計問題的處理方法和解釋常常意見不一。尤爾曾經在劍橋大學教了20年統計學。
烏德尼·尤爾
統計學方法的另一位重要先驅是羅納德·艾爾默·費舍爾(Ronald Aylmer Fisher, 1890-1962),他鼓勵使用數學模型來研究遺傳學和進化。1935年,他寫了一本名為《實驗設計》(The Design of Experiments)的書,書中討論了今天所謂的塊設計(block designs)和平衡不完全塊設計在農業生產和其他場景下的應用。在這些實際問題中,人們希望將影響研究結果的隨機性最小化。因此,采用塊設計進行的產量試驗研究中,人們可以通過種植不同品種的植物來“校正”田間不同區域的肥力差異。費舍爾還探討p值與各種統計檢驗的結合使用,而且幾乎可以肯定的是,他會對那些聲稱獲得“顯著”結果的盲目做法感到震驚,因為那些糟糕的實驗設計中,計算得到出結果的p值很小。
羅納德·艾爾默·費舍爾
在“主觀“之下思考
當一群學者為了從數據中提取信息而發展統計檢驗程序時,另一群更傾向于數學的人正在嘗試著為概率論的現實應用理清理論基礎,畢竟在諸多情況下,算清楚事件概率十分有價值。這些人來自不同國家,職業也各不相同。大致來說,這些人在某種所謂“主觀(subjective)”的視角下思考概率,而不是用“頻率主義者(frequentist)”的觀點。另一方面,在某些情況下,當 “實驗”的重復次數增加時,直覺地將概率視為相對頻率的“穩定”值是有道理的。但有時這種逼近概率的方法是不可接受的。因此也有一群概率學家認為概率就是“相信程度(degrees of belief)”,但并不是所有采用這種觀點的人完全同意“概率”或“相信程度”的意義。
弗蘭克·拉姆齊(Frank Ramsy,1903-1930)以組合學的拉姆齊定理(Ramsey's theorem)而聞名,他也寫了一系列關于概率論和效用論的重要論文(1926)。他提出了關于概率和在不確定性下決策的觀點,這些現在通常被描述為“貝葉斯方法”。拉姆齊的研究為概率論帶來了非凡的創造力,但令人遺憾的是他在非常年輕的時候就去世了。
弗蘭克.拉姆齊
布魯諾·德菲內蒂(Bruno de Finetti,1906-1985)也發展了“主觀”的、基于相信程度的概率概念。德菲內蒂出生于奧地利,但他的大部分職業生涯都是在意大利度過的。
布魯諾·德菲內蒂
那些強調概率主觀方法的人中,最有影響力的人可能是萊納德·吉米·薩維奇(Leonard Jimmie Savage,1917-1971)。薩維奇寫了大量關于統計學基礎的文章,并在博弈論和決策制定中應用了他關于主觀概率的觀點。薩維奇提出了關于做決策時候使用后悔程度最小/最大的想法。為了量化玩家在游戲中的不同行為,一般我們都會用玩家的收益去計算,但是他的想法卻是用了(玩家的)后悔程度。如果對于一個特定的自然狀態下,玩家沒有選擇可獲得的最優行為,而是其他行為,兩者的結果會發生什么差異呢?對于自然狀態N,如果一個行為A取值為-3,那么對于同樣的狀態N,有一個不同的行為可以取值為5,那么選擇行為A的遺憾值為8。對于任何一種自然狀態,最佳行為的遺憾值是0。在將統計學和博弈論結合的工作中,薩維奇和包括米爾頓·弗里德曼(Milton Friedman)在內的等許多經濟學家一起合作。
萊納德·吉米·薩維奇的照片
最近,在心理學、醫藥研究,以及其他能通過應用統計方法來增加我們見解的領域,人們重新開始關注進行假設檢驗的“公式化”的方法。一些人認為,p值的使用是一種僵化的方式,并不總能產生其他研究人員可以復制的結果。統計學家安德魯·格爾曼(Andrew Gelman)和哲學家黛博拉·梅奧(Deborah Mayo)兩人各自運營的博客(Statistical modeling, Causal Inference and Social Science和Error Statistics Philosophy)會定期探討這些問題。
最重要的是,有一個可靠的水晶球來了解現在和將來將是一件妙不可言的事。數學家、統計學家和其他學者,正在努力為我們帶來更美好的未來。
參考文獻
[1] Beniston, M,, From Turbulence to Climate: Numerical Investigations of the Atmosphere with a Hierarchy of Models, Springer, Berlin, 1998.
[2] Daston, L., Classical Probability During the Enlightenment, Princeton U. Press, Princeton, 1988.
[3] Falk, R., and M. Bar-Hillel, Probabilistic dependence between events. The Two-Year College Mathematics Journal. 14 (1983) 240-7.
[4] Falk, R., Conditional probabilities: insights and difficulties. In Proceedings of the Second International Conference on Teaching Statistics 1986, pp 292-297.
[5] Falk, R., Misconceptions of statistical significance. Journal of structural learning. March, 1986.
[6] Gelman, A. and J. Carlin, H. Stern, D. Rubin, Bayesian Data Analysis (2nd edition), Chapman & Hall/CRC, Philadelphia, 2003
[7] Hacking, I., The Emergence of Probability, Cambridge U. Press, New York, 2006.
[8] Hald, A., A History of Mathematical Statistics from 1750 to 1930, Wiley, New York, 1998.
[9] Hald, A., A History of Probability and Statistics and Their Applications Before 1750., Wiley, New York, 2003.
[10] Mayo, D., Experimental Knowledge, University of Chicago Press, Chicago, 1996.
[11] Mayo, D., Error and Inference: Recent Exchanges on Experimental Reasoning, Reliability, and the Objectivity and Rationality of Science, Cambridge University Press, New York, 2010.
[12] Roulstone, I. and J. Norbury, Invisible in the Storm: the role of mathematics in understanding weather, Princeton U. Press, Princeton, 2013.
[13] Stigler, S., The History of Statistics: The Measurement of Uncertainty Before 1900, Harvard U. Press, Cambridge, 1990.
[14] van Plato, J., Creating Modern Probability: Its Mathematics, Physics and Philosophy in Historical Perspective, Cambridge U. Press, New York, 1994.
版權說明:歡迎個人轉發,任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯系后臺。
原標題:《概率論和統計學中的巨匠——數學與水晶球(下)》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2024 上海東方報業有限公司