- +1
擲骰子預測世界杯冠軍?
本文由「Light科普坊」出品
撰稿:焦述銘(鵬城實驗室)
審稿專家:李煒(中科院長春光機所)
在每屆世界杯足球賽開幕之際,都會有各路大咖為大力神杯的最終歸屬“算上一卦”,其中也少不了科學家手中的數學模型。“一千個觀眾中就有一千個哈姆萊特”,十個不同模型就可能預測出十個不同冠軍,像巴西隊,阿根廷隊,法國隊都是被預測的奪冠熱門。
對于即將到來的2022年卡塔爾世界杯,英國一位流行病學統計研究者Matthew Penn卻更看好比利時隊[1,2],要知道比利時隊在世界杯歷史上還從來沒進過決賽。但這哥們絕不是在“瞎說”,一來人家有自己基于數據的概率模型,二來這個模型曾經在2020年歐洲杯的預測中大放異彩,當時準確地預測了意大利和英格蘭會分別是冠亞軍,并且預測對了八強球隊中的六個。
圖1:比利時(紅色)在 2018 年世界杯四分之一決賽中擊敗巴西
圖源:Кирилл Венедиктов/維基共享資源
在11月15日,Nature雜志慕名采訪了這位預測大神,并公布了他使用同一模型預測的本屆世界杯結果,各隊奪冠的可能性大小如下:
那么這些歐洲杯和世界杯的預測結果是怎么獲得的呢?簡單說是來自于每場比賽的擲骰子,卻又不是簡單的擲骰子,而是一種泊松概率分布。
我們投擲一枚普通骰子,會得到1點到6點中的任意一個,并且六種結果的可能性是相等的,稱為均勻概率分布。而對于泊松概率分布,我們考慮這樣一種情況:假設街邊有一家生意并不怎么好的小店,每天經營10個小時,平均每天可以來30個顧客,那么平均每小時就只有3個顧客,還假設顧客都是隨機選時間來的,并沒有“客流高峰”,如果任意挑選其中營業的一個小時,來的顧客人數一定是3個嗎?顯然也不一定,這次碰巧可能一個人也沒來,下次碰巧可能一下子來了十幾個人。而法國數學家泊松給出了下面這一公式:
λ=3表示了平均值,P則表示了這一小時的時間段來了k個人的概率大小,e是自然常數。在泊松眼中,這家小店一小時內恰好來了3位顧客(平均水平)可能性是22.4%,而一個人沒來的概率是4.98%,來了很多人的概率同樣存在,但可能性很小,比如來了10個人的概率是0.08%,其它人數的概率也可以一一算出,像下圖中所顯示的那樣。
圖2:平均值為3的泊松概率分布
圖源:本文作者自制
在現實中,泊松概率分布其實無處不在,很多真實數據都和這一分布驚人的相似。其中包括了核物質每秒放射性衰變的次數,地震等自然災害發生的次數,公共場所排隊的人數,機器出現的故障數,每年飛機墜毀次數,某地區患病的人數,城市各區域犯罪案件發生數量,甚至是普法戰爭期間普魯士士兵被馬踢死的人數等等。
而在Matthew Penn的模型中,泊松概率分布用來表示了每場足球比賽中某一方的進球個數。一場比賽的勝負和比分自然同時取決于雙方的實力和運氣,確定性之中又充滿了不確定性。
為了衡量各球隊實力,模型中給每一支球隊分別設置了“攻擊力”和“防守脆弱性”指數,前者數值越高越容易進球,后者數值越高表示越容易丟球,防守力越弱。對此,各種網游桌游的玩家一定不會陌生,而在更遙遠的時代,方便面里贈送的《水滸傳》英雄卡上也都標記了每位好漢的攻擊力和防御力。很顯然,一等球隊攻擊力強,防守脆弱性低,二等球隊攻擊力弱,防守脆弱性低,或者反之,最差的一類球隊攻擊力弱,防守脆弱性高。
圖3:干脆面袋里贈送的《水滸傳》英雄卡
圖源:趙陽(拍攝)/ Light科普坊
如果球隊A和球隊B比賽,按照“最合理最應該”的發揮,A隊期待的進球數是A的攻擊力乘以B的防守脆弱性,B隊期待的進球數是B的攻擊力乘以A的防守脆弱性。假設說A隊攻擊力是12,防守脆弱性是0.1,B隊攻擊力是6,防守脆弱性是0.2,兩隊的“正常”比分是2.4:0.6, 也就是約為2:1。但足球是圓的,我們只能認為2:1是最有可能比分,還有其它各種可能性,于是就將A隊的進球數的不確定性看作一個以2.4為平均值的泊松概率分布,B隊的看作是一個以0.6為平均值的泊松概率分布,各種可能比分的概率大小取決于兩個進球數概率值的乘積。
當然一個最關鍵的問題還沒有說,每個球隊的攻擊力和防守脆弱性的值大小到底怎么確定呢?答案是根據最近幾年來各隊之間的歷史戰績,不斷調整兩個數值,使得預測的比分概率分布與實際記錄的統計分布盡可能吻合。這樣,在世界杯上任何兩支球隊之間交手時,各種比分出現的可能性都已經事先可以大致預測出來,模擬整個賽程,最后確定世界杯各隊的奪冠概率也就成為了可能。
泊松概率分布在光學領域也是個“常客”,不過更是個經常制造麻煩的“刺頭”。概率的不確定性給足球比賽帶來的是驚喜,懸念和刺激,給光學成像帶來的更多是帶來難以忍受的搗亂噪聲信號。
一束光可以看作是由很多個微小光子組成的,均勻照亮一張白紙后,看似紙上各處強度都很一致,但實際上紙的每個位置反射的光子數量會各不相同,而光子數量的多少也對應著光照明暗的差異。即使同一位置,不同時刻反射的光子數量也會不斷有漲落起伏,都遵循著泊松概率分布。
對于相機來說,每次落到傳感器上的光子數分布同樣具有泊松概率的不確定性,不可避免引入了散粒噪聲[3](圖4左),并且幾乎無論怎樣完善地設計一款相機,都無法直接去除這種噪聲。根據泊松概率分布公式,光子數相比于平均數量上下起伏的波動程度大小會隨著光子數平均值的平方根增大而增大,但光子數平均值正比于想要接收信號的大小,所以當光強度變大(光子數增加)時,雖然散粒噪聲在變大,信號與噪聲的比例(信噪比)卻也會變大,最后看到的圖像整體還是會更清晰。
圖4:熒光顯微鏡所觀測的圖像中散粒噪聲(左)及人工智能算法處理后結果(右)[4]
圖源:
Nature Biotechnology (2022): 1-11.
然而在很多應用中,增加信號光的光子數或者強度是徒勞的,比如在戶外使用無人自動駕駛汽車的激光雷達時,有時無論怎樣增加激光雷達的光信號強度,比起太陽光都是“小巫見大巫”,此時去除噪聲的一個辦法是對沒有任何目標物體的空白場景記錄一次信號,作為背景噪聲,之后每次記錄時,都去掉這一靜止不變的背景噪聲。可是面對太陽光這一本身強度很大,又在以泊松概率分布不斷動態變化的干擾信號,這一招也不靈驗了。
而在使用X光的CT醫學成像中,為了提升信噪比,加強X光照射強度也不可行,因為過量的X光劑量對人體是有害的。而即使在可見光的情況下,一些活細胞顯微鏡觀測中,過亮的光照也足以殺死細胞,或者使細胞功能失常[4]。
2022年的諾貝爾物理學獎使得量子信息領域再次備受全球關注,其中相關的技術之一的量子保密通信可以提供理論上非常強的密鑰安全性,但實際中需要滿足的條件是擁有每次只生成單個光子的光源[5],“一個也不能多,一個也不能少”,可實際中往往發射的一個激光脈沖中包含的光子數量本身也是泊松概率分布的,如果將平均值設為0.1個,有不少時候光源并沒有發出光子,還會有少量時候發出兩個或者更多個光子,這會使得量子通信系統沒有理想中的那么高效和安全。
不過辦法總比困難多,就像從混亂的進球數可能性中尋找到冠軍球隊的蛛絲馬跡一樣,面對神出鬼沒的泊松概率分布噪聲,研究者通過深度學習人工智能算法可以將拍到的照片中噪聲完美去除,做到完好無缺的修復(圖4右)。無論預測比賽比分,還是去除圖片噪聲,都離不開大數據作為參考,隨機性的迷霧被異曲同工地層層撥開。
| 作者簡介 |
焦述銘,鵬城實驗室助理研究員,香港城市大學電子工程博士,從事全息三維顯示算法,單像素成像,光學計算,圖像處理,信息安全,機器學習等研究,曾獲得香港特區政府Hong Kong PhD Fellowship Scheme和廣東省“珠江人才計劃”海外青年引進計劃(博士后資助項目)。在Optics Letters, Optics Express, IEEE Transactions on Industrial Informatics, Engineering等期刊上以第一或通訊作者發表論文20余篇,獲得2020年國際顯示技術大會(ICDT 2020)優秀論文獎。擔任《應用光學》和《液晶與顯示》期刊青年編委,中國光學學會全息與光信息處理專業委員會委員,中國圖像圖形學學會三維成像與顯示專業委員會委員,中國圖像圖形學學會三維視覺專業委員會委員。擔任中國科普作家協會會員,Light科普坊科學家顧問團成員,曾在果殼網,科學大院,南方都市報,讀者原創版等網絡和平面媒體撰寫科普文章,2013年第六版《十萬個為什么》圖書數學分冊和電子信息分冊作者之一。
本文封面圖由Light科普坊提供
參考資料:
[1]Penn, Matthew J., and Christl A. Donnelly. "Analysis of a double Poisson model for predicting football results in Euro 2020." Plos one 17.5 (2022): e0268511.
[2]D. Adam, “Science and the World Cup: how big data is transforming football,” Nature 611, 444-446 (2022)
[3]https://en.wikipedia.org/wiki/Shot_noise
[4] Li, Xinyang, et al. "Real-time denoising enables high-sensitivity fluorescence time-lapse imaging beyond the shot-noise limit." Nature Biotechnology (2022): 1-11.
[5]Y. Hu, X. Peng, T. Li and H. Guo, “On the Poisson approximation to photon distribution for faint lasers,” Physics Letters A 367(3), 173-176 (2007).
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2024 上海東方報業有限公司