攀枝花市东区人民政府网站欢迎您!   
中文版 | 繁體版 |  登录 |  注册 
热词: 三个圈层 发展规划

本届世界杯冠军是谁?你需要这个科学预测→

时间:2022-11-22 来源:科普中国  阅读次数:

  本届世界杯冠军是谁?你需要这个科学预测→

  在每届世界杯足球赛开幕之际,都会有各路大咖为大力神杯的最终归属“算上一卦”,其中也少不了科学家手中的数学模型。“一千个观众中就有一千个哈姆莱特”,十个不同模型就可能预测出十个不同冠军,像巴西队、阿根廷队、法国队都是被预测的夺冠热门。

  然而对于2022年卡塔尔世界杯,英国一位流行病学统计研究者Matthew Penn却更看好比利时队[1,2],要知道比利时队在世界杯历史上还从来没进过决赛。

  但这哥们绝不是在“瞎说”,一来人家有自己基于数据的概率模型,二来这个模型曾经在2020年欧洲杯的预测中大放异彩,当时准确地预测了意大利和英格兰会分别是冠亚军,并且预测对了八强球队中的六个。

  

  在11月15日,Nature杂志慕名采访了这位预测大神,并公布了他使用同一模型预测的本届世界杯结果,各队夺冠的可能性大小如下:

  

  这些欧洲杯和世界杯的预测结果是怎么获得的呢?简单说是来自于每场比赛的掷骰子,却又不是简单的掷骰子,而是一种泊松概率分布。

  

我们投掷一枚普通骰子,会得到1点到6点中的任意一个,并且六种结果的可能性是相等的,称为均匀概率分布。
 
而对于泊松概率分布,我们考虑这样一种情况:
 
假设街边有一家生意并不怎么好的小店,每天经营10个小时,平均每天可以来30个顾客,那么平均每小时就只有3个顾客,还假设顾客都是随机选时间来的,并没有“客流高峰”,如果任意挑选其中营业的一个小时,来的顾客人数一定是3个吗?显然也不一定,这次碰巧可能一个人也没来,下次碰巧可能一下子来了十几个人。而法国数学家泊松给出了下面这一公式:

  

  λ=3表示了平均值,P则表示了这一小时的时间段来了k个人的概率大小,e是自然常数。在泊松眼中,这家小店一小时内恰好来了3位顾客(平均水平)可能性是22.4%,而一个人没来的概率是4.98%,来了很多人的概率同样存在,但可能性很小,比如来了10个人的概率是0.08%,其它人数的概率也可以一一算出,像下图中所显示的那样。

  

  在现实中,泊松概率分布其实无处不在,很多真实数据都和这一分布惊人的相似。其中包括了核物质每秒放射性衰变的次数,地震等自然灾害发生的次数,公共场所排队的人数,机器出现的故障数,每年飞机坠毁次数,某地区患病的人数,城市各区域犯罪案件发生数量,甚至是普法战争期间普鲁士士兵被马踢死的人数等等。

而在Matthew Penn的模型中,泊松概率分布用来表示了每场足球比赛中某一方的进球个数。一场比赛的胜负和比分自然同时取决于双方的实力和运气,确定性之中又充满了不确定性。
 
为了衡量各球队实力,模型中给每一支球队分别设置了“攻击力”和“防守脆弱性”指数,前者数值越高越容易进球,后者数值越高表示越容易丢球,防守力越弱。

  对此,各种网游桌游的玩家一定不会陌生,而在更遥远的时代,方便面里赠送的《水浒传》英雄卡上也都标记了每位好汉的攻击力和防御力。很显然,一等球队攻击力强,防守脆弱性低,二等球队攻击力弱,防守脆弱性低,或者反之,最差的一类球队攻击力弱,防守脆弱性高。

  

如果球队A和球队B比赛,按照“最合理最应该”的发挥,A队期待的进球数是A的攻击力乘以B的防守脆弱性,B队期待的进球数是B的攻击力乘以A的防守脆弱性。

  假设说A队攻击力是12,防守脆弱性是0.1,B队攻击力是6,防守脆弱性是0.2,两队的“正常”比分是2.4:0.6, 也就是约为2:1。但足球是圆的,我们只能认为2:1是最有可能比分,还有其它各种可能性,于是就将A队的进球数的不确定性看作一个以2.4为平均值的泊松概率分布,B队的看作是一个以0.6为平均值的泊松概率分布,各种可能比分的概率大小取决于两个进球数概率值的乘积。

  当然一个最关键的问题还没有说,每个球队的攻击力和防守脆弱性的值大小到底怎么确定呢?

  答案是根据最近几年来各队之间的历史战绩,不断调整两个数值,使得预测的比分概率分布与实际记录的统计分布尽可能吻合。这样,在世界杯上任何两支球队之间交手时,各种比分出现的可能性都已经事先可以大致预测出来,模拟整个赛程,最后确定世界杯各队的夺冠概率也就成为了可能。

  泊松概率分布在光学领域也是个“常客”,不过更是个经常制造麻烦的“刺头”。概率的不确定性给足球比赛带来的是惊喜,悬念和刺激,给光学成像带来的更多是带来难以忍受的捣乱噪声信号。

  一束光可以看作是由很多个微小光子组成的,均匀照亮一张白纸后,看似纸上各处强度都很一致,但实际上纸的每个位置反射的光子数量会各不相同,而光子数量的多少也对应着光照明暗的差异。即使同一位置,不同时刻反射的光子数量也会不断有涨落起伏,都遵循着泊松概率分布。

  对于相机来说,每次落到传感器上的光子数分布同样具有泊松概率的不确定性,不可避免引入了散粒噪声[3](下图左),并且几乎无论怎样完善地设计一款相机,都无法直接去除这种噪声。根据泊松概率分布公式,光子数相比于平均数量上下起伏的波动程度大小会随着光子数平均值的平方根增大而增大,但光子数平均值正比于想要接收信号的大小,所以当光强度变大(光子数增加)时,虽然散粒噪声在变大,信号与噪声的比例(信噪比)却也会变大,最后看到的图像整体还是会更清晰。

   

如果球队A和球队B比赛,按照“最合理最应该”的发挥,A队期待的进球数是A的攻击力乘以B的防守脆弱性,B队期待的进球数是B的攻击力乘以A的防守脆弱性。

  假设说A队攻击力是12,防守脆弱性是0.1,B队攻击力是6,防守脆弱性是0.2,两队的“正常”比分是2.4:0.6, 也就是约为2:1。但足球是圆的,我们只能认为2:1是最有可能比分,还有其它各种可能性,于是就将A队的进球数的不确定性看作一个以2.4为平均值的泊松概率分布,B队的看作是一个以0.6为平均值的泊松概率分布,各种可能比分的概率大小取决于两个进球数概率值的乘积。

  当然一个最关键的问题还没有说,每个球队的攻击力和防守脆弱性的值大小到底怎么确定呢?

  答案是根据最近几年来各队之间的历史战绩,不断调整两个数值,使得预测的比分概率分布与实际记录的统计分布尽可能吻合。这样,在世界杯上任何两支球队之间交手时,各种比分出现的可能性都已经事先可以大致预测出来,模拟整个赛程,最后确定世界杯各队的夺冠概率也就成为了可能。

  泊松概率分布在光学领域也是个“常客”,不过更是个经常制造麻烦的“刺头”。概率的不确定性给足球比赛带来的是惊喜,悬念和刺激,给光学成像带来的更多是带来难以忍受的捣乱噪声信号。

  一束光可以看作是由很多个微小光子组成的,均匀照亮一张白纸后,看似纸上各处强度都很一致,但实际上纸的每个位置反射的光子数量会各不相同,而光子数量的多少也对应着光照明暗的差异。即使同一位置,不同时刻反射的光子数量也会不断有涨落起伏,都遵循着泊松概率分布。

  对于相机来说,每次落到传感器上的光子数分布同样具有泊松概率的不确定性,不可避免引入了散粒噪声[3](下图左),并且几乎无论怎样完善地设计一款相机,都无法直接去除这种噪声。根据泊松概率分布公式,光子数相比于平均数量上下起伏的波动程度大小会随着光子数平均值的平方根增大而增大,但光子数平均值正比于想要接收信号的大小,所以当光强度变大(光子数增加)时,虽然散粒噪声在变大,信号与噪声的比例(信噪比)却也会变大,最后看到的图像整体还是会更清晰。

  参考文献:

  [1]Penn, Matthew J., and Christl A. Donnelly. "Analysis of a double Poisson model for predicting football results in Euro 2020." Plos one 17.5 (2022): e0268511.

  [2]D. Adam, “Science and the World Cup: how big data is transforming football,” Nature 611, 444-446 (2022)

  [3]https://en.wikipedia.org/wiki/Shot_noise

  [4] Li, Xinyang, et al. "Real-time denoising enables high-sensitivity fluorescence time-lapse imaging beyond the shot-noise limit." Nature Biotechnology (2022): 1-11.

  [5]Y. Hu, X. Peng, T. Li and H. Guo, “On the Poisson approximation to photon distribution for faint lasers,” Physics Letters A 367(3), 173-176 (2007).

  

作者|焦述铭 鹏城实验室
审核|李   炜 中科院长春光机所

 

共有1页 当前第1页        

关于本站 | 网站地图 | 联系我们 | 网站声明

主办:中共攀枝花市东区委员会  攀枝花市东区人民政府

承办:攀枝花市东区电子政务建设服务中心  联系电话:0812-2237455

网站标识码:5104020005   ICP备案编号:蜀ICP备13018730号   川公网安备:51040202000167号

网站访问量: