正态分布的前世今生 一、正态分布,熟悉的陌生人 学过基础统计学的同学大都对正态分布非常熟悉。这个钟型的分布曲线不但形状优雅, 其密度函数写成数学表达式 12π-Voexp(-(r-422o2) 也非常具有数学的美感。其标准化后的概率密度函数 12π--Vexp(-x22) 更加的简洁漂亮,两个最重要的数学常量π,都出现在了公式之中。在我个人的审美之中, 它也属于t和p-N的最美丽的数学公式之一,如果有人问我数理统计领域哪个公式最能让人感觉 到上帝的存在,那我一定投正态分布的票。因为这个分布戴着神秘的面纱,在自然界中无处不 在,让你在纷芜杂的数据背后看到隐隐的秩序。 N(u,2) 34.2% 1359 2.29 -3g-2o-oμ+o+2o+3g 【正态分布曲线】 正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。早年去 过德国的兄弟们还会发现,德国的钢侧和10马克的纸币上都留有高斯的头像和正态密度 曲线。正态分布被冠名高斯分布,我们也容易认为是高斯发现了正态分布,其实不然,不 过高斯对于正态分布的历史地位的确立是起到了决定性的作用, GL7067146A5 7067146A
1 正态分布的前世今生 一、正态分布,熟悉的陌生人 学过基础统计学的同学大都对正态分布非常熟悉。这个钟型的分布曲线不但形状优雅, 其密度函数写成数学表达式 12π−−√σexp(−(x−μ)22σ2) 也非常具有数学的美感。其标准化后的概率密度函数 12π−−√exp(−x22) 更加的简洁漂亮,两个最重要的数学常量 π,e 都出现在了公式之中。在我个人的审美之中, 它也属于 top-N 的最美丽的数学公式之一,如果有人问我数理统计领域哪个公式最能让人感觉 到上帝的存在,那我一定投正态分布的票。因为这个分布戴着神秘的面纱,在自然界中无处不 在,让你在纷繁芜杂的数据背后看到隐隐的秩序。 【正态分布曲线】 正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。早年去 过德国的兄弟们还会发现,德国的钢镚和 10 马克的纸币上都留有高斯的头像和正态密度 曲线。正态分布被冠名高斯分布,我们也容易认为是高斯发现了正态分布,其实不然,不 过高斯对于正态分布的历史地位的确立是起到了决定性的作用
【德国马克上的高斯头像和正态分布曲线】 正态曲线虽然看上去很美,却不是一拍脑授就能想到的。我们在本科学习数理统计的 时候,课本一上来介绍正态分布就给出密度分布函数,却从来不说明这个分布函数是通过 什么原理推导出来的。所以我一直搞不明白数学家当年是怎么找到这个概率分布曲线的, 又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布,却对 这个分布的来龙去脉知之甚少,正态分布真是让人感觉既熟悉又陌生。直到我读研究生的 时候,我的导师给我介绍了陈希儒院士的《数理统计学简史》这本书,看了之后才了解了 正态分布曲线从发现到被人们重视进而广泛应用,也是经过了几百年的历史 正态分布的这段历史是很精彩的,我们通过讲一系列的故事来揭开她的神秘面纱。 二、邂逅,正态曲线的首次发现 第一个故事和概率论的发展密切相关,主角是棣莫弗(De Moivre)和拉普拉斯 (Laplace)。拉普拉斯是个大科学家,被称为法国的牛顿:棣莫弗名气可能不算很大,不 过大家应该都熟悉这个名字,因为我们在高中数学学复数的时候我们都学过棣莫弗定理 (cos0+isin)n=cos(ne)+isin(n0). 古典摄率论发源于赌博,惠更斯、帕斯卡、费马、贝努利都是古典概率的奠基人,他们那 会研究的摄率问题大都来自赌桌上,最早的福率论问题是赌徒梅累在1654年向帕斯卡提出的 如何分赌金的问题,统计学中的总体均值之所以被称为期望(Expectation),就是源自惠更斯、 帕斯卡这些人研究平均情况下一个赌徒在赌桌上可以期望自己赢得多少钱。 棣莫弗(De Moivre) 拉普拉斯(Laplace)
2 【德国马克上的高斯头像和正态分布曲线】 正态曲线虽然看上去很美,却不是一拍脑袋就能想到的。我们在本科学习数理统计的 时候,课本一上来介绍正态分布就给出密度分布函数,却从来不说明这个分布函数是通过 什么原理推导出来的。所以我一直搞不明白数学家当年是怎么找到这个概率分布曲线的, 又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布,却对 这个分布的来龙去脉知之甚少,正态分布真是让人感觉既熟悉又陌生。直到我读研究生的 时候,我的导师给我介绍了陈希儒院士的《数理统计学简史》这本书,看了之后才了解了 正态分布曲线从发现到被人们重视进而广泛应用,也是经过了几百年的历史。 正态分布的这段历史是很精彩的,我们通过讲一系列的故事来揭开她的神秘面纱。 二、邂逅,正态曲线的首次发现 第一个故事和概率论的发展密切相关,主角是棣莫弗(De Moivre)和拉普拉斯 (Laplace)。拉普拉斯是个大科学家,被称为法国的牛顿;棣莫弗名气可能不算很大,不 过大家应该都熟悉这个名字,因为我们在高中数学学复数的时候我们都学过棣莫弗定理 (cosθ+isinθ)n=cos(nθ)+isin(nθ). 古典概率论发源于赌博,惠更斯、帕斯卡、费马、贝努利都是古典概率的奠基人,他们那 会研究的概率问题大都来自赌桌上,最早的概率论问题是赌徒梅累在 1654 年向帕斯卡提出的 如何分赌金的问题。统计学中的总体均值之所以被称为期望(Expectation),就是源自惠更斯、 帕斯卡这些人研究平均情况下一个赌徒在赌桌上可以期望自己赢得多少钱。 棣莫弗(De Moivre) 拉普拉斯 (Laplace)
有一天一个哥们,也许是个赌徒,向棣其弗提了一个和赌博相关的一个问题:A,B两 人在赌场里赌博,A,B各自的获胜概率是p和=1-P,赌n局,若A赢的局数X叩 则A付给赌场X-叩元,否则B付给赌场p-X元。问赌场挣钱的期望值是多少? 问题并不复杂,本质上是一个二项分布,最后求出的理论结果是 2npgb(np,np), 其中 b(np,i)=(ni)piqgn-i 是常见的二项概率。但是对具体的,要把这个理论结果实际计算出数值结果可不是 件容易的事,因为其中的二项公式中有组合数这就驱动棣莫弗寻找近似计算的方法。 与此相关联的另一个问题,是遵从二项分布的随机变量X~B(P),问X落在二项分 布中心点一定范围的概率PFPX-p≤d山是多少? 对于=12的情形,棣莫弗做了一些计算并得到了一些近似结果,但是还不够漂亮,幸 运的是棣莫弗和斯特林(Stirling)处在同一个时代,而且二人之间有联系,斯特林公式是 在数学分析中必学的一个重要公式:(事实上斯特林公式的形式其实是棣莫弗最先发现的, 但是斯特林改进了这个公式,改进的结果为棣其弗所用) n!~2nn-\(ne)n 1733年,棣莫弗很快利用斯特林公式进行计算并取得了重要的进展。考虑”是偶数 的情形,令二项概率 b(0=b,12,0=(mi0(12)m 通过斯特林公式做一些简单的计算容易得到, bn2)~2π--√→b(n2+d0b(2)exp(-2hn). 于是有 b(n2+d)~22mn-Vexp(-2d2n) 使用上式的结果,并在二项概率累加求和的过程中近似的使用定积分代替求和,很容 易就能得到 3
3 有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的一个问题:A,B 两 人在赌场里赌博,A,B 各自的获胜概率是 p 和 q=1−p,赌 n 局,若 A 赢的局数 X>np, 则 A 付给赌场 X−np 元,否则 B 付给赌场 np−X 元。问赌场挣钱的期望值是多少? 问题并不复杂,本质上是一个二项分布,最后求出的理论结果是 2npqb(n,p,np), 其中 b(n,p,i)=(ni)piqn−i 是常见的二项概率。但是对具体的 n,要把这个理论结果实际计算出数值结果可不是 件容易的事,因为其中的二项公式中有组合数.这就驱动棣莫弗寻找近似计算的方法。 与此相关联的另一个问题,是遵从二项分布的随机变量 X∼B(n,p),问 X 落在二项分 布中心点一定范围的概率 Pd=P(|X−np|≤d)是多少? 对于 p=12 的情形,棣莫弗做了一些计算并得到了一些近似结果,但是还不够漂亮,幸 运的是棣莫弗和斯特林(Stirling)处在同一个时代,而且二人之间有联系,斯特林公式是 在数学分析中必学的一个重要公式:(事实上斯特林公式的形式其实是棣莫弗最先发现的, 但是斯特林改进了这个公式,改进的结果为棣莫弗所用) n!∼2πn−−−√(ne)n 1733 年,棣莫弗很快利用斯特林公式进行计算并取得了重要的进展。考虑 n 是偶数 的情形,令二项概率 b(i)=b(n,12,i)=(ni)(12)n 通过斯特林公式做一些简单的计算容易得到, b(n2)∼2πn−−−√ ⇒ b(n2+d)b(n2)∼exp(−2d2n). 于是有 b(n2+d)∼22πn−−−√exp(−2d2n). 使用上式的结果,并在二项概率累加求和的过程中近似的使用定积分代替求和,很容 易就能得到
P(II X-12 ≤cr-~=~∑-(n2+iA Vexp(-2i2m) ()-2cs2imN2cl2r -Vexpl 1-V2c-2l2 -Vexp(-x22)d x. 看,正态分布的密度函数的形式在积分公式中出现了!这也就是我们在数理统计课本 上学到的二项分布的极限分布是正态分布。 以上只是讨论了=12的情形,棣莫弗也对12做了一些计算,后来拉普拉斯对 P12的情况做了更多的分析,并把二项分布的正态近似推广到了任意P的情况。这是第 一次正态密度函数被数学家勾画出来,而且是以二项分布的极限分布的形式被推导出来的。 熟悉基础概率统计的同学们都知道这个结果其实叫棣莫弗-拉普拉斯中心极限定理。 [De Moivre-Laplace中心极限定理]设随机变量Xn(=l,2…)服从参数为p的二 项分布,则对任意的x,恒有 limn-nPX-Xpnp(l-p) -5x)=fx-z12z--Vexp(-t2)dt 我们在大学学习数理统计的时候,学习的过程都是先学习正态分布,然后才学习中心 极限定理。而学习到正态分布的时候,直接就描述了其概率密度的数学形式,虽然数学上 很漂亮,但是容易困感数学家们是如何凭空就找到这个分布的。读了陈希孺的《数理统计 学简史》之后,我才明白正态分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定 理中。数学家研究数学问意的进程很少是按照我们数学课本的安排顺序推进的,现代的数 学课本都是按照数学内在的逻辑进行组织编排的,虽然逻辑结构上严谨优美,却把数学问 题研究的历史痕迹抹得一千二净。DNA双螺旋结构的发现者之一James Waston在他 的名著《DNA双螺旋》序言中说:“科学的发现很少会像门外汉所想象的一样,按照直接 了当合乎逻辑的方式进行的。” 棣莫弗给出他的发现后40年(大约是1770),拉普拉斯建立了中心极限定理较一 般的形式,中心极限定理随后又被其它数学家们推广到了其它任意分布的情形,而不限于 二项分布。后续的统计学家发现,一系列的重要统计量,在样本量N趋于无穷的时候,其 极限分布都有正态的形式,这构成了数理统计学中大样本理论的基础。 棣莫弗在二项分布的计算中警见了正态曲线的模样,不过他并没有能展现这个曲线的 美妙之处。棣莫弗的这个工作当时并没有引起人们足够的重视,原因在于棣莫弗不是个统 计学家,从未从统计学的角度去考虑其工作的意义。正态分布(当时也没有被命名为正态分 4
4 P(∣∣∣Xn−12∣∣∣ ≤cn−√)= ∼ = ∼ ∑−cn√≤i≤cn√b(n2+i)∑−cn√≤i≤cn√22πn−−−√exp(−2i2n) (1)∑−2c≤2in√≤2c12π−−√exp⎛⎝−12(2in−√)2⎞⎠2n−√∫2c−2c12π−−√exp(−x22)d x. 看,正态分布的密度函数的形式在积分公式中出现了!这也就是我们在数理统计课本 上学到的二项分布的极限分布是正态分布。 以上只是讨论了 p=12 的情形,棣莫弗也对 p≠12 做了一些计算,后来拉普拉斯对 p≠12 的情况做了更多的分析,并把二项分布的正态近似推广到了任意 p 的情况。这是第 一次正态密度函数被数学家勾画出来,而且是以二项分布的极限分布的形式被推导出来的。 熟悉基础概率统计的同学们都知道这个结果其实叫棣莫弗-拉普拉斯中心极限定理。 [De Moivre-Laplace 中心极限定理] 设随机变量 Xn(n=1,2...)服从参数为 p 的二 项分布,则对任意的 x,恒有 limn→∞P{Xn−Xpnp(1−p)−−−−−−−−√≤x}=∫x−∞12π−−√exp(−t22)dt. 我们在大学学习数理统计的时候,学习的过程都是先学习正态分布,然后才学习中心 极限定理。而学习到正态分布的时候,直接就描述了其概率密度的数学形式,虽然数学上 很漂亮,但是容易困惑数学家们是如何凭空就找到这个分布的。读了陈希孺的《数理统计 学简史》之后,我才明白正态分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定 理中。数学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的,现代的数 学课本都是按照数学内在的逻辑进行组织编排的,虽然逻辑结构上严谨优美,却把数学问 题研究的历史痕迹抹得一干二净。DNA 双螺旋结构的发现者之一 James Waston 在他 的名著《DNA 双螺旋》序言中说:“科学的发现很少会像门外汉所想象的一样,按照直接 了当合乎逻辑的方式进行的。” 棣莫弗给出他的发现后 40 年(大约是 1770),拉普拉斯建立了中心极限定理较一 般的形式,中心极限定理随后又被其它数学家们推广到了其它任意分布的情形,而不限于 二项分布。后续的统计学家发现,一系列的重要统计量,在样本量 N 趋于无穷的时候,其 极限分布都有正态的形式,这构成了数理统计学中大样本理论的基础。 棣莫弗在二项分布的计算中瞥见了正态曲线的模样,不过他并没有能展现这个曲线的 美妙之处。棣莫弗的这个工作当时并没有引起人们足够的重视,原因在于棣莫弗不是个统 计学家,从未从统计学的角度去考虑其工作的意义。正态分布(当时也没有被命名为正态分
布)在当时也只是以极限分布的形式出现,并没有在统计学,尤其是误差分析中发挥作用, 这也就是正态分布最终没有被冠名棣莫弗分布的重要原因。那高斯做了哈了不起的工作导 致统计学家把正态分布的这顶桂冠戴在了他的头上呢?这先得从最小二乘法的发展说起。 三、最小二乘法,数据分析的瑞士军刀 第二个故事的主角是歌拉(Euler),拉普拉斯(Lapalace),勒让德(Legendre)和 高斯(Guss),故事发生的时间是十八世纪中到十九世纪初。十七、十八世纪是科学发展 的黄金年代,微积分的发展和牛顿万有引力定律的建立,直接的推动了天文学和测地学的 迅猛发展。当时的大科学家们都在考虑许多天文学上的问题。几个典型的问题如下: 。土星和木星是太阳系中的大行屋,由于相互吸引对各自的运动轨道产生了影响, 许多大数学家,包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土里和木星的 运行轨道。 ·物让德承担了一个政府给的重要任务,测量通过巴黎的子午线的长度。 ·海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经 纬度。 这些天文学和测地学的问恩,无不涉及到数据的多次测量、分析与计算;十七、十八 世纪的天文观测,也积累了大量的数据需要进行分析和计算。很多年以前,学者们就已经 经验性的认为,对于有误差的测量数据,多次测量取平均是比较好的处理方法。虽然峡乏 理论上的论证,也不断的受到一些人的质疑,取平均作为一种异常直观的方式,已经被使 用了千百年,在多年积累的数据的处理经验中也得到相当程度的验证,被认为是一种良好 的数据处理方法, 【勒让德(Legendre)】
5 布)在当时也只是以极限分布的形式出现,并没有在统计学,尤其是误差分析中发挥作用。 这也就是正态分布最终没有被冠名棣莫弗分布的重要原因。那高斯做了啥了不起的工作导 致统计学家把正态分布的这顶桂冠戴在了他的头上呢?这先得从最小二乘法的发展说起。 三、最小二乘法,数据分析的瑞士军刀 第二个故事的主角是欧拉(Euler),拉普拉斯(Lapalace),勒让德(Legendre)和 高斯(Gauss),故事发生的时间是十八世纪中到十九世纪初。十七、十八世纪是科学发展 的黄金年代,微积分的发展和牛顿万有引力定律的建立,直接的推动了天文学和测地学的 迅猛发展。当时的大科学家们都在考虑许多天文学上的问题。几个典型的问题如下: • 土星和木星是太阳系中的大行星,由于相互吸引对各自的运动轨道产生了影响, 许多大数学家,包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的 运行轨道。 • 勒让德承担了一个政府给的重要任务,测量通过巴黎的子午线的长度。 • 海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经 纬度。 这些天文学和测地学的问题,无不涉及到数据的多次测量、分析与计算;十七、十八 世纪的天文观测,也积累了大量的数据需要进行分析和计算。很多年以前,学者们就已经 经验性的认为,对于有误差的测量数据,多次测量取平均是比较好的处理方法。虽然缺乏 理论上的论证,也不断的受到一些人的质疑,取平均作为一种异常直观的方式,已经被使 用了千百年,在多年积累的数据的处理经验中也得到相当程度的验证,被认为是一种良好 的数据处理方法。 【勒让德(Legendre)】