2.2正态分布 22.1分析测试中随机误差的正态分布 在分析测试中,即使在严格控制的试验条件下,对某个样本进行 多次重复测定,由于不可避免的某些随机因素的作用,各次测定值也 不能完全相同,而是在一定的范围内波动 例如,测定某溶液中铜的含量,重复测定共得到60个数据,数据 列在表2-1中。 表2-1涪液中辆含量的测定值(Ppm) 61.065460.059.267.082.567758262962.5 56.560.2168.258.5链4.754,560.559.561.660.3 5.7544B2959.060.360.859.560.061.8638 84.566.361.259.757481.2|60.95.283.059.5 56.059.480 82960.560.861.65.5589805 61.267.863468.981.582.359.861.T64.062T 2-2频数分布衰 组類数|相对频数目分 组频数|榈对频数 540~54.9 2 0.033 61.6~61.9 0.150 5.0~55,9 0.000 62.0~E2.9 0.117 50~58.9 63.0~639 0.050 570~57,9 0.067 64.0~64.9 0.a50 530~589 0.100 65,@~85,9 973311 0.01T 690~59.9 0,183 86.0~66.9 0.017 600~60,9 120,200 总和2 1.000
这些数据骤然看起来似乎杂乱无章,然而,如果将这些表面上看 来杂乱无章的数据进行适当的整理,例如把全部测定值依其大小排 列起来,并按一定间隔分成若干组,数出测定值落在每个组的数目 称为频数)以及相对频数,于是便可得到表2-2所示的频数以及相 对频数分布表。 如果以分组为横坐标,相应的相对频数为纵坐标,画成直方图, 便得到如图2-2的相对频数分布直方图。 020 安010 005 540560580600620640660 64956958960962.9649669 铜浓度/ppm 图2-2相对频数分布直方图 经过这样整理后所得到的频数分布表和相对频数分布直方图, 可明显看到,表2-1中的数据不是杂乱无章的,而是有其规律性 的。虽然不同测定值之间各种大小偏差出现是彼此独立的,互不相关 的,但在全部测定数据中,测定值有明显的集中趋势,大多数测定值 集中在平均值6037ppm的附近。相对于平均值而言,具有各种大 小偏差的测定值都有,但偏差大小相等,符号相反的测定值出现的次 数大致上差不多。偏差小的测定值比偏差较大的测定值的次数要出 现得多一些,而偏差大的测定值出现的次数很少。可以想象得到,如 果测定次数更多,组分得更细,各组相对频数就趋向一个稳定值(该 17
定值称为率),于是图2-1中的相对频数分布直方图逐渐趋于 糸曲线,如图23所示,它反映了测定值随机误差分布的般规律。 0.20 嶽015 0.10 0.05 LYI 54056.058060.062:064.0660 5496958960.9629619669 钢浓度/ppm 图2-3直方图和正态分布曲线 当测定值连续变化时,其随机误差的这种分布特性,可用高斯分 布的正态概率密度函数来表示 e 2 2π 式中是从此分布中随机抽取的样本值。H是相应于正态分布 密度曲线最高点的横坐标称为正态分布的极限平均值,在不存在系 统误差的情况下就是真值,它表示样本值的集中趋势。σ是正态分 布的标准偏差,代表从总体平均a到正态分布曲线上两个拐点中任 何一个的距离,表示样本值的离散特性,e是然对数的底,等于 2,718。 为简便起见,把平均值为μ,标准偏差为σ的正态分布记作为 N(H,o),如果用图形来表示,就得到如图2-3所示的形态分布曲 线,称为随机误差正态分布曲线(或称为高斯分布曲线)。由图2-4 和正态概率密度函数可以看出,集中趋势和离散特性是正态分布的 18
两个基本参数,当给出了平均值和标准偏差,正态外布就完全 被确定了 不管标准偏差为何值,分布 曲线和横坐标之间所夹的总面积就 是概率密度函数在-∞< 间的积分值,它代表具有各种大小 偏差的样本值出现概率的总和,其 值为1。即 a P(-∞<x<c) 图2-4随机误差正态分布曲线 在分布度曲线的最高点,即=H处出现概率的值为√2xG,它 只取决于标准偏差。标准偏差σ越大,落在H处的概率越小;标准 偏差σ越小落在处的概率就越大。从分析测试的观点来看,这 是合乎实际情况的,σ越大,意味着测定精度越差,试验测定值越分 散,分布密度曲线自然拉得越平,P值在处当然越小;反之,越 小,表示测定精度越好,试验测定值越集中,分布密度曲线就越陇,P 值在4处当然越大 对于任何正态分布,它们捋本值m落在区间(a,b)的概率P(a≤ x≤b)等于在横坐标上=4,a=b区间的曲线和横坐标之间所夹的 面积,即 P(a≤≤b)=1 e a dx 2r0 由于这个积分的计算与4和0值有关,计算起来比较麻烦,为了简 便起见,经过一个变换式
而且假定平均值为0,标准偏差0为1,则变为标准正态概率密度 函数: g0() √2π 记为N(0,1),图2-5是表示标准正态分布的示意图。 图2-5标准正态分布P值示意图 此时,对于任何正态分布,样本值c落在(a,b)区间的概率 P(a≤x≤b),可由标准正态分布计算得到: a一 ≤2≤ 2 为了应用方便起见,将标准正态分布制成表的形式(见附录中表A-1 和表A-2)。表A-1中给出相应值的p值。表A-2中给出相应 P值的z值。 从表A-1中很容易计算得 84.13% B 到如图2-6所示的标准正态分布 1359% C 的各个区间中总体的百分数 214% 014% 从图2-6中可得到结论:样 本值c落在区间(-0、4+)、 (-2σ、4+2a)、(4-30、4+图2-6标准正态分布的各个区间 3a)的概率分别为68.26% 中总体的百分数 95.44%、9972%这个结论在分析测试中是非常重要的,而且经常 要用到它。这些概率值表明,在一组测定中,出现偏差大于两倍标准 20