第7章分析化学中的数据处理 教学目的:用欻理统计的方法处理实验欻据,将会更好地表达结果,既能显示出测量的 精密度,又能表达岀结果的准确度;介绍显著性检验的方法,用于检验样本 值与标准值的比较、两个平均值的比较和可疑值的取舍。 教学重点:总体平均值的估计;t检验法 教学难点:对随机变量正态分布的理解;各种检验法的正确使用,双侧和单侧检验如何 1.总体与样本 总体:在统计学中,对于所考察的对象的全体,称为总体(或母体) 个体:组成总体的每个单元。 样本(子样):自总体中随机抽取的一组测量值(自总体中随机抽取的一部分个体) 样本容量:样品中所包含个体的数目,用n表示。例题: 分析延河水总硬度,依照取样规则,从延河取来供分析用2000m1样品水,这2000m1样品 水是供分析用的总体,如果从样品水中取出20个试样进行平行分析,得到20个分析结果 则这组分析结果就是延河样品水的一个随机样本,样本容量为20。 2.随机变量来自同一总体的无限多个测量值都是随机出现的,叫随机变量。 x=1∑x,=lm∑x(总体平均值),。=2叫(单次测量的平均偏差) 71标准偏差 711总体标准偏差(无限次测量) 一测量次数 712样本标准偏差(有限次测量) (n-1)一自由度 713相对标准偏差 相对标准偏差(变异系数) 相对平均偏差=×100% 714标准偏差与平均偏差 当测定次数非常多(n大于20)时,S=0.797a≈0.8,但是d≠008S 715平均值的标准偏差 统计学可证明平均值的标准偏差与单次测量结果的标准偏差存在下列关系: 0=,6=2(无限次测量)增加测定次数,可使平均值的标准偏差减少,但 测定次数增加到一定程度时,这种减少作用不明 显,因此在实际工作中,一般平行测定34次即可: s=},d2=(有限次测量)当要求较高时,可适当增加平行测量次数 √n
1 第7章 分析化学中的数据处理 教学目的:用数理统计的方法处理实验数据,将会更好地表达结果,既能显示出测量的 精密度,又能表达出结果的准确度;介绍显著性检验的方法,用于检验样本 值与标准值的比较、两个平均值的比较和可疑值的取舍。 教学重点:总体平均值的估计;t 检验法 教学难点:对随机变量正态分布的理解;各种检验法的正确使用,双侧和单侧检验如何 查表。 1.总体与样本 总体:在统计学中,对于所考察的对象的全体,称为总体(或母体)。 个体:组成总体的每个单元。 样本(子样):自总体中随机抽取的一组测量值(自总体中随机抽取的一部分个体)。 样本容量:样品中所包含个体的数目,用 n 表示。例题: 分析延河水总硬度,依照取样规则,从延河取来供分析用 2000ml 样品水,这 2000ml 样品 水是供分析用的总体,如果从样品水中取出 20 个试样进行平行分析,得到 20 个分析结果, 则这组分析结果就是延河样品水的一个随机样本,样本容量为 20。 2.随机变量 来自同一总体的无限多个测量值都是随机出现的,叫随机变量。 1 x xi n = , 1 lim i n x n → = (总体平均值), x n − = (单次测量的平均偏差) 7.1 标准偏差 7.1.1 总体标准偏差(无限次测量) ( ) 2 1 n i i x n = − = n-测量次数 7.1.2 样本标准偏差(有限次测量) 2 1 ( ) 1 n i i x x S n = − = − (n-1)-自由度 7.1.3 相对标准偏差 相对标准偏差(变异系数) 100% s CV x = 100% d x 相对平均偏差 = 7.1.4 标准偏差与平均偏差 当测定次数非常多(n 大于 20)时, = 0.797 0.8 ,但是 d S 00.8 7.1.5 平均值的标准偏差 统计学可证明 平均值的标准偏差与单次测量结果的标准偏差存在下列关系: x n = , x n = (无限次测量) x s s n = , x d d n = (有限次测量) 增加测定次数,可使平均值的标准偏差减少,但 测定次数增加到一定程度时,这种减少作用不明 显,因此在实际工作中,一般平行测定 3-4 次即可; 当要求较高时,可适当增加平行测量次数 <例>
7.2随机误差的正态分布 72.1频数分布 频数:每组中数据的个数 相对频数:频数在总测定次数中所占的分数。 频数分布直方图:以各组分区间为底,相对频数为高做成的一排矩形。 特点 1.高散特性:测定值在平均值周围波动。波动的程度用总体标准偏差σ表示 2.集中趋势:向平均值集中。用总体平均值μ表示。在确认消除了系统误差的前提下, 总体平均值就是真值。 722正态分布(无限次测量) 1.正态分布曲线:如果以ⅹ-μ(随机误差)为横坐标,曲线最高点横坐标为O,这时表示的 是随机误差的正态分布曲线。y=f(x)= az°2,记为:N(,a2), u-决定曲线在X轴的位置 σ一决定曲线的形状,σ小→曲线高、陡峭,精密度好:σ→曲线低、平坦,精密度差。 随机误差符合正态分布:(1)大误差出现的几率小,小误差出现的几率大 (2)绝对值相等的正负误差出现的几率相等 (3)误差为零的测量值出现的几率最大。 (4)x=时的概率密度为y==2兀 2.标准正态分布N(0,1) 令 y=f(x) e2→y=Φ(u) 7.23随机误差的区间概率 所有测量值出现的概率总和应为1,即P(-∞,+∞)= e 202 dx=1 求变量在某区间出现的概率,P(a,b)= 概率积分表,p248。注意:表中列出的是单侧概率,求土u间的概率,需乘以2 随机误差出现的区间 测量值出现的区间 概率 u=±1 x=u+lo 0.3413×2=68.26% 0.4773×2=95.46% 0.4987×2=99.74% 结论 1随机误差超过3的测量值出现的概率仅占0.3% 2当实际工作中,如果重复测量中,个别数据误差的绝对值大于3σ,则这些测量值可舍去。 <例>例:已知某试样中Fe的标准值为378%,σ=0.10,又已知测量时没有系统误差, 求1)分析结果落在(3.78±0.20)%范围内的概率;2)分析结果大于4.0%的概率 解:1) 20查表,求得概率为2*04773=0.9546=9546% 2)分析结果大于40%的概率,==400-378=2,查表求得分析结果落在 0.10 3.78-400%以内的概率为04861,那么分析结果大于400%的概率为05000-04861=1.39% 2
2 7.2 随机误差的正态分布 7.2.1 频数分布 频数:每组中数据的个数。 相对频数:频数在总测定次数中所占的分数。 频数分布直方图:以各组分区间为底,相对频数为高做成的一排矩形。 特点: 1. 离散特性:测定值在平均值周围波动。波动的程度用总体标准偏差表示。 2. 集中趋势:向平均值集中。用总体平均值表示。在确认消除了系统误差的前提下, 总体平均值就是真值。 7.2.2 正态分布(无限次测量) 1.正态分布曲线:如果以 x-(随机误差)为横坐标,曲线最高点横坐标为 0,这时表示的 是随机误差的正态分布曲线。 ( ) 2 2 2 1 ( ) 2 x y f x e − − = = , 记为:N(,2), -决定曲线在 X 轴的位置 -决定曲线的形状,小→曲线高、陡峭,精密度好;→曲线低、平坦,精密度差。 随机误差符合正态分布:(1) 大误差出现的几率小,小误差出现的几率大; (2) 绝对值相等的正负误差出现的几率相等; (3) 误差为零的测量值出现的几率最大。 (4) x=时的概率密度为 1 2 yx = = 2.标准正态分布 N(0,1) 令 x u − = , ( ) 2 2 2 2 1 1 ( ) 2 2 u u y f x e y u e − − = = = = 7.2.3 随机误差的区间概率 所有测量值出现的概率总和应为 1,即 2 2 2 1 ( , ) 1 2 u P e dx + − − − + = = 求变量在某区间出现的概率, 2 2 2 1 ( , ) 2 u b a P a b e dx − = 概率积分表,p248。注意:表中列出的是单侧概率,求u 间的概率,需乘以 2。 随机误差出现的区间 测量值出现的区间 概率 u=1 x=1 0.3413×2=68.26% u=2 x=2 0.4773×2=95.46% u=3 x=3 0.4987×2=99.74% 结论: 1.随机误差超过 3的测量值出现的概率仅占 0.3%。 2.当实际工作中,如果重复测量中,个别数据误差的绝对值大于 3,则这些测量值可舍去。 <例>例:已知某试样中 Fe 的标准值为 3.78%,=0.10,又已知测量时没有系统误差, 求 1)分析结果落在(3.78±0.20)%范围内的概率;2)分析结果大于 4.0%的概率。 解:1) 0.20 2.0 0.10 x u u − = = = 查表,求得概率为 2*0.4773=0.9546 =95.46% 2)分析结果大于 4.0%的概率, 4.00 3.78 2.2 0.10 x u u − − = = = ,查表求得分析结果落在 3.78-4.00%以内的概率为 0.4861,那么分析结果大于 4.00%的概率为 0.5000-0.4861=1.39%
7.3少量数据的统计处理 731t分布曲线(有限次测量中随机误差服从t分布 有限次测量,用S代替σ,用t代替u 置信度(P):表示的是测定值落在μ±S:范围内的概率,当fo,t即为u 显著性水平(a)=1-P:表示测定值落在μ±S范围之外的概率。 t值与置信度及自由度有关,一般表示为n,见p250,表7-3(双侧表) 7.32平均值的置信区间=x±1 意义:表示在一定的置信度下,以平均值为中心,包括总体平均值的范围。 从公式可知只要选定置信度P,根据P(或α)与f即可从表中查出ta,f值,从测定 的x,s,n值就可以求出相应的置信区间。 <例>分析某固体废物中铁含量得如下结果:x=1578%,s=0.03%,n=4,求 1)置信度为95%时平均值的置信区间:2)置信度为99%时平均值的置信区间解:置信 度为95%,查表得10.05,3=3.18,那么H=x±tF=15.78±318003=1578±005% 置信度为99%,查表得10.05,3=584,那么川=xt=1578±584×n=1578±009 对上例结果的理解: 1.正确的理解:在15.78±0.05%的区间内,包括总体平均值的μ的概率为95% 2.错误的理解:a.未来测定的实验平均值有95%落入15.7840.05%区间内 b.真值落在15.78±0.05%区间内的概率为95% 从该例可以看出,置信度越高,置信区间越大。 例1下列有关置信区间的定义中,正确的是 a.以真值为中心的某一区间包括测定结果的平均值的几率 Vb.在一定置信度时,以测量值的平均值为中心的包括总体平均值的范围 C.真值落在某一可靠区间的几率;d.在一定置信度时,以真值为中心的可靠范围。 例2某试样含Cˉ的质量分数的平均值的置信区间为36.45%±0.10%(置信区间90%),对此 结果应理解为: a.有90%的测量结果落在36.45%±0.10%范围内;b.总体平均值μ落在此区间的概率为90%; C.若再作一次测定,落在此区间的概率为90%:vd.在此区间内,包括总体平均值μ的把握 为90% 7.3.3显著性检验 判断是否存在系统误差。 1。t检验:不知道σ,检验x与u,x与x2
3 7.3 少量数据的统计处理 7.3.1 t 分布曲线(有限次测量中随机误差服从 t 分布) 有限次测量,用 S 代替,用 t 代替 u x x x t n s s − − = = 置信度(P):表示的是测定值落在 x tS 范围内的概率,当 f→,t 即为 u 显著性水平()=1-P:表示测定值落在 x tS 范围之外的概率。 t 值与置信度及自由度有关,一般表示为 , f t ,见 p250,表 7-3(双侧表) 7.3.2 平均值的置信区间 S x t n = 意义:表示在一定的置信度下,以平均值为中心,包括总体平均值的范围。 从公式可知只要选定置信度 P,根据 P(或)与 f 即可从表中查出 t,f 值,从测定 的 x ,s,n 值就可以求出相应的置信区间。 <例>分析某固体废物中铁含量得如下结果: x =15.78%,s=0.03%,n=4,求 1)置信度为 95%时平均值的置信区间;2)置信度为 99%时平均值的置信区间解:置信 度为 95%,查表得 t0.05,3=3.18,那么 0.03 15.78 3.18 15.78 0.05% 4 S x t n = = = 置信度为 99%,查表得 t0.05,3=5.84,那么 0.03 15.78 5.84 15.78 0.09% 4 S x t n = = = 对上例结果的理解: 1.正确的理解:在 15.78±0.05%的区间内,包括总体平均值的的概率为 95%。 2.错误的理解:a.未来测定的实验平均值有 95%落入 15.78±0.05%区间内 b.真值落在 15.78±0.05%区间内的概率为 95% 从该例可以看出,置信度越高,置信区间越大。 例 1 下列有关置信区间的定义中,正确的是: a.以真值为中心的某一区间包括测定结果的平均值的几率; b.在一定置信度时,以测量值的平均值为中心的包括总体平均值的范围 c.真值落在某一可靠区间的几率;d.在一定置信度时,以真值为中心的可靠范围。 例 2 某试样含 Cl-的质量分数的平均值的置信区间为 36.45%±0.10%(置信区间 90%),对此 结果应理解为: a.有90%的测量结果落在36.45%±0.10%范围内;b.总体平均值落在此区间的概率为90%; c.若再作一次测定,落在此区间的概率为 90%;d.在此区间内,包括总体平均值的把握 为 90% 7.3.3 显著性检验 判断是否存在系统误差。 1。t 检验:不知道,检验 x与, x x 1 2 与
(1)比较平均值与标准值,统计量r= (s=s小)t>t表,有显著差异,否则无 2!比较飞与统计量下-「 (n1-1)S2+(n2-1)S2 2.F检验:比较精密度,即方差S1和S2,F表为单侧表 统计量F=F>F表,有显著差异,否则无 <例>一碱灰试样,用两种方法测得其中Na2CO3结果如下方法1 x=42.34,s=0.10,n=5方法2:x2=42442=012,n2=4 解:先用F检验S1与s2有无显著差异:F计算= 144 查表74,得F表=659,因F计算<F表,因此s1与s2无显著差异用t检验法检验ⅹ与x2 42.34-42445×4 149 n1+n2 查表73,f=5+42=7,P=95%,得:t表=236,则t计算<t表,因此,无显著差异 734异常值的取舍 1.4d法(简单,但误差大) 依据:随机误差超过3σ的测量值出现的概率是很小的,仅占0.3%。δ=0.80σ,3σ≈46 偏差超过46的个别测定值可以舍去。 方法:a求出x与平均偏差。|x->4d,则测定值x可以舍去 2格鲁布斯( Grubbs)法 步骤:(1)数据由小到大排列,求出x与s。x1,x2…xn ()统计量TT=xx(x1为可疑值)T=x-x(x为可疑值) (3)将T与表值Tan比较,T>兀an,舍去 3.Q检验法 步骤:(1)数据由小到大排列。 2)算统计量Q=5-(为可疑值)Q=5(为可疑值)(Qn=m-x xmax -m (3)比较Q计算和Q表(Q,n),若Q计算>Q表,舍去,反之保留。<例10、11 分别用三种检验法来判断140这个数据是否应该保留
4 (1)比较平均值与标准值,统计量 x t n S − = (s=s 小) t>t 表,有显著差异,否则无。 (2)比较 x x 1 2 与 2 2 2 2 1 2 1 2 1 2 ( 1) ( 1) 2 n S S n n n n − − + − = + + − 1 2 1 1 2 x x n n n 统计量 t= S S 2.F 检验:比较精密度,即方差 S1和 S2,F 表为单侧表 统计量 2 2 s F s = 大 小 F>F 表,有显著差异,否则无。 <例>一碱灰试样,用两种方法测得其中 Na2CO3 结果如下 方法 1: x s n 1 1 1 = = = 42.34 0.10 5 , , 方法 2: x s n 2 2 2 = = = 42.44 0.12 4 , , 解:先用 F 检验 s1 与 s2 有无显著差异: ( ) ( ) 2 2 2 2 0.12 1.44 0.10 s F s = = = 大 计算 小 查表 7-4,得 F 表=6.59,因 F 计算< F 表,因此 s1 与 s2 无显著差异用 t 检验法检验 x x 1 2 与 1 2 1 2 1 2 42.34 42.44 5 4 1.49 0.10 5 4 x x n n t s s s n n − − = = = = + + 计算 ( 小) 查表 7-3,f=5+4-2=7,P=95%,得:t 表=2.36 ,则 t 计算< t 表,因此,无显著差异。 7.3.4 异常值的取舍 1. 4d 法(简单,但误差大) 依据:随机误差超过 3的测量值出现的概率是很小的,仅占 0.3%。=0.80,34。 偏差超过 4的个别测定值可以舍去。 方法:a. 求出 x 与平均偏差 d 。 x x d − 4 ,则测定值 x 可以舍去。 2.格鲁布斯(Grubbs)法 步骤:(1)数据由小到大排列,求出 x 与 s。x1,x2……xn (2) 统计量 T x x1 T s − = (x1 为可疑值) x x n T s − = (xn 为可疑值) (3)将 T 与表值 Ta,n 比较,T>Ta,n,舍去。 3.Q 检验法 步骤:(1)数据由小到大排列。 (2)计算统计量 1 2 1 1 1 ( x n n n n n x x x x Q x Q x x x x − − − = = − − 为可疑值) ( 1为可疑值) ( max min x x Q x x − = − 可疑 邻近 计算 ) (3)比较 Q 计算和 Q 表(QP,n),若 Q 计算>Q 表,舍去,反之保留。 <例 10、11> 分别用三种检验法来判断 1.40 这个数据是否应该保留
7.4误差的传递 分析结果通常是经过一系列测量步骤之后获得的,其中每一步骤的测量误差都会反映到 分析结果中去。设分析结果F由测量值A、B、C计算获得,测量值的系统误差分别为DA、 DB、DC,标准偏差分别为sA、$B、S。ki为常数。 7.4.1系统误差的传递 1.加减法 2.乘除法 ( 1Y=k+kaA+k,B+kcc, (2)y=mAB Ar-A+ AB-AC △Y=ka△A+kb△B+k△C C’YABC 3.指数关系 4.对数关系 7.4.2随机误差的传递 1.加减法 2.乘除法 (1)Y=k+kaA+kbB-kc, afc 3.指数关系 4.对数关系 (3)y=m4,5 (4)Y=mlg A, Sy=0.434m4 7.4.3极值误差 (1Y=k+k,A+k,B-kc Ey_=kas +keB+ksc (2)Y=m AB Ey_EA_EB 7.5回归分析法 7.5.1一元线性回归方程 式中x,y分别为x和y的平均值,a为直线的截矩,b为直线的斜率,它们的值确定之后, y=a+bx,+e y b》x g=∑(-a-bx 2∑x(y-a-bx)= -2∑(y ∑(x-x) 元线性回归方程及回归直线就定了 2相关系数
5 7.4 误差的传递 分析结果通常是经过一系列测量步骤之后获得的,其中每一步骤的测量误差都会反映到 分析结果中去。设分析结果 Y 由测量值 A、B、C 计算获得,测量值的系统误差分别为 DA、 DB、DC,标准偏差分别为 sA、sB、sC。ki 为常数。 7.4.1 系统误差的传递 1.加减法 2.乘除法 3.指数关系 4.对数关系 7.4.2 随机误差的传递 1.加减法 2.乘除法 3.指数关系 4.对数关系 7.4.3 极值误差 7.5 回归分析法 7.5.1 一元线性回归方程 式中 x,y 分别为 x 和 y 的平均值,a 为直线的截矩,b 为直线的斜率,它们的值确定之后, 一元线性回归方程及回归直线就定了。 2 相关系数 y bx n y b x a n i i n i i = − − = =1 =1 i i i y = a +bx + e = = − − − = n i i n i i i x x x x y y b 1 2 1 ( ) ( )( ) Q yi a bxi i n = − − = ( ) 2 1 = = − − − = n i i i a bxi x y b Q 1 2 ( ) 0 = = − − − = n i i i y a bx a Q 1 2 ( ) 0 Y k A k B k C Y k k A k B k C a b c a b c = + + (1) = + + + , C C B B A A Y Y C AB Y m − + = (2) = , A A n Y Y Y mAn = (3) = , A A Y m A Y m (4) = lg , = 0.434 2 2 2 2 2 2 2 1 Y a A b B c C a b c s k s k s k s Y k k A k B k C = + + () = + + − , 2 2 2 2 2 2 2 2 2 , C s B s A s Y s C AB Y m Y A B C ( ) = = + + 2 2 2 2 2 3 , A s n Y s Y mAn Y A ( ) = = A s Y m A s m A Y (4) = lg , = 0.434 Y a A b B c C a b c k k k Y k k A k B k C = + + = + + − max (1) , C Y A B C AB Y m Y A B C (2) = , = + +