第三章分析化学中的误差与数据处理 教学目的: 1.掌握系统误差与随机误差的区别和减免;准确度与精密度的区别、联系与表 示方法 2.熟练掌握有效数字的位数确定及运算规则,会用置信区间和置信概率处理分 析数据。 3.了解随机误差的分布规律,了解t检验和F检验在具体分析中的应用。 教学重点: 1.有效数字及其运算,标准偏差和平均值置信区间的计算 2.t、F检验法的方法与作用,可疑值的取舍, 3.提高分析结果准确度的方法。 教学难点: 1.正态分布的概率范围: 2.平均值的置信区间(如从σ求μ的置信区间,从S求X的置信区间,t分布)。 教学内容: 3.1分析化学中的误差 定量分析的任务:准确测定试样中组分的含量,必须使分析结果具有一定的准确度才能 满足生产、科研等各方面的需要。 本章所要解决的问题:研究误差,找出产生原因;对分析结果进行评价,判断分析结果 的可靠性和准确度。 311误差与偏差 1.误差(E):测量值与真实值之间的差值 E -X-XT 绝对误差( absolute error):Ea=x-xr有大小、正负 相对误差( relative error):Er=Ea/xr×100%有大小、正负(Er小,准确度高) 建立误差概念的意义:为估计真值:xr=x-E 如:分析天平的测量误差为00001g,则ⅹr=x±00001 2.偏差(d):测量值与平均值的差值 ∑d=0 平均偏差():=+14+ ;相对平均偏差=d/x×100% (x-x)2 标准偏差:S n-测量次数;相对标准偏差:S==×100% S是表示偏差的最好方法,数学严格性高,可靠性大,能显示出较大的偏差
第三章 分析化学中的误差与数据处理 教学目的: 1. 掌握系统误差与随机误差的区别和减免;准确度与精密度的区别、联系与表 示方法。 2. 熟练掌握有效数字的位数确定及运算规则,会用置信区间和置信概率处理分 析数据。 3. 了解随机误差的分布规律,了解t检验和 F 检验在具体分析中的应用。 教学重点: 1. 有效数字及其运算,标准偏差和平均值置信区间的计算 2. t、F 检验法的方法与作用,可疑值的取舍, 3. 提高分析结果准确度的方法。 教学难点: 1. 正态分布的概率范围; 2. 平均值的置信区间(如从σ求µ的置信区间,从 S 求 X 的置信区间,t 分布)。 教学内容: 3.1 分析化学中的误差 定量分析的任务: 准确测定试样中组分的含量,必须使分析结果具有一定的准确度才能 满足生产、科研等各方面的需要。 本章所要解决的问题:研究误差,找出产生原因;对分析结果进行评价,判断分析结果 的可靠性和准确度。 3.1.1 误差与偏差 1. 误差(E):测量值与真实值之间的差值 E=x-xT 绝对误差(absolute error):Ea=x-xT 有大小、正负 相对误差(relative error):Er=Ea/xT ×100% 有大小、正负 (Er 小,准确度高) 建立误差概念的意义:为估计真值:xT=x-E。 如:分析天平的测量误差为 0.0001g,则 xT=x ± 0.0001g 2. 偏差(d):测量值与平均值的差值 d=x- x ∑ = di 0 平均偏差( d ): d d d 1 2 ... n d n + + = ; 相对平均偏差= d / x ×100% 标准偏差: 2 1 ( ) 1 n i i x x S n = − = − ∑ n-测量次数;相对标准偏差: r 100% s S x = × S 是表示偏差的最好方法,数学严格性高,可靠性大,能显示出较大的偏差
偏差也可用全距( Range,R)或称极差表示:R=Xmx-xm,相对极差R/x×100% 312准确度与精密度( accuracy and precision) 1.准确度:表示测量值与真值的接近程度,用误差表示。(用相对误差较好) 2.精密度:表示几次平行测定结果之间的相互接近程度,用偏差表示。重复性,再现性 B A.准确且精密 B.不准确但精密C.准确但不精密D.不准确且不精密 结论:精密度是保证准确度的前提 精密度好,准确度不一定好,可能有系统误差存在 S精密度不好,衡量准确度无意义。 ∈在确定消除了系统误差的前提下,精密度可表达准确度 常量分析要求误差小于0.1~02%。 313系统误差和随机误差 1.系统误差:由某种固定原因造成,使测定结果系统地偏高或偏低。可用校正地方法加以 消除 特点:(1)单向性:要么偏高,要么偏低,即正负、大小有一定地规律性; (2)重复性:同一条件下,重复测定中,重复地出现; (3)可测性:误差大小基本不变 来源:(1)方法误差:(2)仪器和试剂误差:(3)操作误差;(4)主观误差 2.随机误差:由某些不固定偶然原因造成,使测定结果在一定范围内波动,大小、正负不 定,难以找到原因,无法测量。 特点:(1)不确定性:(2)不可避免性。只能减小,不能消除。 (3)每次测定结果无规律性,多次测量符合统计规律。 3.过失、错误 314公差 公差是生产部门对于分析结果允许误差的一种表示方法。如果分析结果超出允许的公差 范围,称为“超差”。 3.15误差的传递(自学) 误差传递规律取决于误差的性质和测量值间的运算方式。计算结果时,是多个测定值传 递,对结果产生影响 1.系统误差的传递 加减法:分析结果的绝对系统误差等于各测量值的绝对系统误差的代数和。 乘除法:分析结果的相对系统误差等于各测量值相对系统误差的代数和
偏差也可用全距(Range, R)或称极差表示:R=xmax-xmin,相对极差 R/ x ×100% 3.1.2 准确度与精密度 (accuracy accuracy accuracy accuracy and precision precision precision precision) 1. 准确度:表示测量值与真值的接近程度,用误差表示。(用相对误差较好) 2. 精密度:表示几次平行测定结果之间的相互接近程度,用偏差表示。 重复性,再现性。 A B C D A. 准确且精密 B. 不准确但精密 C. 准确但不精密 D. 不准确且不精密 结论:精密度是保证准确度的前提 精密度好,准确度不一定好,可能有系统误差存在 精密度不好,衡量准确度无意义。 在确定消除了系统误差的前提下,精密度可表达准确度。 常量分析要求误差小于 0.1~0.2%。 3.1.3 系统误差和随机误差 1. 系统误差:由某种固定原因造成,使测定结果系统地偏高或偏低。可用校正地方法加以 消除。 特点:(1)单向性:要么偏高,要么偏低,即正负、大小有一定地规律性; (2)重复性:同一条件下,重复测定中,重复地出现; (3)可测性:误差大小基本不变。 来源:(1)方法误差;(2)仪器和试剂误差;(3)操作误差;(4)主观误差 2. 随机误差:由某些不固定偶然原因造成,使测定结果在一定范围内波动,大小、正负不 定,难以找到原因,无法测量。 特点:(1)不确定性;(2)不可避免性。只能减小,不能消除。 (3)每次测定结果无规律性,多次测量符合统计规律。 3. 过失、错误 3.1.4 公差 公差是生产部门对于分析结果允许误差的一种表示方法。如果分析结果超出允许的公差 范围,称为“超差”。 3.1.5 误差的传递(自学) 误差传递规律取决于误差的性质和测量值间的运算方式。计算结果时,是多个测定值传 递,对结果产生影响。 1. 系统误差的传递 加减法:分析结果的绝对系统误差等于各测量值的绝对系统误差的代数和。 乘除法:分析结果的相对系统误差等于各测量值相对系统误差的代数和
指数关系:分析结果的相对系统误差等于测量值相对系统误差的指数倍。 对数关系:分析结果的相对系统误差等于测量值相对系统误差的0.434乘系数倍 2.随机误差的传递 加减法:分析结果的标准偏差的平方等于各测定值的标准偏差平方和 乘除法:分析结果的相对标准偏差的平方等于各测定值的相对标准偏差的平方和 指数关系:分析结果的相对标准偏差等于各测定值相对标准偏差的指数倍。 对数关系:分析结果的相对标准偏差等于测定值相对标准偏差的0.434乘系数倍。 3.极值误差:最大可能误差 3.2有效数字及其运算规则 321有效数字:实际上能测到的数字 确定有效数字的原则 1.最后结果只保留一位不确定的数字 2.0-9都是有效数字,但0作为定小数点位置时则不是。 例:00053(二位),0.5300(四位),0.0503(三位),0.5030(四位) 3.首位数字是8,9时,可按多一位处理,如9.83—四位。 例:1.000843181 五位 003821.98×1010三位 0.10000.98% 四位 有效位数不确定 4.倍数、分数关系无限多位有效数字 5.pH、pM、lgc、lgK等对数值,有效数字由尾数决定 例:pM=59Q(二位)[M]=10×105;PH=1034(二位);pH=0.03(二位) 322有效数字的修约规则 1.“四舍六入五成双”例:3.148-3.1,0.736-0.74,755-76 2.当测量值中被修约的数字是5,而其后还有数字时,进位。如:2451-25 3.一次修约。如:134748-13.47 3.23运算规则 1.加减法:以小数点后位数最少的数字为准。绝对误差最大的数 例:0.0121+2564+1.05782=2671:50.1+145+0.5812=521 乘除法:以有效数字位数最少的为准。相对误差最大的数 例:0.0121×2564×1.05782=0328 可以先修约再计算,也可以计算后再修约。(用计算器运算) 33分析化学中的数据处理 331随机误差的正态分布 1.频数分布 频数:每组中数据的个数
指数关系:分析结果的相对系统误差等于测量值相对系统误差的指数倍。 对数关系:分析结果的相对系统误差等于测量值相对系统误差的 0.434 乘系数倍。 2. 随机误差的传递 加减法:分析结果的标准偏差的平方等于各测定值的标准偏差平方和。 乘除法: 分析结果的相对标准偏差的平方等于各测定值的相对标准偏差的平方和。 指数关系:分析结果的相对标准偏差等于各测定值相对标准偏差的指数倍。 对数关系:分析结果的相对标准偏差等于测定值相对标准偏差的 0.434 乘系数倍。 3. 极值误差: 最大可能误差。 3.2 有效数字及其运算规则 3.2.1 有效数字:实际上能测到的数字。 确定有效数字的原则: 1. 最后结果只保留一位不确定的数字。 2. 0-9 都是有效数字,但 0 作为定小数点位置时则不是。 例:0.0053(二位),0.5300(四位),0.0503(三位),0.5030(四位) 3. 首位数字是 8,9 时,可按多一位处理, 如 9.83―四位。 例:1.0008 43181 五位 0.0382 1.98×10-10 三位 0.1000 0.98% 四位 3600 100 有效位数不确定 4. 倍数、分数关系 无限多位有效数字 5. pH、pM、lgc、lgK 等对数值,有效数字由尾数决定。 例: pM=5.00 (二位) [M]=1.0×10-5 ;PH=10.34(二位);pH=0.03(二位) 3.2.2 有效数字的修约规则 1. “四舍六入五成双” 例:3.148-3.1,0.736-0.74,75.5-76 2. 当测量值中被修约的数字是 5,而其后还有数字时,进位。 如:2.451-2.5 3. 一次修约。 如:13.4748-13.47 3.2.3 运算规则 1. 加减法:以小数点后位数最少的数字为准。 绝对误差最大的数 例: 0.0121+25.64+1.05782=26.71; 50.1+1.45+0.5812=52.1 2. 乘除法:以有效数字位数最少的为准。 相对误差最大的数 例: 0.0121×25.64×1.05782=0.328 可以先修约再计算,也可以计算后再修约。(用计算器运算) 3.3 分析化学中的数据处理 3.3.1 随机误差的正态分布 1. 频数分布 频数:每组中数据的个数
相对频数:频数在总测定次数中所占的分数 频数分布直方图:以各组分区间为底,相对频数为高做成的一排矩形 特点: (1)离散特性:测定值在平均值周围波动。波动的程度用总体标准偏差σ表示。 (2)集中趋势:向平均值集中。用总体平均值μ表示。在确认消除了系统误差的前提下, 总体平均值就是真值 2正态分布(无限次测量) (1)正态分布曲线:如果以x-μ(随机误差)为横坐标,曲线最高点横坐标为0,这时表示 的是随机误差的正态分布曲线。 记为:N(μ,a2) y=f(r) G√2丌 μ 一决定曲线在X轴的位置 σ一决定曲线的形状,σ小→曲线高、陡峭,精密度好;σ→曲线低、平坦,精密度差 随机误差符合正态分布:a.大误差出现的几率小,小误差出现的几率大 b.绝对值相等的正负误差出现的几率相等 C.误差为零的测量值出现的几率最大 d.x=u时的概率密度为J=a√2 (2)标准正态分布N(0,1) 令∥=x-,y=f(x) b(u) (3)随机误差的区间概率 所有测量值出现的概率总和应为1,即P,+∞)=的42=1 求变量在某区间出现的概率,P(a,b)= 概率积分表见p57(注意:表中列出的是单侧概率,求土间的概率,需乘以2。) 随机误差出现的区间 测量值出现的区间 概率 0.3413×2=6826% 0.4987×2=9974% 结论: a.随机误差超过3σ的测量值出现的概率仅占0.3% b当实际工作中,如果重复测量中,个别数据误差的绝对值大于3,则这些测量值可舍去 例:已知某试样中Fe的标准值为378%,σ=0.10,又已知测量时没有系统误差, 求1)分析结果落在(3.78±0.20)%范围内的概率;2)分析结果大于40%的概率
相对频数:频数在总测定次数中所占的分数。 频数分布直方图:以各组分区间为底,相对频数为高做成的一排矩形。 特点: (1)离散特性:测定值在平均值周围波动。波动的程度用总体标准偏差σ表示。 (2)集中趋势:向平均值集中。用总体平均值µ表示。在确认消除了系统误差的前提下, 总体平均值就是真值。 2. 正态分布(无限次测量) (1)正态分布曲线:如果以 x-µ(随机误差)为横坐标,曲线最高点横坐标为 0,这时表示 的是随机误差的正态分布曲线。 , 记为:N(µ,σ2), µ -决定曲线在 X 轴的位置 σ-决定曲线的形状,σ小→曲线高、陡峭,精密度好;σ→曲线低、平坦,精密度差。 随机误差符合正态分布:a. 大误差出现的几率小,小误差出现的几率大; b. 绝对值相等的正负误差出现的几率相等; c. 误差为零的测量值出现的几率最大。 d. x=µ时的概率密度为 1 2 yx µ σ π = = (2) 标准正态分布 N(0,1) 令 x u µ σ − = , ( ) 2 2 2 2 1 1 ( ) 2 2 u u y f x e y u e σ π π − − = = ⇒ = Φ = (3) 随机误差的区间概率 所有测量值出现的概率总和应为 1,即 2 2 2 1 ( , ) 1 2 u P e dx σ π +∞ − −∞ −∞ +∞ = = ∫ 求变量在某区间出现的概率, 2 2 2 1 ( , ) 2 u b a P a b e dx σ π − = ∫ 概率积分表见 p57(注意:表中列出的是单侧概率,求±u 间的概率,需乘以 2。) 随机误差出现的区间 测量值出现的区间 概率 u=±1 x=µ±1σ 0.3413×2=68.26% u=±2 x=µ±2σ 0.4773×2=95.46% u=±3 x=µ±3σ 0.4987×2=99.74% 结论: a. 随机误差超过 3σ的测量值出现的概率仅占 0.3%。 b. 当实际工作中,如果重复测量中,个别数据误差的绝对值大于 3σ,则这些测量值可舍去。 例:已知某试样中 Fe 的标准值为 3.78%,σ=0.10,又已知测量时没有系统误差, 求 1)分析结果落在(3.78±0.20)%范围内的概率;2)分析结果大于 4.0%的概率。 ( ) 2 2 2 1 ( ) 2 x y f x e µ σ σ π − − = =
-0020查表,求得概率为204710946546% 2)分析结果大于40%6的概率,团上-24400-378=2,查表求得分析结果落在 0.10 3.78-400%以内的概率为04861,那么分析结果大于400%的概率为0.5000.4861=1.39% 332总体平均值的估计 1.平均值的标准偏差 从总体中分别抽出m个样本各进行n次平行测定,得到m个平均值。可用样本平均值 估计总体平均值,根据统计学方法证明,标准偏差与平均值的标准偏差之间的关系为: 对于无限次测量值则为σ- 2.少量实验数据的统计处理 (1)t分布曲线(有限次测量中随机误差服从t分布) 有限次测量,用S代替σ,用t代替u r-u r-u 置信度(P):表示的是测定值落在μ±S范围内的概率,当f→>∞,t即为u 显著性水平(α)=1-P:表示测定值落在μ±l范围之外的概率。 t值与置信度及自由度有关,一般表示为y,见p61,表3-3(双侧表) (2)平均值的置信区间=x S 意义:表示在一定的置信度下,以平均值为中心,包括总体平均值μ的范围 从公式可知只要选定置信度P,根据P(或α)与f即可从表中查出ta,f值,从测定的 x,s,n值就可以求出相应的置信区间 例:分析某固体废物中铁含量得如下结果:x=15.78%,s=0.03%,m4,求 1)置信度为95%时平均值的置信区间;2)置信度为99%时平均值的置信区间 解:置信度为95%,查表得105,y=31,那么H=x±18=15178±318×03=1578±00% 置信度为99%,查表得05,3=58,那么以===1578±584×=1578±009% 对上例结果的理解 正确的理解:在1578±005%的区间内,包括总体平均值的μ的概率为95%。 错误的理解:a.未来测定的实验平均值有95%落入1578±0.05%区间内 b.真值落在15.78±0.05%区间内的概率为95% 从该例可以看出,置信度越高,置信区间越大
解:1) 0.20 2.0 0.10 x u u σ − = = = 查表,求得概率为 2*0.4773=0.9546 =95.46% 2)分析结果大于 4.0%的概率, 4.00 3.78 2.2 0.10 x u u σ − − = = = ,查表求得分析结果落在 3.78-4.00%以内的概率为 0.4861,那么分析结果大于 4.00%的概率为 0.5000-0.4861=1.39% 3.3.2 总体平均值的估计 1. 平均值的标准偏差 从总体中分别抽出 m 个样本各进行 n 次平行测定,得到 m 个平均值。可用样本平均值 估计总体平均值,根据统计学方法证明,标准偏差与平均值的标准偏差之间的关系为: x s s n = ,对于无限次测量值则为 x n σ σ = 2. 少量实验数据的统计处理 (1)t 分布曲线(有限次测量中随机误差服从 t 分布) 有限次测量,用 S 代替σ,用 t 代替 u x x x t n s s − − µ µ = = 置信度(P):表示的是测定值落在 x µ ± tS 范围内的概率,当 f→∞,t 即为 u 显著性水平(α)=1-P:表示测定值落在 x µ ± tS 范围之外的概率。 t 值与置信度及自由度有关,一般表示为 , f tα ,见 p61,表 3-3(双侧表) (2)平均值的置信区间 S x t n µ = ± 意义:表示在一定的置信度下,以平均值为中心,包括总体平均值µ的范围。 从公式可知只要选定置信度 P,根据 P(或α)与 f 即可从表中查出 tα,f 值,从测定的 x ,s,n 值就可以求出相应的置信区间。 例:分析某固体废物中铁含量得如下结果: x =15.78%,s=0.03%,n=4,求 1)置信度为 95%时平均值的置信区间;2)置信度为 99%时平均值的置信区间 解:置信度为 95%,查表得 t0.05,3=3.18,那么 0.03 15.78 3.18 15.78 0.05% 4 S x t n µ = ± = ± × = ± 置信度为 99%,查表得 t0.05,3=5.84,那么 0.03 15.78 5.84 15.78 0.09% 4 S x t n µ = ± = ± × = ± 对上例结果的理解: 正确的理解:在 15.78±0.05%的区间内,包括总体平均值的µ的概率为 95%。 错误的理解:a. 未来测定的实验平均值有 95%落入 15.78±0.05%区间内 b. 真值落在 15.78±0.05%区间内的概率为 95% 从该例可以看出,置信度越高,置信区间越大