第四章环境规划与管理的数学基础 第一节环境数据处理方法 数据的表示方法 列表法 对应起来 它通常是整理数据的第 能为标绘曲线图或 整理成数学公式打下基础 将数据用图形表示出来,它能用 步数学模型的建立提供依捷 列表法 例:研究电阻的阻值与温度的关系时,测试结果如下 测量序号 温度t/℃ 电阻R/9 10.5 10.42 2 29.4 10.92 42.7 32 4 60.0 11.80 5 75.0 12.24 6 91.0 12.67 2、图示法 ■图示法的第一步就是按列表法的要求列出因变 量y与自变量x相对应的y;与x;数据表格 ■作曲线图时必须依据一定的法则,只有遵守这 些法则,才能得到与实验点位置偏差最小而光 滑的曲线图形 坐标纸的选择--常用的坐标系为直角坐标系, 包括笛卡尔坐标系(又称普通直角坐标系) 半对数坐标系和对数坐标系 半对数坐标系 粒径d/um
第四章 环境规划与管理的数学基础 第一节 环境数据处理方法 一、数据的表示方法 1、列表法 例:研究电阻的阻值与温度的关系时,测试结果如下: 2、图示法 ◼ 图示法的第一步就是按列表法的要求列出因变 量y与自变量x相对应的yi与xi数据表格。 ◼ 作曲线图时必须依据一定的法则,只有遵守这 些法则,才能得到与实验点位置偏差最小而光 滑的曲线图形。 ◼ 坐标纸的选择--常用的坐标系为直角坐标系, 包括笛卡尔坐标系(又称普通直角坐标系)、 半对数坐标系和对数坐标系。 • 半对数坐标系 测量序号 温度t/℃ 电阻R/Ω 1 10.5 10.42 2 29.4 10.92 3 42.7 11.32 4 60.0 11.80 5 75.0 12.24 6 91.0 12.67
来标的示值(x)0 4s678910 2003004 坐标示值的对數值(1gx 半对数坐标的标度法 一个轴是分度均匀的普通坐标轴,另一个轴是分度不均匀的对数坐标轴。 右图中的横坐标轴(轴)是对数坐标。在此轴上,某点与原点的实际距离为该点对应数的 对数值,但是在该点标出的值是真数。为了说明作图的原理,作一条平行于横坐标轴的对数 数值线 3、插值法计算数值 (1)作图插值法 例:用分光光度计法测定溶液中铁的含量,测得标准曲线数据如下: Fe(μg/mL)2 吸光度(A)0.0970.2000.3040.4080.5100.613 测得未知液的吸光度为0.413,试求未知液中铁的含量 在图的纵坐标上0.413处找到直线上对应点,读出其对应的横坐标即为未知液中铁的含量 8.122 (2)比例法 工作曲线 0.7 0.0516x-0.0061 00000 543210 4 8 12 14 Fe的浓度(ug/mL)
• 一个轴是分度均匀的普通坐标轴,另一个轴是分度不均匀的对数坐标轴。 • 右图中的横坐标轴(x轴)是对数坐标。在此轴上,某点与原点的实际距离为该点对应数的 对数值,但是在该点标出的值是真数。为了说明作图的原理,作一条平行于横坐标轴的对数 数值线。 3、插值法计算数值 (1)作图插值法 例:用分光光度计法测定溶液中铁的含量,测得标准曲线数据如下: Fe (μg/mL) 2 4 6 8 10 12 吸光度(A) 0.097 0.200 0.304 0.408 0.510 0.613 测得未知液的吸光度为0.413,试求未知液中铁的含量。 在图的纵坐标上 0.413 处找到直线上对应点,读出其对应的横坐标即为未知液中铁的含量 8.122 (2)比例法 半对数坐标的标度法 工作曲线 y = 0.0516x - 0.0061 R 2 = 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 2 4 6 8 1 0 1 2 1 4 Fe的浓度(μg/mL) 吸光度(A)
(3)牛顿内插公式 一般的非线性函数都可以展开为多项式 例:制作y=2+x+x 的查分表。 5 224 表中Δy表示y的依次差值,Δy2表示y的差值的差值, 以此类推。 在上面的例子中,x的差值为1,实际上x的差值可以为任 意恒量,令此恒量为h,做出差分表的通式。 ya+A Ava a+4 da=ya+A-岁 A-ya- 4ya+A-4 ="-a+A (二)数据特征 ■数据特征是对环境总体状况进行估计判断的基础,是认识数据理论特性的基本出发点,通常 可分为以下三类 位置特征数:表示数据集中趋势或刻画频数分布图中心位置的特征数 离散特征数:用来描述数据分散程度; ■分布形态特征数:刻划了根据所获数据绘制的分布曲线图的形态 1.位置特征数 (1)算术平均数: ∑x 式中:x1,x2 为样本个体数据,n为样本个数 (2)加权平均数 如果样本个体数据x,x2,…,x取值因频数不同或对总体重要性有所差别,则常 Wx v1+w2+…+Wn
(3)牛顿内插公式 一般的非线性函数都可以展开为多项式 (二)数据特征 ◼ 数据特征是对环境总体状况进行估计判断的基础,是认识数据理论特性的基本出发点,通常 可分为以下三类: ◼ 位置特征数:表示数据集中趋势或刻画频数分布图中心位置的特征数; ◼ 离散特征数:用来描述数据分散程度; ◼ 分布形态特征数:刻划了根据所获数据绘制的分布曲线图的形态。 1. 位置特征数 (1)算术平均数: 式中:x1, x2, …, xn 为样本个体数据,n 为样本个数 (2)加权平均数 如果样本个体数据x1, x2, …, xn取值因频 数不同或对总体重要性有所差别,则常 n x n x x x x n i i n = = + + + = 1 2 1 = = = + + + + + + = n i i n i i i n n n w w w x w w w w x w x w x x 1 1 1 2 1 1 2 2
采取加权平均方法。 式中:wi是个体数据出现频数,或是因该个体对样本贡献不同而取的不同的数值。 (3)几何平均数 x=x2…xn=(x2…x (4)调和平均数 (5)中位数 ■环境数据有时显得比较分散,甚至个别的数据离群偏远,难以判断去留,这时往往用到中位 数 样本数据依次排列(从大到小或者从小到大)居中间位置的数即为中位数,若数据个数为偶 数,则中位数为正中两个数的平均值 ■只有当数据的分布呈正态分布时,中位数才代表这组数据的中心趋向,近似于真值 1.位置特征数 ■环境统计中常常用到几何平均数 不同的平均值都有各自适用场合,选择的平均数指标应能反映数据典型水平,并非随意采用。 几何平均直径: d2=(d1"d2.ad3 或 n Ind d,=exp( 2.离散特征数 (1)级差(全距):R=max{xk}-min{xx (2)差方和,样本方差和样本标准差 差方和:S (xx-x)2=∑x2 样本标准差:S (3)变异系数:C 分布形态特征数
采取加权平均方法。 式中:wi是个体数据出现频数,或是因该个体对样本贡献不同而取的不同的数值。 (5)中位数 ◼ 环境数据有时显得比较分散,甚至个别的数据离群偏远,难以判断去留,这时往往用到中位 数。 ◼ 样本数据依次排列(从大到小或者从小到大)居中间位置的数即为中位数,若数据个数为偶 数,则中位数为正中两个数的平均值。 ◼ 只有当数据的分布呈正态分布时,中位数才代表这组数据的中心趋向,近似于真值。 1. 位置特征数 ◼ 环境统计中常常用到几何平均数。 不同的平均值都有各自适用场合,选择的平均数指标应能反映数据典型水平,并非随意采用。 几何平均直径: 2. 离散特征数 3. 分布形态特征数 1 2 3 1 / g 1 2 3 p g ( ...) ln exp( ) = = 或 n n n N i i d d d d n d d N
刻划数据分布形态的特征数有两个:偏态系数和峰态系数 (1)偏态系数:主要描述数据频率分布对称特征,反映数据是对称分布或偏向某方向 (410) (n-1)(n-2)S (2)峰态系数:描述数据分布陡峭程度 C n2-2n+3 32n-3) (x2-x) (411 (n-1)(n-2n-3)s4mn-1)-2)mn-3)s 式中:S为样本标准差 、异常数据的剔除 ■在处理实验数据的时候,我们常常会遇到个别数据偏离预期或大量统计数据结果的情况,如 果我们把这些数据和正常数据放在一起进行统计,可能会影响实验结果的正确性,如果把这 些数据简单地剔除,又可能忽略了重要的实验信息。这里重要的问题是如何判断异常数据, 然后将其剔除。判断和剔除异常数据是数据处理中的一项重要任务,目前的一些方法还不是 十分完善,有待进一步研究和探索。 目前人们对异常数据的判别与剔除主要采用物理判别法和统计判别法两种方法。 物理判别法就是根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成 实测数据偏离正常结果,在实验过程中随时判断,随时剔除 ■统计判别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于 随机误差范围,将其视为异常数据剔除 剔除异常数据实质上是区别异常数据由偶然误差还是系统误差造成的问题 若是人为因素的偶然误差就应剔除,如果没有足够的理由证实是偶然过失造成的时候,应对 数据进行统计处理,采用一定的检验方法来决定取舍。 本节着重介绍统计判别法 1.拉依达准则 若可疑数据xp与样本数据之算术平均值的偏差的绝对值大于3倍(2倍)的标准偏差,即 ld=xn->3或成2s 则应将xp从该组数据中剔除,至于选择3s还是2s与显著性水平a有关,显著性水平a表示的 是检验出错的几率为α,或检验的可置信度为1-a。3s相当于显著水平=0.01,2s相当于显 著水平=0.05。 2.格拉布斯准则 用格拉布斯准则检验可疑数据x时,选取一定的显著性水平α,若:
二、异常数据的剔除 ◼ 在处理实验数据的时候,我们常常会遇到个别数据偏离预期或大量统计数据结果的情况,如 果我们把这些数据和正常数据放在一起进行统计,可能会影响实验结果的正确性,如果把这 些数据简单地剔除,又可能忽略了重要的实验信息。这里重要的问题是如何判断异常数据, 然后将其剔除。判断和剔除异常数据是数据处理中的一项重要任务,目前的一些方法还不是 十分完善,有待进一步研究和探索。 ◼ 目前人们对异常数据的判别与剔除主要采用物理判别法和统计判别法两种方法。 ◼ 物理判别法就是根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成 实测数据偏离正常结果,在实验过程中随时判断,随时剔除。 ◼ 统计判别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于 随机误差范围,将其视为异常数据剔除。 ◼ 剔除异常数据实质上是区别异常数据由偶然误差还是系统误差造成的问题。 ◼ 若是人为因素的偶然误差就应剔除,如果没有足够的理由证实是偶然过失造成的时候,应对 数据进行统计处理,采用一定的检验方法来决定取舍。 ◼ 本节着重介绍统计判别法。 1.拉依达准则 若可疑数据 xp 与样本数据之算术平均值的偏差的绝对值大于 3 倍(2 倍)的标准偏差,即: 则应将 xp 从该组数据中剔除,至于选择 3s 还是 2s 与显著性水平α有关,显著性水平α表示的 是检验出错的几率为α,或检验的可置信度为 1-α。3s 相当于显著水平=0.01,2s 相当于显 著水平=0.05。 2. 格拉布斯准则 用格拉布斯准则检验可疑数据xp时,选取一定的显著性水平α ,若: d x x 3s或2s p = p −