数据处理(讲稿)李江全石河子大学机电学院电气工程教研室-
1 数 据 处 理 (讲 稿) 李江全 石河子大学机电学院电气工程教研室
目录一、统计特征数的计算二、异常数据及其判断三、系统误差的判断四、测量数据的处理方法五、测量结果的表达六、等精度直接测量结果的数据处理步骤七、一元线性回归八、一元非线性回归补充问题1、剔除异常数据的步骤是什么?2、如何绘制实验曲线?实验曲线平滑的基本原则是什么?3、建立经验公式的步骤是什么?4、动态测试数据处理的步骤是什么?5、绘制直方图的步骤是什么?附表1肖维勒准则的临界值表附表2t检验准则的临界值表附表3狄克逊准则的临界值表附表4t分布表附表5最小相关系数表附表6格拉布斯准则的临界值表附表7t分布表附表8F分布临界值表2
2 目 录 一、统计特征数的计算 二、异常数据及其判断 三、系统误差的判断 四、测量数据的处理方法 五、测量结果的表达 六、等精度直接测量结果的数据处理步骤 七、一元线性回归 八、一元非线性回归 补充问题 1、剔除异常数据的步骤是什么? 2、如何绘制实验曲线?实验曲线平滑的基本原则是什么? 3、建立经验公式的步骤是什么? 4、动态测试数据处理的步骤是什么? 5、绘制直方图的步骤是什么? 附表 1 肖维勒准则的临界值表 附表 2 t检验准则的临界值表 附表 3 狄克逊准则的临界值表 附表 4 t 分布表 附表 5 最小相关系数表 附表 6 格拉布斯准则的临界值表 附表 7 t 分布表 附表 8 F 分布临界值表
一、统计特征数的计算在测量中,表示一组测量数据的数学性质的有关数据,通称为统计特征值。它可以分为两大类:一类表示数据分布中心位置的特征值(位置特征参数),如算术平均值、均方根均值、中位数等:一类表示数据的分散程度,如极差、方差、标准差、变异系数等。它们各自表达实验数据的不同特征,是实验数据处理的主要内容。1、算术平均值X--( +, .x .+,)-2Xni算数平均值代表一组测量数据的中心位置,不能表示出数据值的变化情况。2、均方根均值1x-(x+x++x+.+x)=u=1Vnni3、中位数将收集到的测量数据按大小顺序排列,如果数据的个数为奇数时,则排在正中间的那个数就是中位数:如果数据的个数为偶数时,则中位数应是位居中央的那两个数据的算术平均值。4、极差极差是指数据中最大值与最小值之差,即:R= Xmr -Xmin极差虽然表示分散的程度,但不能反映数据的全貌,通常用于n<10的情况。5、方差G2=(X, -X)6、标准偏差及其估计值E(X, -X)2(n<30)E(X, -x)S=(n>30);n-1a=n标准差(均方根差)表示测量数据的变化情况(分散程度)。值大(如图a所示),数据变化剧烈,对应的分布曲线宽而平缓;值小(如图b所示),数据变化较平稳,对应的分布曲线狭窄而高算。3
3 一、统计特征数的计算 在测量中,表示一组测量数据的数学性质的有关数据,通称为统计特征值。 它可以分为两大类:一类表示数据分布中心位置的特征值(位置特征参数),如 算术平均值、均方根均值、中位数等;一类表示数据的分散程度,如极差、方差、 标准差、变异系数等。它们各自表达实验数据的不同特征,是实验数据处理的主 要内容。 1、算术平均值 算数平均值代表一组测量数据的中心位置,不能表示出数据值的变化情况。 2、均方根均值 3、中位数 将收集到的测量数据按大小顺序排列,如果数据的个数为奇数时,则排在正 中间的那个数就是中位数;如果数据的个数为偶数时,则中位数应是位居中央的 那两个数据的算术平均值。 4、极差 极差是指数据中最大值与最小值之差,即: R = X max − X min 极差虽然表示分散的程度,但不能反映数据的全貌,通常用于 n<10 的情况。 5、方差 6、标准偏差及其估计值 标准差(均方根差)表示测量数据的变化情况(分散程度)。σ 值大(如图 a 所示),数据变化剧烈,对应的分布曲线宽而平缓;σ 值小(如图 b 所示),数据 变化较平稳,对应的分布曲线狭窄而高耸。 n Xi − X = 2 ( ) (n>30); 1 ( ) 2 − − = n X X S i (n30) = = + + + + + = n i i n Xi n x x x x n X 1 1 2 1 ( ) 1 = = + + + + + = n i i n Xi n x x x x n u 1 2 2 2 2 2 2 1 1 ( ) 1 = − 2 2 ( ) 1 X X n i
?7、变异系数91ox100%V=x通常,测量较大的东西,绝对误差一般较大,测量较小的东西,绝对误差一般较小,用变异系数来比较这两种误差的差异程度。a8、算术平均值的标准偏差记录曲线和分布曲线0amYn9、算术平均值的变异系数aV-x100%X在试验中所得算术平均值只是母体中部分数据的平均数。母体的数据不可能全部测得,所以只能用一部分数据来代表全部数据,然而这一部分数据能代表全部数据的可靠程度究竞如何呢?和全部数据的平均值相差多少呢?这就要用算术平均值的标准偏差或算术平均值的变异系数来确定。10、必要的读数次数,α.0-允许的误差(%)ae样本特征数与母体特征数(平均值与均方根差)接近的程度与测量次数n有关,n越大,则它们越接近。所以为了使测试结果达到一定的准确度,应有必要的读数次数n。4
4 7、变异系数 通常,测量较大的东西,绝对误差一 般较大,测量较小的东西,绝对误差一 般较小,用变异系数来比较这两种误差 的差异程度。 8、算术平均值的标准偏差 9、算术平均值的变异系数 在试验中所得算术平均值只是母体中部分数据的平均数。母体的数据不可能 全部测得,所以只能用一部分数据来代表全部数据,然而这一部分数据能代表全 部数据的可靠程度究竟如何呢?和全部数据的平均值相差多少呢?这就要用算 术平均值的标准偏差或算术平均值的变异系数来确定。 10、必要的读数次数 样本特征数与母体特征数(平均值与均方根差)接近的程度与测量次数 n 有 关,n 越大,则它们越接近。所以为了使测试结果达到一定的准确度,应有必要 的读数次数 n。 n = = 100% X = 100% X 2 0 ( ) n = ,0-允许的误差(%)
二、异常数据及其判断1、异常数据的含义在一个测量列中,可能出现个别过大或过小的测定值,其数值明显偏离其余观测值,这种包含巨大误差的测定值,通常称为异常数据,又称坏值。在重复试验过程中,得到一系列测量值,如果混杂有坏值,则必然会曲测量结果,造成极大的误差。因此,必须在各个测量值中找出坏值,并舍弃之,直到无坏值时,才可进行有关的数据处理而得到正确的结果。在测量或实验过程中,如发现读错、记错数据,或因仪器及工作条件突然变化而造成明显的错误时,应该及时纠正或舍弃有关数据,但严格说来,原始数据必须实事求是地记录,并注明有关情况。在整理数据时,再舍弃上述有明显错误的数据。异常数据往往是由过失误差引起的,也可能是由巨大的随机误差引起的。异常数据的取舍必须分慎重。有的异常测量值的出现,可能客观地反映了测量过程中的某种随机波动性,例如,可能预示着电路产生间歇振荡、接触不良、某个元件即将损坏、仪器工作不稳定等,有时甚至可能预示着一种新的物理现象将被发现,可见对异常测量值不应该为了追求数据的一致性而轻易舍去。如果有充分的根据可以判定异常数据是由过失误差引起的,则应予舍弃。对于原因不明的异常数据,只能用统计学的准则决定取舍。用统计学的方法决定异常数据的取舍,其基本思想是:数值超过某一界限的测定值(或残差)出现的概率很小,是个小概率事件。如果在一个容量不大的测量列中居然出现了这种测定值,则有理由认为,这是由过失误差引起的异常数据,因而予以舍弃。对异常数据,除了设法从测量结果中发现、判断和鉴别而加以剔除外,更重要的是要加强测量工作者的工作责任心和以严格的科学态度对待测量工作:此外还要保证测量条件的稳定,应避免在外界条件发生激烈变化时进行测量。2、异常数据判断准则异常数据的判断(取舍)准则有:来伊达准则(3α准则)、格拉布斯准则、肖维勒准则、t检验准则(罗曼诺夫斯基准则)和狄克逊准则。1)来依送准则(3g准则)由概率积分表可知,服从正态分布的随机误差超出3α(置信概率P=0.9973)5
5 二、异常数据及其判断 1、异常数据的含义 在一个测量列中,可能出现个别过大或过小的测定值,其数值明显偏离其余 观测值,这种包含巨大误差的测定值,通常称为异常数据,又称坏值。 在重复试验过程中,得到一系列测量值,如果混杂有坏值,则必然会歪曲测 量结果,造成极大的误差。因此,必须在各个测量值中找出坏值,并舍弃之,直 到无坏值时,才可进行有关的数据处理而得到正确的结果。 在测量或实验过程中.如发现读错、记错数据,或因仪器及工作条件突然变 化而造成明显的错误时,应该及时纠正或舍弃有关数据,但严格说来,原始数据 必须实事求是地记录,并注明有关情况。在整理数据时,再舍弃上述有明显错误 的数据。 异常数据往往是由过失误差引起的,也可能是由巨大的随机误差引起的。 异常数据的取舍必须十分慎重。有的异常测量值的出现,可能客观地反映了 测量过程中的某种随机波动性,例如,可能预示着电路产生间歇振荡、接触不良、 某个元件即将损坏、仪器工作不稳定等,有时甚至可能预示着一种新的物理现象 将被发现,可见对异常测量值不应该为了追求数据的一致性而轻易舍去。 如果有充分的根据可以判定异常数据是由过失误差引起的,则应予舍弃。对 于原因不明的异常数据,只能用统计学的准则决定取舍。 用统计学的方法决定异常数据的取舍,其基本思想是:数值超过某一界限的 测定值(或残差)出现的概率很小,是个小概率事件。如果在一个容量不大的测 量列中居然出现了这种测定值,则有理由认为,这是由过失误差引起的异常数据, 因而予以舍弃。 对异常数据,除了设法从测量结果中发现、判断和鉴别而加以剔除外,更重 要的是要加强测量工作者的工作责任心和以严格的科学态度对待测量工作;此外 还要保证测量条件的稳定,应避免在外界条件发生激烈变化时进行测量。 2、异常数据判断准则 异常数据的判断(取舍)准则有:来伊达准则(3σ准则)、格拉布斯准则、 肖维勒准则、t 检验准则(罗曼诺夫斯基准则)和狄克逊准则。 1)来依达准则(3σ准则) 由概率积分表可知,服从正态分布的随机误差超出±3σ(置信概率 P=0.9973)