噪声数据处理 在考査铝杆抗拉强度与铝线线径关系时,首先采用分箱技术。由于耐热导 线工厂给出的数据中,同一个抗拉强度对应的线径有时差距非常大,存在 定的噪声数据,根据抗拉强度对数据进行分箱处理。然后对同一个箱子 里的数据进行处理,将数据样本中的奇异值、极端值、非正常值等数据以 及数据本身的特点采用图形方式呈现出来,并剔除非正常的数据样本 反映变量集中趋势的有算术平均数、中位数 反映变量离散程度的有方差、标准差和极差 反映分布形态的描述性指标有偏度( skewness)和峰度( kurtosis)。偏度和峰度是判断数据是否 正态分布的重要指标。在实际检验中,偏度和峰度都小于1时,可以认为数据近似服从正态 分布
议程噪声数据处理 • 在考查铝杆抗拉强度与铝线线径关系时,首先采用分箱技术。由于耐热导 线工厂给出的数据中,同一个抗拉强度对应的线径有时差距非常大,存在 一定的噪声数据,根据抗拉强度对数据进行分箱处理。然后对同一个箱子 里的数据进行处理,将数据样本中的奇异值、极端值、非正常值等数据以 及数据本身的特点采用图形方式呈现出来,并剔除非正常的数据样本 – 反映变量集中趋势的有算术平均数、中位数 – 反映变量离散程度的有方差、标准差和极差 – 反映分布形态的描述性指标有偏度( skewness)和峰度( kurtosis)。偏度和峰度是判断数据是否 正态分布的重要指标。在实际检验中,偏度和峰度都小于1时,可以认为数据近似服从正态 分布
噪声数据处理 1)按照拉依达准则(3o准则)剔除异常值 拉依达准则是在数据总体服从正态分布的情况下,根据下面公式找出异常 值 P(x->3o)≤0.003 式中,a表示变量的平均值,d表示变量的标准差。对大于u+3或小于u-3σ 的数据作为异常数据,予以剔除。剔除后,对余下的各测量值重新计算偏 差和标准偏差,并继续审查,直到各个偏差均小于3σ为止 例如,在处理某批抗拉强度为123MPa的铝杆对应的铝线数据时,根据描述 统计得到其对应的铝线线径分布近似正态分布,可以运用拉依达准则将异 常值剔除
议程噪声数据处理 • 1) 按照拉依达准则(3σ准则)剔除异常值 • 拉依达准则是在数据总体服从正态分布的情况下,根据下面公式找出异常 值 Ρ 𝑥 − 𝑢 > 3σ ≤ 0.003 • 式中,a表示变量的平均值,d表示变量的标准差。对大于u+3σ或小于u-3σ 的数据作为异常数据,予以剔除。剔除后,对余下的各测量值重新计算偏 差和标准偏差,并继续审查,直到各个偏差均小于3 σ为止 • 例如,在处理某批抗拉强度为123MPa的铝杆对应的铝线数据时,根据描述 统计得到其对应的铝线线径分布近似正态分布,可以运用拉依达准则将异 常值剔除