5.2评测数据集的差异 许多数据挖掘项目,了解给定数据集的更多有关中 心趋势分布的一些特征是非常有用的。平均数 mean、中位数 mediar和众数mode是反映数据 的中心趋势的典型指标,而方差和标准差是反映 数据离散程度的指标。 平均数 mean=l/n> xi 加权平均数 mean ∑mx/∑m
5.2 评测数据集的差异 • 许多数据挖掘项目,了解给定数据集的更多有关中 心趋势分布的一些特征是非常有用的。平均数 mean、中位数median和众数mode是反映数据 的中心趋势的典型指标,而方差和标准差是反映 数据离散程度的指标。 • 平均数: • 加权平均数: = = n i mean n xi 1 1/ = = = n i i n i mean wixi w 1 1 /
中位数:对偏斜数据集来说,中位数更能 反映它的中心趋势。 x(n+1)/2 n是奇数 中位数= (x/2+xm/2)+1)n是偶数 众数:它是反映数据集中心趋势的另一个指标。 众数是在数据集中岀现频率最高的一个数据集。 平均数和中位数主要反映数值型数据集的特征, 而众数也适应于分类数据,但因它是不排序,所 以必须有详细说明
• 中位数:对偏斜数据集来说,中位数更能 反映它的中心趋势。 x(n + 1) / 2 中位数= (xn / 2 + x(n / 2) + 1) n是奇数 n是偶数 • 众数:它是反映数据集中心趋势的另一个指标。 众数是在数据集中出现频率最高的一个数据集。 平均数和中位数主要反映数值型数据集的特征, 而众数也适应于分类数据,但因它是不排序,所 以必须有详细说明
数值数据分散的程度为数据的离散度。反 映离散度最常用的指标是标准差和方差。 n个数据值的x1X2Xn的方差是 2=(1/n+1)∑(x-meam3 标准差是方差的平方根。其基本性质如下: 1.σ度量的是半于平均值的离散程度,仅当平均值 作为中心的度量量使用。 2.仅当数据不存在分散时,σ=0,否则σ>0
• 数值数据分散的程度为数据的离散度。反 映离散度最常用的指标是标准差和方差。 n个数据值的x1 ,x2 ,…xn的方差是: = = + − n i n xi mean 1 2 2 (1/( 1)) ( ) • 标准差是方差的平方根。其基本性质如下: 1.σ度量的是半于平均值的离散程度,仅当平均值 作为中心的度量量使用。 2.仅当数据不存在分散时,σ=0,否则σ>0