221度量数据的中心趋势 ■算数平均值 ■最常用 分布式度量 ■可以通过如下方法计算度量(即函数):将 数据集划分成较小的子集,计算每个子集的 度量,然后合并计算结果,得到原(整个) 数据集的度量值。 sumO、 coun t(、min()、max
2.2.1 度量数据的中心趋势 ◼ 算数平均值 ◼ 最常用 ◼ 分布式度量 ◼ 可以通过如下方法计算度量(即函数):将 数据集划分成较小的子集,计算每个子集的 度量,然后合并计算结果,得到原(整个) 数据集的度量值。 ◼ sum()、count()、min()、max()
22,1度量数据的中心趋势 ■代数度量 可以通过应用一个代数函数于一个或多个分 布度量计算的度量。 mean()、中列数 ■整体度量 ■必须对整个数据集计算的度量 n中位数、众数
2.2.1 度量数据的中心趋势… ◼ 代数度量 ◼ 可以通过应用一个代数函数于一个或多个分 布度量计算的度量。 ◼ mean()、中列数 ◼ 整体度量 ◼ 必须对整个数据集计算的度量。 ◼ 中位数、众数
代数度量 mear(O:x=∑ ∑wx 加权平均: ∑ ■截断均值:去掉高、低极端值得到的均 值。减小极端值对均值的影响。 中列数( midrange):(max+min)/2
代数度量 ◼ mean(): ◼ 加权平均: ◼ 截断均值:去掉高、低极端值得到的均 值。减小极端值对均值的影响。 ◼ 中列数(midrange):(max+min)/2 = = n i i x n x 1 1 = = = n i i n i i i w w x x 1 1
整体度量 ■中位数( median):适用于倾斜的数据。近 似值计算如下: n/2-C∑) median=l+( C neilan ■设N个数值排序,若N为奇数,中位数是有序 集的中间值;若N为偶数,中位数是中间两个 值的平均值。 例如:1,3,5,7中位数4 1,3,56,7中位数5
整体度量 ◼ 中位数(median):适用于倾斜的数据。近 似值计算如下: ◼ 设N个数值排序,若N为奇数,中位数是有序 集的中间值;若N为偶数,中位数是中间两个 值的平均值。 ◼ 例如:1,3,5,7 中位数4 ◼ 1,3,5,6,7 中位数5 c f n f median L median l ) / 2 ( ) ( 1 − = +
整体度量 ■众数(mode):集合中出现频率最高的值。 ■单峰、多峰(双峰、三峰..)、无众数 n对于适度倾斜的单峰频率曲线,有如下 的经验关系: mean-mode=3x(mean-median
整体度量 ◼ 众数(mode):集合中出现频率最高的值。 ◼ 单峰、多峰(双峰、三峰…)、无众数 ◼ 对于适度倾斜的单峰频率曲线,有如下 的经验关系: mean − mode = 3(mean − median)