Iis数据的茎叶图 冒号左边的数字是保留一位小数的 23:0 24 25 26 28 29:0 30:000000 31:0000 32-0000O 33:00 35:000000 36:000 37:0 38:0000 39:00 40:0 41:0 42:0 43 44:0 这个图表是使用 S-PLUS(R)软件产生出来的, S-PLUSE(R)是 Insightful公司的一个注册商标
16 Iris数据的茎叶图 冒号左边的数字是保留一位小数的 这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标
数值型数据的描述统计 ·位置测量: ·均值(“平均+2十“+。S 中位数:位于排序样本中间的值(像分布中的 0.5) mIn X(1)≤X2)s…sXm max 如果n为奇数, 中位数= ()千(=2)如果n为偶数 0,2的中位数是1:n3所以n+1=4k(n+1)2=2(第二次值), 0,2,3}的中间值是15(假设数据是连续的):n=4。 ·众数:最普遍的值
17 数值型数据的描述统计 • 位置测量: • 均值 ( “平均值 ”): • 中位数:位于排序样本中间的值(像分布中的 0.5)。 如果 n为奇数, 中位数= 如果 n为偶数。 {0,1,2}的中位数是 1:n=3所以n+1=4&(n+1)/2=2(第二次值 ), {0,1,2,3}的中间值是1.5(假设数据是连续的):n=4 。 • 众数:最普遍的值
均值还是中位数? 对于数据中心的合适描述? 均值:如果数据的分布是对称的,并且尾部 较小(即:和位于正中的观察数据相比只占很 小的比例)。 中位数:如果数据分布是胖尾或者是不对称 的 大部分数据相差较大的极值叫做奇异值。 对均值影响很大但对中位数没太大影响 右偏和左偏(不对称)。 mode(high point) moge median medi mean mean (reverse alphabetic - RIGHT skewed) alphabetic· LEFT skewed
18 均值还是中位数? 对于数据中心的合适描述? -均值:如果数据的分布是对称的,并且尾部 较小(即:和位于正中的观察数据相比只占很 小的比例)。 -中位数:如果数据分布是胖尾或者是不对称 的。 大部分数据相差较大的极值叫做奇异值。 -对均值影响很大但对中位数没太大影响。 右偏和左偏(不对称)
分位数、分位点、百分点 对于一种理论分布: ⅹ是随机变量Ⅹ的p分位数的值,即PXx)=p。对n 维正态分布: 在SPus中:命令qnom(p),0p<1,则输出分位点。 在S-Pus中:命令p0om(q),则输出概率。 对于一个样本: 排序统计是将样本值按升序排列。表示为 (1)2…2(n) 分位数是指在已排好序的数据中的某一个值,p分 之一的数据会小于或等于这个数据值
19 分位数、分位点、百分点 对于一种理论分布 : x p是随机变量 X 的 p分位数的值,即P(X<x p)=p。对 n 维正态分布: 在S-Plus中:命令qnorm(p),0<p<1,则输出分位点。 在S-Plus中:命令pnorm(q),则输出概率。 对于一个样本: 排序统计是将样本值按升序排列。表示为 X(1),…,X(n) 。 p分位数是指在已排好序的数据中的某一个值, p 分 之一的数据会小于或等于这个数据值
正态CDF 图中横轴为x值,纵轴为 pnorm(x)值。 pnm08416212=08 E6E qnom(08=08416212 3 这个图表是使用 S-PLUS(R)软件产生出来的, S-PLUSE(R)是 Insightful公司的一个注册商标
20 正态CDF 这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。 图中横轴为x值,纵轴为pnorm(x)值