5.统计数 测定样本中的各个个体而得到的样本特征数。如平均数x,方差$?等。统计数是 总体相应参数的估计值。 6抽样 既然要从样本中推断总体,那么就要考虑样本的代表性。样本越能近似地代表总体 就越好。而这样地样本只能随机地从总体中抽取,才能无偏地估计总体。从总体中抽取 样本这一过程称为抽样的目的是通过对样本的研究推断总体。 7.随机抽样 在抽取个体时,应该使总体内所有个体均有同等被抽取的机会。即都具有相等的被抽 取的概率。因此,随机抽样也叫做概率抽样。 8方回式抽样和非放回式抽样 根据所得样本的性质,可为放回式抽样和非放回式抽样。 放回式抽样:从总体中抽出一个个体,记下它的特征后方回总体再做第二次抽样,这 种方式抽取的样本为随机样本。 非放回式抽样:从总体中抽出个体后,不在放回,抽取的样本为非随机样本 9.随机抽样的方法 (1)抽签、拈阄、扔钱币 (2)使用随机数字表 随机数字表是采用完全随机化的方法制成的,它在随机抽样、随机化实验设计中应 用很广。关于随机数字表的使用方法,由于目的不同,使用方法也不同,就是同一种目 的也有不同的使用方法。有随机抽样法、实验材料的随机分组法、实验处理的随机分组 法。 这里我们介绍采用随机数字表随机抽样的方法(对有限总体而言) 一般步骤 (1)编号: 对总体所包含的个体从零开始编号,例如要从包含100个个体的总体中抽取含量为 10的样本,先将总体中的每一个个体从00编号到99,若从1000个个体中抽取10个, 则编号000-999 (2)决定使用哪页表 6
16 5.统计数 测定样本中的各个个体而得到的样本特征数。如平均数 X ,方差 S 2 等。统计数是 总体相应参数的估计值。 6.抽样 既然要从样本中推断总体,那么就要考虑样本的代表性。样本越能近似地代表总体 就越好。而这样地样本只能随机地从总体中抽取,才能无偏地估计总体。从总体中抽取 样本这一过程称为抽样的目的是通过对样本的研究推断总体。 7.随机抽样 在抽取个体时,应该使总体内所有个体均有同等被抽取的机会。即都具有相等的被抽 取的概率。因此,随机抽样也叫做概率抽样。 8.方回式抽样和非放回式抽样 根据所得样本的性质,可为放回式抽样和非放回式抽样。 放回式抽样:从总体中抽出一个个体,记下它的特征后方回总体再做第二次抽样,这 种方式抽取的样本为随机样本。 非放回式抽样:从总体中抽出个体后,不在放回,抽取的样本为非随机样本。 9.随机抽样的方法 (1)抽签、拈阄、扔钱币 (2)使用随机数字表 随机数字表是采用完全随机化的方法制成的,它在随机抽样、随机化实验设计中应 用很广。关于随机数字表的使用方法,由于目的不同,使用方法也不同,就是同一种目 的也有不同的使用方法。有随机抽样法、实验材料的随机分组法、实验处理的随机分组 法。 这里我们介绍采用随机数字表随机抽样的方法(对有限总体而言) 一般步骤 (1)编号: 对总体所包含的个体从零开始编号,例如要从包含 100 个个体的总体中抽取含量为 10 的样本,先将总体中的每一个个体从 00 编号到 99,若从 1000 个个体中抽取 10 个, 则编号 000-999 (2)决定使用哪页表
闭上眼睛在随机数字表上用铅笔任意点一点,假若落在奇数上,就用第一页表:点到 偶数上就用第二页表。 (3)决定从哪行哪字读起 在选定的那页上,再点一次,根据点中的数字决定从哪一行读起,最后再点一次,决 定从哪个字读起。 (4)以二位数字为一节读下去(以几位数字为一节要根据编号的位数确定)遇到重 复要舍去重读,直到取满10个数为止。 (5)这10个数所对应的个体即为我们所选中的样本。 1.6平均数与标准差 1.6.1平均数的意义和种类 意义:平均数是数量资料的代表值,表示资料中观察值的中心位置与集中趋势,可以代 表研究对象的一般水平,并可作为资料的代表而与另一组资料相比较,借以明确两者间 的差异。 如两个球队(足球、篮球、排球等)比赛,解说员要介绍两个球队的平均年龄、身高。 平均数将各观察值的差异抽象化后就可以用来代表研究总体的一般水平。 平均数便于分析,各同质总体可以互相对比,但所包括范围不同,不同时间进 行对比,如不同年份气温变化。 种类:主要有算术平均数(Arithmetic mean)、中数(Median)、众数(Mode)与几何 平均数(Geometric mean). 1、算术平均数:最常用、最有意义的一种方法。 设有几个观察值(同一区间尺度或比例尺度上)X1,X,则算术平均数: i∑X r=X1+2++物_ nn X的几个基本特性: (1)X的大小受样本内每个值的影响 例:8642x=5 6642x=4.5
17 闭上眼睛在随机数字表上用铅笔任意点一点,假若落在奇数上,就用第一页表;点到 偶数上就用第二页表。 (3)决定从哪行哪字读起 在选定的那页上,再点一次,根据点中的数字决定从哪一行读起,最后再点一次,决 定从哪个字读起。 (4)以二位数字为一节读下去(以几位数字为一节要根据编号的位数确定)遇到重 复要舍去重读,直到取满 10 个数为止。 (5)这 10 个数所对应的个体即为我们所选中的样本。 1.6 平均数与标准差 1.6.1 平均数的意义和种类 意义:平均数是数量资料的代表值,表示资料中观察值的中心位置与集中趋势,可以代 表研究对象的一般水平,并可作为资料的代表而与另一组资料相比较,借以明确两者间 的差异。 如两个球队(足球、篮球、排球等)比赛,解说员要介绍两个球队的平均年龄、身高。 平均数将各观察值的差异抽象化后就可以用来代表研究总体的一般水平。 平均数便于分析,各同质总体可以互相对比,但所包括范围不同, ,不同时间进 行对比,如不同年份气温变化。 种类:主要有算术平均数(Arithmetic mean)、中数(Median)、众数(Mode)与几何 平均数(Geometric mean)。 1、算术平均数:最常用、最有意义的一种方法。 设有几个观察值(同一区间尺度或比例尺度上)X1,X2,.Xn,则算术平均数: X = n X1+ X 2 + . + Xn = n Xi n i =1 = n X X 的几个基本特性: (1) X 的大小受样本内每个值的影响 例: 8 6 4 2 X =5 6 6 4 2 X =4.5
(2)若每个X都乘以相同的数K,则Xi也应乘以K 如:8642X=5 ×2161284X=10=5×2 (3)若每个Xi都加上相同的数A,则X也应加上A。 如:8642X=5 +210862X=7=5+2 (4)若Xi是个数的平均数,X2是2个数的平均数,那么全部n+个数的算术平 均数是X万和X2的加权平均数。 例:样本1:8642X=5n1=4 样本2:2963X2=6n=3 x-8+6+4+2+9+6+3=54286 x=5x4+6x3=5.4286 (5)样本内各观察值与其平均数的差数(离均差)的总和等于零。 ∑指-x=0 ∑-Σk1-x)+x2-x+.+km-x =(X1+X2+.X)nT-∑7-nx-∑n-∑Xxn-0 n 例:(8-5)+(6-5)+(4-5)+(2-5)=3+1-1-3=0 (6)离均差平方和最小:∑(指-=mim 设a为x以外的任何值,则∑i-<∑(-a ∑w-a=∑-x+-a =∑-+2∑w-x派-a+Σr-a =∑n-xj+∑-a=∑a-a月 a为以外的任一数,·.∑区-a0,·∑(指-x(指-a
18 (2)若每个 Xi 都乘以相同的数 K,则 Xi 也应乘以 K 如: 8 6 4 2 X =5 ×2 16 12 8 4 X =10=5×2 (3)若每个 Xi 都加上相同的数 A,则 X 也应加上 A。 如: 8 6 4 2 X =5 +2 10 8 6 2 X =7=5+2 (4)若 X1 是 n1 个数的平均数, X 2 是 n2 个数的平均数,那么全部 n1+n2 个数的算术平 均数是 X1 和 X 2 的加权平均数。 例:样本 1: 8 6 4 2 X1 =5 n1=4 样本 2: 2 9 6 3 X 2 =6 n2=3 X = 7 8 + 6 + 4 + 2 + 9 + 6 + 3 =5.4286 X = 7 5 4 + 6 3 =5.4286 (5)样本内各观察值与其平均数的差数(离均差)的总和等于零。 (Xi − X ) =0 (Xi − X )=(X1− X )+ (X 2 − X )+ +(Xn − X ) =(X1+X2+.Xn)-n X =Xi −n X =Xi − n n X =0 例:(8-5)+(6-5)+(4-5)+(2-5)=3+1-1-3=0 (6)离均差平方和最小: ( ) 2 Xi − X = min 设 a 为 X 以外的任何值,则 ( ) 2 Xi − X < ( − ) 2 Xi a ( − ) 2 Xi a = ( ) ( ) 2 Xi − X + X − a =( − ) + ( − )( − )+( − ) 2 2 Xi X 2 Xi X X a X a = ( ) 2 Xi − X + ( − ) 2 X a =( − ) 2 Xi a a 为 X 以外的任一数,∴ ( − ) 0 2 X a , ∴ ( − ) ( − ) 2 2 Xi X Xi a
例:8-+6-s引+4-5或+-=20 (8-6+(6-6}+(4-6}2+2-6}=22 2.中位数 把一组观察值按大小顺序排列,位次居中的那个数值即中位数,记作Md(median)。 在频数分配中处于中点(它的上下各有相等的频数分布着),不受极端值影响。当一组 观察值中,大部分较集中,只有少数的甚至个别的分散在一侧时,中位数比频数可以更 确切的反映频数的集中情况(其中位数比平均数可以更准确的反映频数分配的集中趋 势)。 中位数是一种位置上的平均数。常用于等差数列的观察值。实际上是等差数列的算 术平均值。 如果为偶数,则以中间两个观察值的算术平均数为中位数。 12345678910Md=5+6=55 X=5.5 2 例:调查9个某种传染病人,他们的潜伏期(天)分别为:2、5、4、3、3、6、16、9、 3,求中位数。平均潜伏期先将数据按大小顺序排列,得:2、3、3、3、4、5、6、9、 16,n=9是奇数,所以第5位的4就是中位数。平均潜伏期4天。 例:随机抽取某轧钢厂工人20名,测得其白细胞棘突百分比如下,求中位数。 000012244566678910111314 n=20是偶数,中位数是第10和第11位观察值的算术平均数5+6=55 2 例:类链球菌食物中毒潜伏期 潜伏期(h) 病例数(人数) 累计病例数(人数) 0 17 17 6 36 53 12 48 101 18 之 133 24 6 139 36 3 142 42 143 中位数所在项次:43=715,对应观察值为12小时,算术平均数=1.6小时 2
19 例: ( ) ( ) ( ) ( ) (8 6) (6 6) (4 6) (2 6) 22 8 5 6 5 4 5 2 5 20 2 2 2 2 2 2 2 2 − + − + − + − = − + − + − + − = 2. 中位数 把一组观察值按大小顺序排列,位次居中的那个数值即中位数,记作 Md(median)。 在频数分配中处于中点(它的上下各有相等的频数分布着),不受极端值影响。当一组 观察值中,大部分较集中,只有少数的甚至个别的分散在一侧时,中位数比频数可以更 确切的反映频数的集中情况(其中位数比平均数可以更准确的反映频数分配的集中趋 势)。 中位数是一种位置上的平均数。常用于等差数列的观察值。实际上是等差数列的算 术平均值。 如果 n 为偶数,则以中间两个观察值的算术平均数为中位数。 1 2 3 4 5 6 7 8 9 10 Md= 5.5 2 5 6 = + X = 5.5 例:调查 9 个某种传染病人,他们的潜伏期(天)分别为:2、5、4、3、3、6、16、9、 3,求中位数。平均潜伏期先将数据按大小顺序排列,得:2、3、3、3、4、5、6、9、 16,n=9 是奇数,所以第 5 位的 4 就是中位数。平均潜伏期 4 天。 例:随机抽取某轧钢厂工人 20 名,测得其白细胞棘突百分比如下,求中位数。 0 0 0 0 1 2 2 4 4 5 6 6 6 7 8 9 10 11 13 14 n=20 是偶数,中位数是第 10 和第 11 位观察值的算术平均数 5.5 2 5 6 = + 例:类链球菌食物中毒潜伏期 潜伏期(h) 病例数(人数) 累计病例数(人数) 0 17 17 6 36 53 12 48 101 18 32 133 24 6 139 36 3 142 42 1 143 中位数所在项次: 71.5 2 143 = ,对应观察值为 12 小时,算术平均数 X =11.6 小时
3.众数 资料中最常见频数最多的一个数,或次数最多一组的中点值。记作Mo(Mode) 例鞋码:383940404041M0=40 男鞋383939404141 M0=39、41 383940414243 无Mo 众数概念通俗易懂,不受极端值的影响,不必计算,有一定作用。 (1)众数可通过其频数的多少来反映总体频数的集中情况。众数的频数在总体中 所占的比重越大,表明研究总体的集中程度越大,众数对总体的代表性越大。 (2)正态分布的众数接近算术平均数。】 应用众数要求观察值很多,n较大 4.几何平均数(Geometric Median) n个观察值相乘积开n次方 G=X1X2.X0m gG=(g+g,+.+g,)-∑g =g②到 gG=,(g10+6g100+g100+g10000+g10000) =0+2+3+4+5)=3 G=(g3=1000 在医学和卫生统计学中,计算抗体的平均滴度、抗体平均效价,常用几何平均数。 用于几何平均数的观察值往往彼此相差较大,有的资料甚至成倍数关系。用平均 数表示就会受少数极端值的影响。 例:有5人,其血清抗体效价分别为1:10、1:100、1:1000、1:10000、1:100000, 求其效价倒数的平均水平。 x=10+100+1000+10000+10000=222 5 明显看出,受特大值影响,偏在大值一边
20 3. 众数 资料中最常见频数最多的一个数,或次数最多一组的中点值。记作 Mo(Mode) 例 鞋码: 38 39 40 40 40 41 Mo=40 男鞋 38 39 39 40 41 41 Mo=39、41 38 39 40 41 42 43 无 Mo 众数概念通俗易懂,不受极端值的影响,不必计算,有一定作用。 (1)众数可通过其频数的多少来反映总体频数的集中情况。众数的频数在总体中 所占的比重越大,表明研究总体的集中程度越大,众数对总体的代表性越大。 (2)正态分布的众数接近算术平均数。] 应用众数要求观察值很多,n 较大 4. 几何平均数(Geometric Median) n 个观察值相乘积开 n 次方 G= n X1X 2Xn lgG= ( ) n gx gx gx gx n n + + + = 1 2 1 G= − n gx g 1 ( 10 100 1000 10000 100000) 5 1 gG = g + g + g + g + g = (1 2 3 4 5) 3 5 1 + + + + = G= 3 1000 1 = − g 在医学和卫生统计学中,计算抗体的平均滴度、抗体平均效价,常用几何平均数。 用于几何平均数的观察值往往彼此相差较大,有的资料甚至成倍数关系。用平均 数表示就会受少数极端值的影响。 例:有 5 人,其血清抗体效价分别为 1:10、1:100、1;1000、1:10000、1:100000, 求其效价倒数的平均水平。 22222 5 10 100 1000 10000 100000 = + + + + x = 明显看出,受特大值影响,偏在大值一边