(1)分组 当所调查数据的变化较少时,以每种变数为一组。在我们的资料中,每天的10个 新生儿中,体重超过3公斤的人数,可能有11种情况:1个也没有,有1个,有2个,., 有10个。 (2)以唱票方式记录每种情况出现的天数(频数),把频数或频率按超过3公斤 的人数的顺序排列起来制成频数分布表: 组值 频数计算 频数 频率 每10个新生儿中体重 超过3公斤的人数 0 0 0.000 1 0 0.000 2 0 0.00 0.008 2 0.017 5 正正T 12 0.100 正正正 19 0.158 正正正正正正正 0.325 8 正正正正正正 94 0.283 正正 0.083 10 9 0.025 总计 120 0.999 (3)有时,为了更直观地描述数据变化规律,还可以绘成频数图 % 530 数 12 23 新生儿体重超过3公斤的人数分布
11 (1)分组 当所调查数据的变化较少时,以每种变数为一组。在我们的资料中,每天的 10 个 新生儿中,体重超过 3 公斤的人数,可能有 11 种情况:1 个也没有,有 1 个,有 2 个,., 有 10 个。 (2)以唱票方式记录每种情况出现的天数(频数),把频数或频率按超过 3 公斤 的人数的顺序排列起来制成频数分布表: 组值 频数计算 频数 频率 每 10 个新生儿中体重 超过 3 公斤的人数 0 0 0.000 1 0 0.000 2 0 0.000 3 1 0.008 4 2 0.017 5 正正 12 0.100 6 正正正 19 0.158 7 正正正正正正正 39 0.325 8 正正正正正正 34 0.283 9 正正 10 0.083 10 3 0.025 总计 120 0.999 (3)有时,为了更直观地描述数据变化规律,还可以绘成频数图
1.4.3连续型数据的整理 连续型数据的整理必须确定组数、组距、组限,然后按观察值的大小来归组。 例:某农场在做高粱“三尺三”(1米)提纯时,调查了100个株高数据,试加以整理。 表1-2. “三尺三”株高测量结果 155158 159 155 150159 157 159 151 152 159 158 153 153 144 156 150 157 160 150 150 150 160 156 160 155 151 157 159 161 156 141 156 145 156 153 158 、 、 、 、 、 、 、 、 、 1求极差(Range). R(极差)=maxX-minX 所以观察值中最大值与最小值的差。表示整个标本的变异幅度。表1-2(P3)中 最大值170cm,最小值141cm。 R=170-141=29cm 2确定组数和组距 组数:分组的个数 组距:每组的E离,适蒂组距是相等的,鬼距一装 组数和组距是相互决定的。 组数多则组距小,组数少则组距大。 那么怎样确定组数呢? 确定组数应考虑下列几个方面的要求: (1)观察值个数的多少。一般个数多,组数也多,但还要看极差大小。 (2)极差的大小。极差大,组数多,反之则少。 (3)便于计算 (4)能反映资料的真实面貌。 既要达到一方面简化资料,从中得到规律性的认识,另一方面又须保持资料的真实 面貌的目的, 根据以上要求,总结出观察值与组数的经验关系。关于组距的求法还有一种更为客 观统计的方法,根据史力得可公式及表格求组距
12 1.4.3 连续型数据的整理 连续型数据的整理必须确定组数、组距、组限,然后按观察值的大小来归组。 例:某农场在做高粱“三尺三”(1 米)提纯时,调查了 100 个株高数据,试加以整理。 表 1-2. “三尺三”株高测量结果 155 158 159 155 150 159 157 159 151 152 159 158 153 153 144 156 150 157 160 150 150 150 160 156 160 155 160 151 157 155 159 161 156 141 156 145 156 153 158 161 、 、 、 、 、 、 、 、 、 、 1 求极差(Range) R(极差)=max X-min X 所以观察值中最大值与最小值的差。表示整个标本的变异幅度。表 1-2(P3)中 最大值 170cm,最小值 141cm。 R=170-141=29cm 2 确定组数和组距 组数:分组的个数 组距:每组的距离,通常组距是相等的。组距= 组数 极差 组数和组距是相互决定的。 组数多则组距小,组数少则组距大。 那么怎样确定组数呢? 确定组数应考虑下列几个方面的要求: (1)观察值个数的多少。一般个数多,组数也多,但还要看极差大小。 (2)极差的大小。极差大,组数多,反之则少。 (3)便于计算 (4)能反映资料的真实面貌。 既要达到一方面简化资料,从中得到规律性的认识,另一方面又须保持资料的真实 面貌的目的。 根据以上要求,总结出观察值与组数的经验关系。关于组距的求法还有一种更为客 观统计的方法,根据史力得可公式及表格求组距
表1-3样本大小与组数多少的关系 样本内观察值个数 分组时个数 50 5-10 100 8-16(8-10) 200 10-20 300 12-24 500 15-30 1000 20-40 这个表完全是经验的,并且是不确定的,那么使用此表时,在某一范围内怎样确 定一个组数呢?这里有一个经验:为分组方便使组距成为整数的那个组数最合适。 在本资料中,有100个观察值,查表可分为8-16组,根据极差R=29,分为10组 较合道。这样可使组距近于整数。组距=极花/组数:号293(四) 1选定组界与组中值 组界:为了使各个观察值划入一定的组内,每组应有明确的界限,称为组界。组界比观 察值多一位小数,这样可使观察值归组时不致含糊不清。 如:141-144 144?140.5-143.5 144-147 147?143.5-146.5 组中值:位于组界中间的数值。它是一组的代表值,与观察值的位数相同。1-3组 值是2,4-8组值是6。 先确定第一组的组值: 通常第一组的组值以接近或等于最小观察值为好。这样可避免使第一组内次数过多。 我们选第一组的组值为142, 再确定第一组下界: 下界=组值-组距 第一组下界=142-)×3=140.5 当第一组的中值及下界确定后,其它各组以此为基数分别加上组距既得。 第二组的下界为第一组的上界。 13
13 表 1-3 样本大小与组数多少的关系 样本内观察值个数 分组时个数 50 5-10 100 8-16(8-10) 200 10-20 300 12-24 500 15-30 1000 20-40 这个表完全是经验的,并且是不确定的,那么使用此表时,在某一范围内怎样确 定一个组数呢?这里有一个经验:为分组方便使组距成为整数的那个组数最合适。 在本资料中,有 100 个观察值,查表可分为 8-16 组,根据极差 R=29,分为 10 组 较合适。这样可使组距近于整数。组距=极差/组数= 10 29 =2.9≈3(cm) 1 选定组界与组中值 组界:为了使各个观察值划入一定的组内,每组应有明确的界限,称为组界。组界比观 察值多一位小数,这样可使观察值 归组时不致含糊不清。 如:141-144 144 ? 140.5-143.5 144-147 147 ? 143.5-146.5 组中值:位于组界中间的数值。它是一组的代表值,与观察值的位数相同。1-3 组 值是 2,4-8 组值是 6。 先确定第一组的组值: 通常第一组的组值以接近或等于最小观察值为好。这样可避免使第一组内次数过多。 我们选第一组的组值为 142。 再确定第一组下界: 下界=组值- 2 1 组距 第一组下界=142- 2 1 ×3=140.5 当第一组的中值及下界确定后,其它各组以此为基数分别加上组距既得。 第二组的下界为第一组的上界
表1-4“三尺三”株高频数表 组界 组值 频数计算 颊数 频率 140.5-143.5 142 1 0.01 143.5-146.5 145 T 2 0.02 146.5-149.5 148 4 0.0 149.5-152.5 151 正正下 0 0.13 152.5-155.5 154 正正正正下 0.23 155.5-158.5 157 正正正正正下 28 0.28 158.5-161.5 160 正正正 0.15 161.5-164.5 163 正正 o 0.10 164.5-167.5 166 下 3 0.03 167.5-170.5 169 1 0.01 100 1.00 确定第一组的组值时需要考虑两个方面: (1)第一组内次数不能过多,不能多于第二组、第三组, (2)各组的频数以某一组最多而向两边的各组递降,因此若极端值附近的值频数很低 时可适当提高第一组的组值。 (4)将原始数据以唱票方式填入频数表中。 (5)计算出各组的频数和频率。 4频数图 频数图:将频数表的结果以图形方式做的更直观的描述。通常有三种常用频数图: (1)直方图 在横轴上标明各组的组界,纵轴标明频数,然后以每一组的组界为一个边,相应的 频数为另一个边做矩形构成直方图(图1-2,P5)。 (2)多边形图 在横轴上标出各组的组值,纵轴上标出频数,在平面坐标内标出相应的每个点,然 后连接各点,并且最低和最高的非零频数点,应与零频数点相连,最后得到一个多边形 图。(图1-3,P6) 左边最小值的中值和右边最大值的中值外,各伸出一个组距的距离,以使多边形的 面积大致与方柱形相同
14 表 1-4 “三尺三”株高频数表 组界 组值 频数计算 频数 频率 140.5-143.5 142 1 0.01 143.5-146.5 145 2 0.02 146.5-149.5 148 4 0.01 149.5-152.5 151 正正 13 0.13 152.5-155.5 154 正正正正 23 0.23 155.5-158.5 157 正正正正正 28 0.28 158.5-161.5 160 正正正 15 0.15 161.5-164.5 163 正正 10 0.10 164.5-167.5 166 3 0.03 167.5-170.5 169 1 0.01 100 1.00 确定第一组的组值时需要考虑两个方面: (1)第一组内次数不能过多,不能多于第二组、第三组。 (2)各组的频数以某一组最多而向两边的各组递降,因此若极端值附近的值频数很低 时可适当提高第一组的组值。 (4)将原始数据以唱票方式填入频数表中。 (5)计算出各组的频数和频率。 4 频数图 频数图:将频数表的结果以图形方式做的更直观的描述。通常有三种常用频数图; (1)直方图 在横轴上标明各组的组界,纵轴标明频数,然后以每一组的组界为一个边,相应的 频数为另一个边做矩形构成直方图(图 1-2,P5)。 (2)多边形图 在横轴上标出各组的组值,纵轴上标出频数,在平面坐标内标出相应的每个点,然 后连接各点,并且最低和最高的非零频数点,应与零频数点相连,最后得到一个多边形 图。(图 1-3,P6) 左边最小值的中值和右边最大值的中值外,各伸出一个组距的距离,以使多边形的 面积大致与方柱形相同
(3)条形图 适用于离散型数据和属性资料。在横轴上标出间断的中值或分类性状,纵轴标出频 (如图1-1,P3) (4)累积频数图 累积频数:就是将每一组中值的频数与前几组的频数相加所得到的频数。(表1-4,P7) 累积频数图:在横轴上标上各组的中值,纵轴上标上累积频数,在座标平面内标上相应 的点,连接各点得到累积频数图,表示某一组值以下有多少株以及一定数量的植株在哪 一高度之一 1.5总体与样本 统计学的任务是由样本推断总体。因此总体与样本本是生物统计学的两个最基本概 念。研究总体与样本的关系是本学科的核心问题。 L.总体(population) 具有共同性质的个体所组成的集团。总体往往是假想的或抽象的,它所包含的个体 数目是无穷的或有限的。 总体可分为有限总体和无限总体。 有限总体所包含的个体数量是有限的,如一袋小麦种子,一块豌豆地的所有豆菜。 一个学校的所有学生。无限总体所包含的个体数目是无限的。如小麦品种红芝4号的总 体是指这一品种在多年、多地无数次种植中的所有个体。 2.观察值 每一个体的某一性状、特性的测定数值叫做观察值。以X1,X2.X.Xn表示。 同一总体内各个个体的观察值有变异。 3样本 总体的一部分称为样本。由于总体所包含的个体数太多不能一一加以测定。所以, “般总是从总体中抽取若干个个体加以研究,这些个体的组成称为样本。 样本内的个体数目称为样本含量。以n表示。(举例) 4.参数 由总体的全部观察值计算而得到的总体特征数。如总体平均数山,总体方差σ等。 是理论上的数值,因此称为参数。 15
15 (3)条形图 适用于离散型数据和属性资料。在横轴上标出间断的中值或分类性状,纵轴标出频 (如图 1-1,P3) (4)累积频数图 累积频数:就是将每一组中值的频数与前几组的频数相加所得到的频数。(表 1-4,P7) 累积频数图:在横轴上标上各组的中值,纵轴上标上累积频数,在座标平面内标上相应 的点,连接各点得到累积频数图,表示某一组值以下有多少株以及一定数量的植株在哪 一高度之一。 1.5 总体与样本 统计学的任务是由样本推断总体。因此总体与样本本是生物统计学的两个最基本概 念。研究总体与样本的关系是本学科的核心问题。 1.总体(population) 具有共同性质的个体所组成的集团。总体往往是假想的或抽象的,它所包含的个体 数目是无穷的或有限的。 总体可分为有限总体和无限总体。 有限总体所包含的个体数量是有限的,如一袋小麦种子,一块豌豆地的所有豆菜。 一个学校的所有学生。无限总体所包含的个体数目是无限的。如小麦品种红芝 4 号的总 体是指这一品种在多年、多地无数次种植中的所有个体。 2.观察值 每一个体的某一性状、特性的测定数值叫做观察值。以 X1,X2.Xi.Xn 表示。 同一总体内各个个体的观察值有变异。 3.样本 总体的一部分称为样本。由于总体所包含的个体数太多不能一一加以测定。所以, 一般总是从总体中抽取若干个个体加以研究,这些个体的组成称为样本。 样本内的个体数目称为样本含量。以 n 表示。(举例) 4.参数 由总体的全部观察值计算而得到的总体特征数。如总体平均数 μ,总体方差 σ 2 等。 是理论上的数值,因此称为参数