南京农学院主编《田间实验与统计方法》农业出版社 王鉴明,1988年,《生物统计学》农业出版社 刘来福《生物统计学》北京师范大学出版社 贵州农学院主编《生物统计附试验设计》农业出版社 数学所编,1973年,《常用数理统计方法》科学出版社 林少宫,1963年,《基础概率与数理统计》高教出版社 中科院数学所,1974,《常用数理统计表》科学出版社 刘祖洞,《遗传学》上、下
6 南京农学院主编《田间实验与统计方法》农业出版社 王鉴明,1988 年,《生物统计学》农业出版社 刘来福《生物统计学》北京师范大学出版社 贵州农学院主编《生物统计附试验设计》农业出版社 数学所编,1973 年,《常用数理统计方法》科学出版社 林少宫,1963 年,《基础概率与数理统计》高教出版社 中科院数学所,1974,《常用数理统计表》科学出版社 刘祖洞,《遗传学》上、下
第一章数据处理 要求学生掌握数据的基本性质,掌握频数表与频数图的编绘,掌握x与S的意义与 计算,掌握生物统计学的几个基本概念。 1.1数据 1.1.1数据 要对事物在数量上有客观认识,唯一可靠的办法就是通过调查、实验或实践得到数 据,然后进行分析研究。在科学实验中,数据是十分宝贵的资料。 什么叫数据?(举例,请学生概括) 对客观事物通过调查、测量、实验所得到的数量化的观察结果,叫做数据。 (举若干例) 1.1.2数据的性质 数据具有什么样的性质?(问) 反问?你们班的男生一样高,对不对? 我能找到两片完全一样的叶片,信不信? 测量200株小麦株高,得200个数据,设想这样数据有何性质? (引导学生得出结论) 数据的基本性质就是变异性。 这种变异性就是客观存在的,必然要发生的,且具有普遍性 生物统计学就是研究生物群体内个体间的变异性规律以及研究对生物性状观察过程 中的误差规律。(玩方差)假如世界上不存在变异性和误差,则无所谓统计学了。关于 变异性的最早发现并录之于书的是我国战国时期的孟子。他在《孟子.腾文公上》一文 中写到“物之不齐,物之情也。或相倍蓰(五倍)或相千万。 这里不仅说出了变异性的普遍存在,而且还对它提出了一种度量的概念。 1.1.3变异性产生的原因 (学生讨论,并举例)最后概括总结: 要追究变异性的原因,首先要分析那些对某种具体现象起作用的内在因素,如一窝 羔羊的断奶重取决于许多内外因素,它们往往有直接的、间接的、主要的、次要的,还 有的虽然微小,但确有影响,种类非常之多,它们有的虽由人为决定,有的却属随机, 其间的组合方式有无限的多,正是这个原因导致了事物的参差不齐。 7
7 第一章 数据处理 要求学生掌握数据的基本性质,掌握频数表与频数图的编绘,掌握 x 与 S 的意义与 计算,掌握生物统计学的几个基本概念。 1.1 数据 1.1.1 数据 要对事物在数量上有客观认识,唯一可靠的办法就是通过调查、实验或实践得到数 据,然后进行分析研究。在科学实验中,数据是十分宝贵的资料。 什么叫数据?(举例,请学生概括) 对客观事物通过调查、测量、实验所得到的数量化的观察结果,叫做数据。 (举若干例) 1.1.2 数据的性质 数据具有什么样的性质?(问) 反问?你们班的男生一样高,对不对? 我能找到两片完全一样的叶片,信不信? 测量 200 株小麦株高,得 200 个数据,设想这样数据有何性质? (引导学生得出结论) 数据的基本性质就是变异性。 这种变异性就是客观存在的,必然要发生的,且具有普遍性。 生物统计学就是研究生物群体内个体间的变异性规律以及研究对生物性状观察过程 中的误差规律。(玩方差)假如世界上不存在变异性和误差,则无所谓统计学了。关于 变异性的最早发现并录之于书的是我国战国时期的孟子。他在《孟子.腾文公上》一文 中写到“物之不齐,物之情也。或相倍蓰(五倍)或相千万。 这里不仅说出了变异性的普遍存在,而且还对它提出了一种度量的概念。 1.1.3 变异性产生的原因 (学生讨论,并举例)最后概括总结。 要追究变异性的原因,首先要分析那些对某种具体现象起作用的内在因素,如一窝 羔羊的断奶重取决于许多内外因素,它们往往有直接的、间接的、主要的、次要的,还 有的虽然微小,但确有影响,种类非常之多,它们有的虽由人为决定,有的却属随机, 其间的组合方式有无限的多,正是这个原因导致了事物的参差不齐
我们来分析一下影响羔羊断奶重的内外因素。内因通常是指遗传因素,其物质基础 主要是两亲体的精子和卵子中遗传下来的19对染色体内遗传分子所携带的数以万计的 基因密码,其变异是众所周知的:外因是环境的因素,包括饲养管理、疾病防治、母体 效应等,其变异也是显而易见的,对一只羔羊的发育过程来说,它所遭遇的这些有差异 性的内外因素的组合是独一无二的。所以说,遗传差异与环境差异是引起生物体差异的 一对基本矛盾。 正是由于变异之故,中古世纪欧洲的鼠疫虽然猖獗一时,但并没有把欧洲人全部消 灭。说得过头一点,假若没有变异性存在,哪还有一个欧洲人能渡过鼠疫的灾难呢?所 以说,变异性的出现是由于影响某自然事物或现象的许多大大小小的内外因素的偶然性 配合所致。科学研究的目的就在于把这些由内外因素所引起的效应的客观规律剖析清 楚,以便通过它们对同类的事物或同型的现象加以估计和预测。 1.1.4数据的类型 两类 1.离散型 一棵果树结了多少只苹果?你们班有多少人?多少同学体育达标?这类用计数方式 得到的数据叫离散型数据。每个数必须以整数表示。两个整数间的数值是不连续的、离 散的。 2.连续型 本班同学的平均身高、平均体重?一次降雨的降雨量,这类用计量工具直接测定的数 据,所得数据不一定是整数,在整数之间可以出现任何值。 例如:在养鸡的育肥试验中,养了5只鸡,一个月以后,每只鸡的增重量都不一样, 分别3.0斤、2.6斤、3.2斤3.1斤和2.8斤。是连续型数据。如果鸡的数目非常之多, 称的非常精细,那么任取其中一个增重范围,如2.6-2.7斤,不论这个范围定的多么小, 总可以找出几只鸡,其增重大于2.6,而小于2.7斤。即如果把各只鸡的增重在标尺上 一点一点标出来,在一定的区间内,只要鸡的数量很多,这些点就可能一点一点地连接 起来,连续性的含义就在于此。 1.2原始数据的检查与核对 搜集的原始数据在整理之前,应先对全部数据进行检查与核对,分辨真伪,力求完 整、真实和准确。 (1)检查数据本身有无差错
8 我们来分析一下影响羔羊断奶重的内外因素。内因通常是指遗传因素,其物质基础 主要是两亲体的精子和卵子中遗传下来的 19 对染色体内遗传分子所携带的数以万计的 基因密码,其变异是众所周知的;外因是环境的因素,包括饲养管理、疾病防治、母体 效应等,其变异也是显而易见的,对一只羔羊的发育过程来说,它所遭遇的这些有差异 性的内外因素的组合是独一无二的。所以说,遗传差异与环境差异是引起生物体差异的 一对基本矛盾。 正是由于变异之故,中古世纪欧洲的鼠疫虽然猖獗一时,但并没有把欧洲人全部消 灭。说得过头一点,假若没有变异性存在,哪还有一个欧洲人能渡过鼠疫的灾难呢?所 以说,变异性的出现是由于影响某自然事物或现象的许多大大小小的内外因素的偶然性 配合所致。科学研究的目的就在于把这些由内外因素所引起的效应的客观规律剖析清 楚,以便通过它们对同类的事物或同型的现象加以估计和预测。 1.1.4 数据的类型 两类 1.离散型 一棵果树结了多少只苹果?你们班有多少人?多少同学体育达标?这类用计数方式 得到的数据叫离散型数据。每个数必须以整数表示。两个整数间的数值是不连续的、离 散的。 2.连续型 本班同学的平均身高、平均体重?一次降雨的降雨量,这类用计量工具直接测定的数 据,所得数据不一定是整数,在整数之间可以出现任何值。 例如:在养鸡的育肥试验中,养了 5 只鸡,一个月以后,每只鸡的增重量都不一样, 分别 3.0 斤、2.6 斤、3.2 斤 3.1 斤和 2.8 斤。是连续型数据。如果鸡的数目非常之多, 称的非常精细,那么任取其中一个增重范围,如 2.6-2.7 斤,不论这个范围定的多么小, 总可以找出几只鸡,其增重大于 2.6,而小于 2.7 斤。即如果把各只鸡的增重在标尺上 一点一点标出来,在一定的区间内,只要鸡的数量很多,这些点就可能一点一点地连接 起来,连续性的含义就在于此。 1.2 原始数据的检查与核对 搜集的原始数据在整理之前,应先对全部数据进行检查与核对,分辨真伪,力求完 整、真实和准确。 (1)检查数据本身有无差错
记录不全(丢失、损坏、遗漏) 记载错误(笔误、虚构) 测量工具不够、测量技术不熟练 对一些特殊值(极大、极小的)应反复核实,以保证计算的正确与可靠。 (2)取样有无差错 取样不全或非随机取样都会影响统计的准确性。 (3)数据不合理的合并 不同性别、健康状况、品种、年龄、时间与年度、试验因素不同等数据进行了不合理 合并,应予以纠正。 1.3小数位的取舍 两个法则: 法则1.在近似数相加或相减时,小数位数较多的近似数只要比小数位最少的那个加数 多留一位,其余都把它舍去。在计算结果里应保留的小数位数和原来近似数里小数位最 少的哪个位数相同。 不正确运算 正确运算 3.145 3.14 2.27 2.27 3.5 3.5 2.8 2.8 11.715 11.71-11.7 法则2。在两个近似数相乘或相除时,有效数字多的近似数只要比有效数字较少的那个 数多保留一位,其余的都把它舍去,在计算结果里从第一个不是零的数字起应保留的数 字的个数,和原来近似数里有效数字较少的那个位数相同。 不正确运算 正确运算 3.8654 3.865 ×2.96 ×2.96 231924 23190 347886 34785 77308 7720 11.441584 11.4404011.44 法则3.在运算过程中要决定取舍位数时,应运用四舍五入法。比5大进一位,比5小 9
9 记录不全(丢失、损坏、遗漏) 记载错误(笔误、虚构) 测量工具不够、测量技术不熟练 对一些特殊值(极大、极小的)应反复核实,以保证计算的正确与可靠。 (2)取样有无差错 取样不全或非随机取样都会影响统计的准确性。 (3)数据不合理的合并 不同性别、健康状况、品种、年龄、时间与年度、试验因素不同等数据进行了不合理 合并,应予以纠正。 1.3 小数位的取舍 两个法则: 法则 1. 在近似数相加或相减时,小数位数较多的近似数只要比小数位最少的那个加数 多留一位,其余都把它舍去。在计算结果里应保留的小数位数和原来近似数里小数位最 少的哪个位数相同。 不正确运算 正确运算 3.145 3.14 2.27 2.27 3.5 3.5 2.8 2.8 11.715 11.71 11.7 法则 2. 在两个近似数相乘或相除时,有效数字多的近似数只要比有效数字较少的那个 数多保留一位,其余的都把它舍去,在计算结果里从第一个不是零的数字起应保留的数 字的个数,和原来近似数里有效数字较少的那个位数相同。 不正确运算 正确运算 3.8654 3.865 × 2.96 × 2.96 231924 23190 347886 34785 77308 7730 11.441584 11.44040 11.44 法则 3. 在运算过程中要决定取舍位数时,应运用四舍五入法。比 5 大进一位,比 5 小
舍去之.13.5及14.5本来有三位有效数字,如果取两个有效数字时,它们都是14.3.100 有四个有效数字、3.1有两个有效数字、310,000,000有九个有效数字,31×107或 3.1×108只有两个有效数字。 1.4频数表与频数图的编绘 当对某一事物做初步调查或实验时,可得到大量数据(如几百个),对此未加整理的 大堆数字很难得到明确的概念,如果把这些数据按数值大小进行分组,统计频数,制成 频数分布表,就可以看出资料的集中和变异情况,从而对资料得到一个初步的概念。 1.4.1数据整理的目的在于: (1)将区别不同类型,剖析事物的结构和特点,揭示现象的内在联系。如某医院 调查了120天新生儿的体重情况,把新生儿的体重按人数分组。图1可见,每10个新 生儿中,体重超过3公斤的人数通常为5-8个,少于4个或多于9个的情况很少出现。 说明该地区人民的生活水平居中,新生儿体重正常。若超过3公斤的人数很多或很少则 会发现不同的问题(发挥)。 (2)用数据进行各种对比分析,可以透过现象看本质。如同一指标做不同时期的 对比,不同地区和部门的对比,部分和全体的对比,计划与实际的对比等等。 (3)从频数表(图)可以明显地看出数据的三个重要特征:a:集中情况:b:变 异情况:c:曲线情况:d:不规则情况。 如比较小麦体内水含量在不同生长期(苗、分蘖、拔节、抽穗、开花、灌浆、成熟 期)的变化情况,可以找出小麦对水分的敏感期,实施合理灌溉,节约用水,提高水分 利用率。 又如,新近培养出一种抗旱高产小麦品种,在南疆试种效果较好,在北疆其产量是 否稳定呢?要进行不同地区的栽培比较。看不同地区的产量性状。 (4)研究数量的集中趋势和离散程度。 1.4.2离散型数据的整理 例1.调查每天出生的10个新生儿中,体重超过3公斤的人数。共调查120天。 776675883967588878986 787576887956859776868 10868797787586787108975 876787598776785794787 5778987868468758679108 657787678776678
10 舍去之。13.5 及 14.5 本来有三位有效数字,如果取两个有效数字时,它们都是 14。3.100 有四个有效数字、3.1 有两个有效数字、310,000,000 有九个有效数字,31×107 或 3.1×108 只有两个有效数字。 1.4 频数表与频数图的编绘 当对某一事物做初步调查或实验时,可得到大量数据(如几百个),对此未加整理的 大堆数字很难得到明确的概念,如果把这些数据按数值大小进行分组,统计频数,制成 频数分布表,就可以看出资料的集中和变异情况,从而对资料得到一个初步的概念。 1.4.1 数据整理的目的在于: (1)将区别不同类型,剖析事物的结构和特点,揭示现象的内在联系。如某医院 调查了 120 天新生儿的体重情况,把新生儿的体重按人数分组。图 1 可见,每 10 个新 生儿中,体重超过 3 公斤的人数通常为 5-8 个,少于 4 个或多于 9 个的情况很少出现。 说明该地区人民的生活水平居中,新生儿体重正常。若超过 3 公斤的人数很多或很少则 会发现不同的问题(发挥)。 (2)用数据进行各种对比分析,可以透过现象看本质。如同一指标做不同时期的 对比,不同地区和部门的对比,部分和全体的对比,计划与实际的对比等等。 (3)从频数表(图)可以明显地看出数据的三个重要特征:a:集中情况;b:变 异情况;c:曲线情况;d:不规则情况。 如比较小麦体内水含量在不同生长期(苗、分蘖、拔节、抽穗、开花、灌浆、成熟 期)的变化情况,可以找出小麦对水分的敏感期,实施合理灌溉,节约用水,提高水分 利用率。 又如,新近培养出一种抗旱高产小麦品种,在南疆试种效果较好,在北疆其产量是 否稳定呢?要进行不同地区的栽培比较。看不同地区的产量性状。 (4)研究数量的集中趋势和离散程度。 1.4.2 离散型数据的整理 例 1.调查每天出生的 10 个新生儿中,体重超过 3 公斤的人数。共调查 120 天。 7 7 6 6 7 5 8 8 3 9 6 7 5 8 8 8 7 8 9 8 6 7 8 7 5 7 6 8 8 7 9 5 6 8 5 9 7 7 6 8 6 8 10 8 6 8 7 9 7 7 8 7 5 8 6 7 8 7 10 8 9 7 5 8 7 6 7 8 7 5 9 8 7 7 6 7 8 5 7 9 4 7 8 7 5 7 7 8 9 8 7 8 6 8 4 6 8 7 5 8 6 7 9 10 8 6 5 7 7 8 7 6 7 8 7 7 6 6 7 8