附录3佔计样本含量的常用公式… (399) 3.1估计总体均数时所箭的样本含量…………… …………(399) 32估计总体率时所需的样本含量……… (399) 33采用单组设计或定量资料的配对设计时所需的样本含量……………………(399) 3.4采用成组设计时所需的样本含量……… (399) 3.5两总体率比较时所需的样本含量……………………………… 3.6四格表中配对设计时所需的样本含量“ 3.7室线相关分析时所需的样本含量………… 38两总体相关系数比较时所需样本含量 (400) 3.9两总体生存率比较时所需的样本含量…………… …(401) 附录4常用离散型随机变量的概率分布…………………………… 4.1二项分布 ………(402) 普阿松分布 ,,.,着·,,里. ……………1……·…(402) 4.3几何分布… 附录5与SAS软件有关的内容 (403) 5.1SAS表达式简介……… ………(403) 5.2SAS函数筒介 (403) 53SAS语句简介…… (405) 5,4SAS过程名及功能简介………………………… ………………………(417) 5.5SAS命令筒介… (418) 5.6SAS中宏知识简介 ……(420) 附录6中英文对照索引…………………… (425) 附录7參考文献 …………(429)
第1篇统计学基础知识与SAS软件应用技巧 第1章绪论 第1节统计学的理论基础和研究对象 统计学是运用概率论和数理统计的原理、方法研究统计研究设计,数字资料的搜集、整理 分析和推断,从而掌握事物内在客观规律的一门学科。马克思主义认为:世界是物质的,物质 是运动的,运动是有规律的,规律是可以认识的:运动的形式随着时间、空间条件的变化而变 化,一切运动都是由量变到质变,反映事物变化的规律离不开统计这个工具。因此,统计学广 泛运用于各行各业.从事医学研充和疾病防治L作也不例外 概案论和数理统计是统计学的理论基础·它在不同领域的应用形成了不同的统计学科,如 在医学中应用.就有医学统计学。无论在基础医学,临床医学和预防医学各个方面的科学研究 以及防治工作计划的拟订和结果的正确评价,都必须进行周密的试验(或调查)设计、有计划地 收集资料并进行合理的统计分析 统计学所要研究的对象是有变异的事物白然界的·切事物有着不同的内在规律,但由于 受着许多偶然因素的影响,以致在相同的条牛下,同·类事物之间会存在着差异,这种差异统 计上称为变异例如同为健康人,即使是同性别、同年龄他们的身长、体重、血压等指标的取值 都是不同的由于事物之间有变异,研究者必须在观察一定数量的基础上进行统计分析才有价 值。统计研究不是孤立地研究各种现象·而是通过一定数量釣观察,从这些现象里研究事物间 的相互关系,阐明事物客观仔在的规律。由于统计研究对象之间仔在着变异,变异的出现是由 于许多内外因素偶然性的配合所致,因此,统计研究的各种现象的表现是…种随机事件。随机 事件是指一次试验结果不确定,而在…定数量重复试验的条件下呈现出统计规律性的事件科 学究的目的就是在于闸明客观存在的规律,从而通过它们对同类事物加以估计和预测,以便 应目于实际,所以统计須在一定数量观察的基础上进行研究。 第2节统计学的任务和作用 统计学的任务可概述为:①结合专业知识和具体要求进行统计研究设计(包括调查设计和 试验设计),收集和整理资料;②对所收集的资料进行统计描述和处理;③对统计处理的结果进 行分析和解释,根据样本资料所提供的信息推断总体的规律性从而作出科学的结论,并用它 来指导今后的实践 统计学的作用就在于它能帮助人们冇计划、有目的地进行调查研究或试验研究,合理地分 析和解释试验数据,科学地揭示数据之间隐含的内在规律性
必须强调指出的是:统计学只能帮助人们发现规律而不能创造规律。至今仍有一些人不能 正确地看待统计学的作用,尤其是对试验设计的重要性认识模糊。他们不善于在试验研究开始 之前就从统计学的角度去考虑应当如何确定试验因素、观测指标受试对象(包括种类和数 量)·如何合理地安排试验,以便用最少的人力、物力和时间有效地控制和估计试验误差,获得 准确可靠的试验结果;而是等试验结束后,急需发表文章或参加会议时,才想到要用统计学来 为他的试验数据进行“修饰”。此时常常会出现这样的现象;由于试验缺乏完善的设计方案的 指导,要么数据量不够.要么严重地违背了试验设计的基本原则,导致所收集的资料无法处理 或统计结论与专业知识自相矛盾,或结论模棱两可更有甚者不是根据指标的性质试验设计 的类型和研究目的有针对性地来选用统计分析方法,而是将各种统计方法一一试用,看哪一种 方法计算出的结果与他所预期的结果一致就认定哪种方法。由此而得到的科研成果或学术论 文的科学性是值得怀疑的,所有尊重科学的人都决不会容忍这种现象继续蔓延下去 我们应当清醒地认识到,运用统计方法推导出来的结论是否可靠关键取决于以下几个方 而:调查或试验设计是否周密完善是否按设计要求进行实施;所选用的指标是否特异性和客 观性强、灵敏度和精确度高;数据是否真实可靠样本含量是否足够大;所选用的统计方法是否 妥当结果的解释是否正确。因为在运用统计学的全过程中稍有不慎就有可能犯统计学上的 四型错误(参见第2篇第1章)·它们分别产生于试验设计、数据处理、统计推断和结果解释阶 段 第3节统计学的主要内容 1.统计研究设计 调査设计:指调查研究工作全过程的计划’。 试验设计:指对试验因素作合理、有效的安排,最大限度地减少试验误差,使之达到高效 快速、准确可靠和经济的目的 两者的区别:在调查中,研究者较被动地进行观察,只希望干扰因素的影响尽可能地减少; 在试验中,研究者能较主动地安排试验因素,控制试验条件,尽可能排除或抵消非试验因素的 干扰和影响。 这部分内容将在第1篇第2章中详述 2.統计描述(含单变量统计分析) 统计表和统计图:这是表达统计资料常用的两种方法。用统计表表达资料简练准确;用 统计图表达资料,形象、直观。 定量资料集中趋势的度量:常用下列平均指标来描述即算术均数、几何均数、调和均数、 中位数和众数。 定量资料离散趋势的度量用下列变异指标来描述即标准差、标准误差、变异系数、极 差和四分位数间距 随机变量及其概率分布:包括离散型随机变量的概率分布(如:二项分布、普阿松分布、几 何分布超几何分布等)和连续型随机变量的概率分布(如:正态分布t分布X2分布、F分布、 ·标】个星号的内容未作介绍
对数正态分布、指数分布、威布尔分布等) 定量资料分布趋势的度量:常用的指标有分位数、偏度系数和峰度系数 定性资料的统计描述——相对指标(包括率和比) 以上内容将在第1篇第3章中介绍 3.统计分析 (1)假设检验 关于定量资料分布类型的假设检验、定量资料方差(或方差阵)的假设检验、定量资料均数 或均值向量)的假设检验、定性资料分布情况或位置的假设检验、两种属性之间的独立性检验 以及两种方法判断结果的一致性枪验等。 这部分内容将在第2、第3两篇中介绍 (2)区问估计 置信区间的估计即对总体参数(均数、率、方差等)进行区间估计;容许区间的估计,即对 总体中一定比例的个体某指标取值范围的估计。 这部分内容将在第1篇第3章中介绍。 (3)研究变量之间的关系 ①各指标之间无自变量与因变量之分 A.研充变量之间的相可关系有直线相关分析典型相关分析等 B.研究多个变量内部的从属关系,并寻找综合指标降低变量的维数,其常用的方法有主 成分分析、因子分析、对应分析; C.研究多个变量内部或多个样品之间的亲疏关系有聚类分析 D.研究多个变量内部的各种复杂关系有线性结构方程的协方差分析 ②各指标之间有自变量与因变量之分:研究变量之间的依存关系有直线回归分析、曲线 回归分析、多项式回归分析、多元线性回归分析、 logistic概率模型回归分析、生存资料的参数 模型回归分析、COX模型回归分析和对数线性模型分析。 (4)判别分析 根据一些明确分类的总体所提供的信息,对未知个体的归属进行分类的判别分析。内容 (3)、(4)将在第4~6篇中介绍。 第4节学习统计方法的捷径 学习和使用统计方法的全过程可划分为以下三部分:其一,对统计学的概念和方法有一个 大概的了解,以便根据具体情况正确选用统计方法;其二,正确运用统计方法处理实际资料;其 三把专业与统计知识紧密结合起来,对计算结果给出合理的解释,从而作出科学的结论。对于 非统计工作者来说,第二部分是最大的障碍,常因统计计算公式复杂,计算过程繁琐而望而生 畏现在,随着计算机技术的发展统计计算已能通过统计分析软件加以完成,统计计算不再是 困扰科技工作者的难题了。 学习统计方法的捷径是:学习并掌握一个现成的统计分析软件,以便能在电子计算机上实 现各种复杂的统计计算,将主要精力和时间用于学习第一、三两部分内容。本书借助国际上著 标2个星号的内容作筒略介绍
名的统计分忻系统--SAS软件包,作为计算工具,讲述统计学的理论、方法及其应用技巧。 第5节统计资料的类型 正确区分统计资料的类型是正确选用统计分析方法的首要前提在科学研究中,统计指标 常常分为定量和定性指标两大类,所谓定量指标是指对每个观察单位用计量方法测量某项指 标数值大小;而定性指标是指记录每个观察单位的某一方面的特征和性质两类指标进一步又 可细分为计量计数、名义和有序资料四类。严格地说,一谈到资料的类型,就应该是对某个具 体的指标而言,因为一个较复杂的统计资料可能包括上述四种类型的资料,笼统地说,只能称 之为混合型资料。现举例(表1.1.1)说明如下。 表1.1.1资料类型 定量指标 定性指标 计资料 计数资料 名义资料 有序资料 X1(年龄)x2(阳固醇:mmol)X(脉搏:次/min)X4《职业)X(血型)x(疗效)X,(尿糖 5.77 治愈 农民 好转 将人 无效 57 军人 恶化t 说明】计量资料的具体取值通常是正实数(、正整数和小数)即可以取某区间内所有 的值;计数资料的具体取值通常是零和正整数;名义资料的取值通常是文字、字母或代号,即使 是用数字表示,也只是一种分组的标志,并不代表数量的大小;有序资料的取值与名义资料相 同,只是不同取值之间有半定量的关系,可以按数量的相对大小或程度的高低排出顺序,故这 种资料又称为等级资料。 第6节数据结构与统计方法的匹配 在进行统计处理时,人们所面临的资料是混合型的,为便于讨论问题,不妨把任何一个完 甍的资料称之为数据结构。一般来说.对不同的数据结构,有相应的统计分析方法与之相匹配。 下面将根据统计学中的主要内容,展示与之对应的数据结构,以便使用者在处理数据时参考 1.I型数据结构一只含定量资料 (1)数垢结构见表1.1.2 表1.1.2103例冠心病患者的部分资料 (年龄)(胆固醇,mmol/L)(甘油三酯,mmo/L)(低密度脂蛋白,)(高密度脂蛋白,g/L) 5.77 55 103 76 5,05 135 0.42