(2)统计方法的选择如果每次只分析一个指标可进行统计描述或单变量统计分析,也 可进行区间估计或假设检验(需给定总体均数或公认的标准值)。如果每次要分析两个或两个 以上指标,则可选用上述“研究变量之间的关系”中所介绍的某些方法。 2.I型数据结构—只含定性资料 (1)数据结枸见表1.1.3 丧1.1.3103例冠心病患者的部分资料 编号X1(性别)X2(高血压史)X(吸烟史)X(基因型XhAI)X2(基因型 EcoRE) 男 无 女 无 有 +/+ 103 男 有 有 +/+ (2)统计分析方法的选择 表1.1.3的资料无法直接进行统计分析,常将它整理成列联表(见表1.3.3和表1.34) 的形式之后,再用定性资料的统计分析方法分析(如:定性资料的假设检验、 logistic概率模型 回归分析、对数线性模型分析、对应分析)。 3.Ⅱ型数据绝构——同时含有定量和定性资料 (1)数据结构 该结构是表1.1,2与表1.1.3的混合。 (2)统计分析方法的选择 根据研究者的需要,可分别对1、I和■型数据结构进行分析 把定性指标作为分组标志,定址指标作为观测结果(或称反应变量),可选用定量资料的假 设检验、判别分析等方法。 把定性资料数量化后看作定量资料就将■型数据结构转变成!型数据结构,可选用相应 的统计分析方法。如:对性别而言,可用0表示男性用1表示女性使之量化;水平数≥3的定 性变量的数址化方法,参见第4篇第2章第1节。 把定量资料离散化后看作定性资料,就将■型数据结构转变成I型数据结构,可选用相应 的统计分析方法。如:对年龄而言,可分别按<35岁、35~50岁、>50岁划分成青年组、中年 组、老年组,使之离散化。 第7节几个重要的统计名词 1.必然事件与随机事件 在一定条件下必然发生的事件称为必然事件;而可以发生也可以不发生、可以这样发生 也可以那样发生的事件称为随机事件。在医学上有很多事件都是随机事件,如病人来医院就 诊,其最终转归可以是治愈,也可以是无效。因此病人的疔效是随机事件 2,同质与变异 客观事物总是千差万别而各不相同,即使是性质相同的事物,就同一观察指标来看,各观
察单位之间也有差异称为变异。如研究儿童的身体发育,同性别、同年龄儿童(统计上称为“同 质”观察单位)的身长,有高有低,各不相同称为身长的变异。统计研究的是有变异的事物统 计分析的任务就是在同质分组的基础上,通过对变异所呈现出来的统计规律性的研究,透过偶 然现象,揭示同质事物的本质特征和规律。 3.总体与样本 总体是指根据研究日的确定的同质事物中所有观察单位的全体。如研究两种治疗措施对 高血患者的降用效果,总休就是全部高血压患者当然,我们一般无法研究总体,而是用随机 化的方法抽取其屮一部分病例进行研究,统计上称为抽样研究,所得到的一部分病例称为样 本。总体可以是有限总体,但更多的是无限总体,研究样本的目的是了解总体、推论总体规律 不是为了样本本身。要保证样本的可常性必须要求当总体确定后,样本中的每一观察单位确 属预先确定的同质总体。另外,还要保证样本其有代表性,能够充分地反映总体的真实情况,必 须要求抽样要遵守随机化的原则,并有足够的样本含量 4.抽样误差 在抽样过程中即使从同一总体中随机抽取含量相等的若干样本,算得的样本指标往往不 定相等例如从某校学生中抽取儿组学生测量脉率结果各组均数彼此不等。虽然他们同是 健康的年龄相近的青年人(米自同一总体),但是各学生的脉率不尽相同。这种因抽样产生的样 本与样本、样本与总体相应统计指标之间的差异,统计学上称为抽样误差。由于观察单位间存 在个体差异,样本乂未包含总体的全部信息因而抽样误差是无法避免的。抽样误差的大小主 要取决于观察单位间变异程度的大小和样本含量的多少。变异程度越小,样本含量越多,抽样 误差越小;反之亦然。 5.概率 概率是度量某随机事件发生可能性大小的一个数量,常用符号P( probability)表示。在日 常生活中人们经常能听到与概率有关的表述。比如说:“这个病人的诊断十有八九是冠心病”, 从概率论的角度来看,就可认为这个病人患冠心病的概率是80%~90% 概率可用小数或百分数表示,如P=0.05,或写作5%。概率的取值范围在0~1之间。若 某一事件必然不发生,则该事件发生的概率为0;某…事件必然发生,则该事件发生的概率为 1当P→0,表示某一事件发生的可能性极小,小得几乎不可能发生。当P→1,表示某事件发生 的可能性极大,大得几乎必然要发生。 概率论是数理统计的基础,统计分析的许多结论,都是建立在概率大小的基础之上的。 6.参数、统计量和自由度 在科研工作中为了掌握研究对象的某些性质我们对样本作了若干次观察,依据观察值 算出反映样本分布特性的一些量,称它们为统计量例如为了了解健康成年男子每升血液中白 细胞数而进行检验由所测得的一系列数值算出一个平均数,这个平均数就是一个“样本统计 量”。样本标准差和样本率也是统计量。从这些统计量可以估计总体平均数、总体标准差和总 体率,这些用来表示总体分布特征的统计数字称为参数 自由度是某统计量中变量可以自由取值的个数。以下用df(或υ表示自由度。设某统 计量中变量X共有n个取值,df=x;若它们受到k(k<n)个条件制约,则df=n-k 7.假设捡验 又称显著性检验从抽样误差的概念中可以理解如果观察两种药物治疗某病的疗效有差
别,可能有两种原因造成:一是单纯由抽样误差所致(即两个样本来自同一总体),二是除抽样 误差外,两种药物的效果确实有所不同(即两个样本来自疗效不同的两个总体)如何判断差别 系由何种原因引起的呢?可用假设检验来鉴别。假设检验就是:首先对总体的参数作出某种假 设,如两种药物总体有效率相等。在此假设的前提下,对样本数据进行加工,计算出样本统计 量,如两个样本的有效率。再利用概率分布原理(如由样本率构造出的统计量服从x2分布),计 算出x2值由此再计算出相应的概率(P),对原假设应该被拒绝还是接受作出推断。若差异由 抽样误差引起的可能性很大,则P值大,如P>0.05,统计上称这种差异为“无显著性意义”。 意思是这两种药物来自疗效相同的同一总体,只因抽样误差使表面上有些差别,实质上其疗效 是差不多的:若差异超过了抽样误差所容许的范围则P值很小,如P≤0.05(或0.01),统计 上称为“相差有显著性意义”,这时才能认为这两种药物来自疗效不同的两个总体,其差别不 能仅由抽样误差来解释。只有此种情况下,才可推断两种药物的疗效有优劣之分。 (胡良平姚晨)
第2章试验设计入门 第1节试验设计的意义、要素、原则和原理 1.试验设计的意义 在进行具体的试验之前,对所要研究的有关问题的各个重要方面作一全面了解和调查,从 面制定出切实可行的试验方案。一个设计优良的试验方案的意义就在于它能用比较经济的人 力物力和时间,得到较为可靠的结果准确地控制和估计误差的大小,还可使多种试验因素包 括在尽可能少的试验中,达到高效的目的。 般来说在试验设计中就应该明确写出以下内容:①重点要考察哪些试验因素以及各因 素应取哪些水平;②选用什么样的设计方案来控制重要的非试验因素的影响以便有效地控 制和估计试验误差;③选用什么作为试验单位;④试验效应应通过观测哪些指标来体现;⑤如 何根据指标的性质合理地收集试验数据;⑥将来处理这些数据可能需要运用哪些统计分析方 法。对于自己还不熟悉的统计方法应尽早与内行取得联系,求得帮助。在这些问题中,“试验因 素、试验单位和试验效应”是试验设计中不可回避的问题,应当给予更多的关注 2试验设计的三要素 在统计学中,常把“试验因素、试验单位和试验效应”称为试验设计的三要素,之所以这样 称呼它们,是因为它们是任何一项试验研究所不可缺少的 (1)试验因素 所谓试验因素就是在试验中研究者希望着重考察的某些试验条件。如在某项化学试验 中,温度是一个重要的试验条件,在不同的温度下做试验,其反应和最终的产物可能很不相同。 在统计学上,习惯把温度称为此项试验的试验因素,面把温度在各次试验中的具体取值(如: 20C、40C、60C等)称为温度这个因素的不同水平然面,影响试验结果的因素常常有很多在 次试验中研究者不可能也不必要对所有影响因素都进行研究因此,在试验设计中常常将 试验因素以外的影响因素称为非试验因素。为了尽可能减少各组受试对象的自身条件对试验 结果的影响,在试验设计时常对重要的非试验因素(如体重或动物窝别等)作有计划地安排, 以便在进行统计分析时将其作用排除,更准确地评价试验因素取不同水平时对试验结果的影 响大小,这样的因素在统计学上称为区组因素,如选窝作为区组因素,则不同禽就是其不同的 水平由于对试验因素和区组因素的安排和控制的方法不同,便产生了各种不同的试验设计类 型 试验因素的性质、强度和施加方法等必须标准化,在试验全过程中不应随便改变。试验因 素的性质可分为物理的(如针剌、射线、理疗等)、化学的(如药物、毒物等)和生物的(如细菌 病毒等)。另外,试验因素和非试验因素也是相对的,某因素在某项试验研究中被视为非试验 因素,在另一项试验研究中可能会被视为试验因素,需根据具体情况决定。 (2)试验单位 指受试对象接受处理的基本单位。例如用动物作试验对象,根据处理的方式,试验单位可
以是动物个体,也可以是动物的某肢体或神经试验单位根据处理作用的部位可划分为若干 等级。如用家兔做实验,观察指标是家兔眼房水中某种物质的含量,如果处理方式是给家兔全 身注射药物,则家免是一级试验单位,若分别给家兔的两眼造成不同程度的局部损伤,则兔眼 为二级试验单位。如果在试验中既给家免注射药物,又给免眼造成局部损伤则在该试验中既 有一级试验单位,又有二级试验单位。在比较药物的作用时,将家兔看作试验单位;在比较局 部损伤作用时,将兔眼看作试验单位。也就是说药物的作用在一级试验单位中比较局部损伤 的作用在二级试验单位中比较。在以上实验中,观察单位是兔眼但根据处理方式的不同试验 单位可以是家兔整体也可以是家兔器官(眼)。同理,在有些医学实验中,尽管观察单位很小, 处理间的差异也应在试验单位中比较如用亳米波辐射小鼠后观察小鼠肝细胞超微结构,尽管 可将每只小鼠的肝脏制成很多切片进行观察,但试验单位数仍是小鼠只数。 作为试验单位应具备的基本条件是对试验因素既敏感又特异,敏感与特异可以一致,也可 以不一致·既敏感又特异者最为理想。敏感佳而特异差者不好因为后者不易排除非试验因素 的干抗。在选择受试对象时还应考虑其他各种条件如选择动物为试验单位时,应考虑种属品 系、窝别、性别、年龄、体重、健康状况及病理模型等。如为临床研究除考虑人的种族、地域性 别、体重健康状况等一般条件外,尚需着重考虑社会因素如职业、爱好、生活习惯、居住条件、 经济状况、家庭情况和心理状况等。同时还要重点考虑病种、病情病程等。此外,对病例选择 应有正确诊断和正确分期的标准 (3)试验效应 指试验因素施加于试验单位后所起的作用,任何效应都是通过指标的具体取值反映出来 的,所以效应指标是鉴定效应的尺度。 按效应指标的性质分类指标分为客观指标和主观指标。客观指标是借助仪器测量检验 所得的结果如测量人的身长、血压等指标;主观指标则是由受试者或研究者主观判断的指标 有些指标的来源虽然是客观的但判断上却受主观影响如X线片、病理切片、化验上絮状反 应的观察等 在设置效应指标的数目时,可根据研究目的与要求不同,拟定的指标可多可少。效应的表 现可能是多方面的所以观察指标也有多种。不能认为指标越多越好,因为任何事物都有主要 矛盾,研究的主要目的常常只有一个,所以指标不宜过多,应尽量地集中,以突破重点。 作为观察指标的首要条件是实验所用的指标必须与所要研究的目的有本质上的联系,并 能确切反映出试验因素的效应。其次,要求指标具有-定的灵敏性和特异性,提高指标的灵敏 性是检出效应微量变化的关键环节提高的手段主要靠检测方法和仪器的改进。在选择观察指 标时尽可能选择客观指标,并要求测量指标具有一定的精确性,即准确度和精密度。所谓准确 度是指测定值与真值之间的符合程度,其大小与系统误差有很大的关系。在系统误差消除的前 提下,统计学中以标准误差来说明实验的准确度大小所谓精密度是每次测定值与均数之间的 符合程度,统计学中用标准差、变异系数、方差和回叫收率等来表示实验精密度的大小。另外,对 记录指标的方法、格式、吋间等都应事先作好标准化规定。 3.试验误差及其分类 误差是指在试验中的原始数据与真实值之间样本统计量与相应参数之间的差别。误差产 生的主要原因是由于观测指标的变异性、个体差异的存在和在试验中没有严格遵守试验设计 的基本原則。误差包括随机误差和非随机误差