1.4.18%正常 1.84.7%正常 2.14.58%可贬 %可赈 3.8054% 3.336%较密、密 较、密 黄痘肝炎 正常人组 图1.3.3两组人群3种超声波波型的频数构成的复式圆图 【例1.3.4】应选F。因为年份是时间 变量,且是连续变化的,两种疾病的病死率随 时间的推移呈逐渐下降的趋势,若选普通线 图(见图1.3.5)给人的感觉好像是结核病 y的死亡率下降得比伤寒病快得多。其实这是 由于前者下降幅度大(174.5/10万~375/ 10万)·为137/10万,后者下降幅度小 (31.3/10万~0.3/10万),为31/10万,使人 的感官产生了错觉;而绘出半对数线图后 02444648505255658(见图1.3.6),就会发现真正下降得快的是 体重kg),X 伤寒病的死亡率,这一点只需算出最大值是 图1.3.4反映女大学生体蘆与肺活量变化趋勢最小值的多少倍就清楚了。对结核病而言, 的散布囝 174.5÷37.5≈4.7;对伤寒病而言,31.3÷ 0.3≈104.3,这种倍数关系正是需要通过取 对数变换才能表现出来的故应该选半对数线图。 200 000 1 --结核病 100 结核病 伤寒 19501954 19581962 19501954195819621966 年份 年份 图1.35反映两种疾病病死率随时间推移的变 图1.3.6反映两种疾病病死率随时间推移变化 化幅度的普通线图 速度的半对数线图
第3节平均指标——度量定量指标的平均水平 平均指标用来反映一群性质相同的数据的平均水平(或集中趋势),常用的平均指标有5 种,即算术均数、几何均数、调和均数、中位数和众数。 1.算术均数(x) 简称均数,适合于表达呈正态分布资料的平均水平。对于原始资料和频数分布表资料,计 算均数分别用式(1.3.1)的第1和第2式 x=(X,)/n或 1.3.1 【注】关于正态分布的概念和正态性检验请分别参见本章第5节和第8节。目测法:若资 料满足下面的条件,则适合选用均数表达资料的平均水平。把数据从小到大排列若全部数据 关于中等大小的数据基本对称,且全部数据彼此之间相差不过于悬殊。 2.几何均数(G) 适合于表达呈对数正态分布(即资料取对数后服从正态分布)资料的平均水平。对于原始 资料和频数分布表资料,计算几何均数分别用式1.3.2的第1和第2式 G=lg-((△lgX)/n)或G=lg(fgX)/n) 1.3.2 式1.3.2中的常用对数kg也可用自然对数hn代替 【注】日测法若资料满足下面的条件时,则适合选用几何均数表达资料的平均水平。数 据之间成倍数关系(如2,8,1632)或资料呈正偏态分布(概念参见本章第8节)。 3.调和均数(H) 适合于表达呈极严重的正编态分布资料的平均水平。对于原始资料和频数分布表资料 计算调和均数分别用式133的第1和第2式 或 1.3.3 ∑(1/X,) ∑(f/X) 【注】目测法:若资料满足下面的条件,则适合选用调和均数表达资料的平均水平:多数 数据比较接近且数值较小,个别数据特别大。 说明】在式1.3.1~1.3.3的第2式中X、分别为频数分布表中第j组的组中值和频 数,n=2、k为组数。 4.中位数(M) 适合于粗略地表达资料的平均水平,尤其适合于表达只知数据的个数、但部分较大或较小 数据的具体数值未准确知道的资料的平均水平在临床试验研究中,常因病人失访或意外死亡 等原因,造成所收集的资料信息不全称为不完全资料或截尾资料就是其特例。将全部数据由 小到大排列后,对于原始数据和频数分布表资料,计算中位数分别用式1.3.4和式1.3.5。 M (n十1)2 (n为奇数) X,2+Xn2:)/2 (n为偶数) 1.3.4 式1.34中的、”+1、+1)为数据由小到大排列后的位次
式1.3.5中Lm、f分别为中位数所在组组段的下限值和频数,为组距,C为观测值小于Lm 各组的累计频数。屮位数所在组就是累计频数恰包含的那一组。 5.众数(X) 适合于粗略地表达呈单峰分布资料的集中趋势,在医学上常用于估计传染病的平均潜伏 期。当数据个数较少时,众数就是出现次数最多的那个数据;当数据个数较多时,编制成频数分 布長,众数就是频数最多的那一组的组中值。但众数随频数分布表的组段、组距的改变而改变。 因此众数在大样本颗数分布资料中使用得较少 【例1.3.5】请分别选择适当的平均指标反映下列5组资料的平均水平 ①测定了5名健康成人第1小时末血沉值(mm)分别是6,3,2,9,10。 ②有5人血清抗体效价分别为1:10,1:100,1:100,1:100001:100000 ③某医生观察5名小细胞未分化型肺癌患者,其生存期(月)分别为6,10,14,23',41·, 此组资料称为不完全(或删失,或截尾)资料。 ①用一定剂量的环己巴比妥使7只大鼠的睡眠持续时间(min)分别为25,30,55,50,35 26,>120(最后一只鼠虽等了2h仍未苏醒) ⑤12名食物中毒者进餐至发病时间(h)分别为2,2.5,2.5,2.72.8,3,3,3,335,3.5, 【分析与解答】上述5组试验数据,如果都用算术均数来表达其平均水平,显然是不合适 的。根据资料的分布特点,①~⑤组资料分别适合于选用算术均数、几何均数中位数调和均 数、众数(或算术均数)。 按式1.3.1的第1式分别计算第①和⑤两组资料的均数,得 (2+3+6+9+10)/5=6(mm),x=(2+2.5+…+4)/12=2.96(h)。 按式1.3.2的第1式计算第②组资料的几何均数,得 G=lg(lg10+lg100+…+lg100000/5]=g-13=100 按式1.3.3的第1式计算第④组资料的调和均数,得(注:把最后1只鼠的持续睡眠时间 看作∞):H=7/(1/25+1/30+…+1/∞x)=39.2(min) 按式1.3.4计算第③组资料的屮位数,得:M=X3=14个月因n=5,(n+1)/2=3。 按众数的定义,确定第⑤组资料的众数,得:X=3h) 【专业结论】求得第①组资料的均数为6mm,第②组资料的几何均数为1:100,第③ 组资料的中位数为14个月,第④组资料的调和均数为39.2min,第⑤组资料的众数和算术均 数分别为3和2.96h 【说明】亍、G、H由计算获得,对资料的利用度高,其结果更可靠;MX由位置决定,对资 料的利用度低其结果仅作粗略估计之用;但对不完全资料往往用M比用更切合实际;无 论选用哪一种平均指标,其共同的前提条件都要求待分析的这组资料必须性质相同,而且,应 该说明究竞使用的是5种平均指标中的哪种。 号長示统计截小时患者尚生存或肉搬迁、意外事故等原因前失访,产生了截尾数据
第4节交异指标——度量定量指标的变异程度 变异指标是用来反映一群性质相同数据的离散程度大小的指标,常用的变异指标有标准 差、方差、标准误差、变异系数等 1.标准差 设总体均数μ、含量N均已知,则总体标准差σ按式1.3.6计算;当H和N未知,而样本 均数x样本含量n均已知时,则样本标准差按式1.3.7计算。 a=[(∑(X.-)2)/N]2 1.3.6 S=[(2(X-2)2)/(n-1)]2=[lx/(n-1)]2 式1.3.7中的lx称为X的离均差平方和,按式1.3.8计算比较方便 =2X2-(2x)/m 1.3.8 2.方差 标准差的平方,它正好是离均差平方和与自由度之商,故又称为均方(MS)。 3.变异系数 它是不受单位影响的一种变异指标。特别适用于下列两种场合下比较两组或多组定量资 料间变异程度的大小。 其一,各组数据的单位不完全相同;其二,均数相差悬殊。按式1.3.9求变异系数CV) CV ×100% l.3.9 4.标准误差 它是统计量的标准差(关于统计量的概念,见第1篇第1章第7节)因为统计量是样本观 测值的函数,一旦样本改变统计量的取值也会随之改变。为了避免与样本观测值的标准差相 混淆在统计学上,把反映一群性质相同的统计量离散程度大小的量叫做标准误差。从理论上 来说,只要给出了一个统计量,就有其相应的标准误差 用S、S、S-、S。分别表示统计量x、P(样本率)r(样本相关系数)、CV的标准误差,它们 的计算公式分别为式1.3.10~1.3.13。 1.3.10 S=[P(1-P)n]2 1.3.1k S=[(1-r2)/(n-2)]2 1.3.12 S=[Cv2(1+2CV2)/(2n)] 1.3.13 以上这些变异指标最好用于呈正态分布(见本章第5节)或对称分布的资料,若资料呈明 显的偏态分布,则适合用以下几种变异指标来反映定址资料的变异程度(或离散趋势)。 5.极差 也称全距即一组定量资料中的最大值与最小值之差。它受极端值的影响很大,只能起到 粗略地描述定量资料离散趋势的作用,故应用得较少 6.分位数间距 即同-个资料中某两个分位数(关于分位数的概念见本章第7节)之差。具体地说,有四分
位数间距、十分位数间距和百分位数间距。其中四分位数间距用得较多。在实际应用中,分位 数更多地是用来描述资料的分布情况。与此同时,计算出分位数间距,便可度量呈偏态分布的 定量资料的离散趋势,故把这些内容放在分位数一节中一起讨论,更符合实用性要求。 【例1.3.6】设X代表乳腺癌患者化疗后血液尿素氮的含量,测得9名患者该项指标的 数值如下,请计算X的标准差、x的标准误差和X的变异系数。X(mmol/L):4.18,3.07, 4.61·5.11,3.03,5.60,4.43,3.46,4.99。 【分析与解答】 编号 计算过程和计算结果 引用公式的编号 28(mmol/L) X=38.48、>X2=171.299 S=0.920300(mmol/L) 5 S=0.306767(mmol/L) 1.3.10 6 CV=21.50% 【专业结论】求得9名乳腺癌患者化疗后血液尿素氮含量的标准差和变异系数分别为 0.92mmol/L和21.50%;均数的标准误差为0.31mmol/L。 第5节随机变量及其概率分布 1.随机变量 按一定概率可以在一个特定数集中取值的变量称为随机变量只能取某些离散值的称为 离散型随机变量。例如,设N代表一组患有相同疾病的人数,某医生用一种新疗法给他们治 疔,再设X代表治愈者人数,则N是一般变量(可人为事先确定其取值),但X就是一个离散 型随机变量,其一切可能取值为01,2,…,N;可以取一个有限(或无限)区间内所有值的称为 连续型随机变量。例如,设Y代表一组成人的身高m),Y的一切可能取值可以充满一个区间 (1.0,3.0) 2随机变量的概率分布 表示一个随机变量取给定值或属于一给定值集的概率所确定的函数称为随机变量的概 率分布。换言之,随机变量的概率分布包括两部分内容:其一,给出随机变量一切可能的取值; 其二,给出一个确定的函数用来计算随机变量取每一个值(对离散型随机变量而言)或取某 个区间内所有值(对连续型随机变量而言)的概率。关于几种常用的离散型随机变量的概率分 布(如二项分布、普阿松分布等)将放到本书附录中备查,下面扼要介绍一下正态分布,因为它 是统计学的最重要的理论基础。严格地说,在讲授均数、标准差的同时,就离不开正态分布了。 3常用的连续型随机变量的概率分布 正态分布(也称高斯分布)设X是一个服从正态分布的连续型随机变量X在(a,b)范围 内取值的概率P(a<X<b)可用式1.3.14计算 P(a<x<b)=0(x)dx,-∞<x<+∞ l.3.14 式1.314中f(X)称为x的概率密度函数其一般形式见式1.3.15