2015/1/9 回回 课程设置 恋石河于大学 课时:理论课:22学时 实习课:10学时 联系方式:预防医学系卫生统计学教室 第二章定量数据的统计描述 2057153 (Quantitative data statistical Baidu贴吧:yfyx(讨论、答疑、作业) description) 大学精品课程网站 损防医学杂 教学资源(ppt.wmy) ■ 第一节频数分布 ,如表所示: (Frequency Distribution) 4.765265.615.954.464.574.315.18 由奔脸或临床现泰等各种方式得到的原地款 4.924274.774.885.004.73447534 据,和暴是计亚资料异且现察的创款教多, 4.704814935.044405274.63550 为丁能修是示款据的分布规神,可以对款据 5244.974.714.444.945.054.784.52 进行分血,然后制作频散表成脸制直方国。 4.63.5.024.76 ■ 一,k表(Frequency Table) 38设含量金R=之义本R=595 表列出观指每的可取区间及美 (2)填支血题:有年而血之洞的延嘉,取类子资 1.墙克颜放k道常透拆在8一15之间 2.确走血距:参考鱼矩为刷k,R为金延 3,确发氢限:店特会★业习情 3童大领度自上下展:年收的体点稀氨段的 4.对各触酸计放:刻记或由放件壳成 最每必须能如属子禁一敏。去际血展在春饭中只包 香下限而不包香上限。 技数 1
2015/1/9 1 第二章 定量数据的统计描述 (Quantitative data statistical description) 预防医学系 1 2 课程设置 课时: 理论课: 22学时 实习课: 10学时 联系方式:预防医学系卫生统计学教研室 Tel.: 2057153 Baidu贴吧:yfyxx (讨论、答疑、作业) http://tieba.baidu.com/f?kw=yfyxx# 大学精品课程网站→教学资源→(ppt、wmv) http://eol.shzu.edu.cn/eol/jpk/course/layout/default/index.jsp?courseId=1204 2 第一节 频数分布 (Frequency Distribution) 由实验或临床观察等各种方式得到的原始数 据,如果是计量资料并且观察的例数较多, 为了能够显示数据的分布规律,可以对数据 进行分组,然后制作频数表或绘制直方图。 3 例2-1 某地用随机抽样方法检查了140名成年男子的 红细胞数,检测结果如表所示: 如何有效地组织、整理和表达数据的信息? 4.76 5.26 5.61 5.95 4.46 4.57 4.31 5.18 4.92 4.27 4.77 4.88 5.00 4.73 4.47 5.34 4.70 4.81 4.93 5.04 4.40 5.27 4.63 5.50 5.24 4.97 4.71 4.44 4.94 5.05 4.78 4.52 4.63 …… 5.02 4.76 4 一、频数表 (Frequency Table) 频数表:同时列出观察指标的可能取值区间及其 在各区间内出现的频数。 1.确定组数k:通常选择在8~15之间 2.确定组距: 参考组距为R/k , R为全距 3.确定组限: 应符合专业习惯 4.对各组段计数:划记或由软件完成 5 (1)确定全距 全距R=xmax-xmin,本例R=5.95- 3.82=2.13 (2)确定组距:相邻两组之间的距离,取决于资 料的性质和组段数。常以全距的十分之一估计。组 段数通常取8-15组。将全距除以组数可得到组据的 近似值:组距=全距/组数。,若分10组,则参考组 距为i= R /10=2.13/10≈0.21。 (3)确定组段的上下限:各组段的终点称组段的 上限,起点称组段的下限。整个资料范围的每一个 数据必须能归属于某一组。实际组限在每组中只包 含下限而不包含上限。 (4)列表整理:写出各组段的频数:用划记法将 所有数据归纳到各组段,得到各组段的频数。 6
2015/1/9 表2-2盖地140名正者易子包感教的期数表 三、期教表的用波 1,保为藤速资拼的形或 2,便于观春款施的会布真型 3,指述计量资料分车的暴中施券不高长地影 4.便于发观资科中合有的朵常值(板火板小值) 5.可眉春鱼段的频中作为机平的传计值 5.00-6.00 三、有数分布因 "1寺用Histogram) 直见、形录地表赤频款会有的形毒和精征。 ”计量资料一直方因 ,以暴直条段代表频数分韦的一种因形 纵轴为各血的频数,機轴为各组的组限 从中可以看出数据的分韦背点: 44 频款分布的真型 正春舟布 :高年位于中来,左右两创的频数大体对餐 对棒 其老对 ·R终投e树2支量中位五· 血清季南康普州 平的水平指标 (对数三备命市)】 ▣②高最趋参(tendency of dispers w色 住里施线, 支水平指标 2
2015/1/9 2 红细胞数 划记 频 数 频 率(%) 累积频率(%) 3.80~ 2 1.4 1.41 4.00~ 正 6 4.3 5.71 4.20~ 正正 11 7.9 13.57 4.40~ 正正正正正 25 17.9 31.43 4.60~ 正正正正正正 32 22.9 54.29 4.80~ 正正正正正 27 19.3 73.57 5.00~ 正正正 17 12.1 85.71 5.20~ 正正 13 9.3 95.00 5.40~ 正 4 2.9 97.86 5.60~ 2 1.4 99.29 5.80~6.00 1 0.7 100.00 表2-2 某地140名正常男子红细胞数的频数表 7 三、频数表的用途 1.作为陈述资料的形式 2.便于观察数据的分布类型 3.描述计量资料分布的集中趋势和离散趋势 4.便于发现资料中含有的异常值(极大极小值) 5.可用各组段的频率作为概率的估计值 8 三、频数分布图 计量资料-直方图 以垂直条段代表频数分布的一种图形 纵轴为各组的频数,横轴为各组的组限 从中可以看出数据的分布特点: 9 图2-1 140名正常男子红细胞计数的直方图 直方图(Histogram) 直观、形象地表示频数分布的形态和特征。 10 高峰位于中央,左右两侧的频数大体对称 ①集中趋势(central tendency):变量值集中位置。 数据多集中在“4.6~”附近。 ——平均水平指标 ②离散趋势(tendency of dispersion):变量值围 绕集中位置的分布情况。离“中心”位置越远, 频数越小;且围绕“中心”左右对称。 ——变异水平指标 11 频数分布的类型 正态分布 对称分布 其它对称分布 血清学滴度资料 频数分布 正偏态 (对数正态分布) 其它 偏态分布 负偏态 12
2015/1/9 对称分布与偏态分布 两边低左右对称 1.对静分布 2.偏杰分布 ed tothe right). d 中位重 wed,值中位在教大的一制) 第二节幕中旋尊的统计指标 (一)算术均散葡黎均最(mean) 一,描述集中楚势的特征教 膏用的有: 一道用泰桥:用于反映一服里对兼分有或近服 1.养求始k(arithmetic mean),葡燕均羲(mean 对恭分布款梅的暴中位里成平均水平。 2.元6k(geometric mean) 3.中住k(median) ■ 》计算方法 地140名年男于k(×102几) 4.765265.615.954.464.574.315.18 (1)直楼法会式: 4924274.774.885.004.734.47534 4.704.814.935.044.405274.635.50 52449747刀444.945.054.78452 463…5.024.76 -476+526+561++502+476-47 140
2015/1/9 3 对称分布与偏态分布 1.对称分布 2.偏态分布 右偏态( skewed to the right),也称正偏态 (positive skewed),数值集中位置在较小的一侧; 左偏态( skewed to the left),也称负偏态 (negative skewed),数值集中位置在较大的一侧; 13 图2-2 59名链球菌咽喉炎患者的潜伏期(h) 0 10 20 30 40 50 60 70 1 3 5 7 9 11 13 15潜伏期(h) 病例数 图2-3 101名正常人的血清肌红蛋白含量 0 5 10 15 20 25 0 5 10 15 20 25 30 35 40 45 50 肌红蛋白含量(ug/mL) 人数 对称分布:中间高、 两边低、左右对称 正偏态分布: 集中在数值小 的一侧 负偏态分布: 集中在数值大 的一侧 0 5 10 15 20 25 30 35 频数 红细胞数(×1012/L) 图4-2 150名正常男子红细胞数的直方图 14 第二节 集中趋势的统计指标 一、描述集中趋势的特征数 统计上使用平均数(average)这一指标体系来 描述一组变量值的集中位置或平均水平。 常用的有: 1. 算术均数(arithmetic mean),简称均数 (mean) 2. 几何均数(geometric mean) 3. 中位数 (median) 15 (一)算术均数 简称均数(mean) 样本均数用 表示,总体均数用 表示 适用条件:用于反映一组呈对称分布或近似 对称分布数据的集中位置或平均水平。 16 计算方法 (1)直接法 公式 : n x n x x x x n i 1 2 17 某地140名成年男子的红细胞数(×1012/L) 4.77 140 4.76 5.26 5.61 5.02 4.76 x 4.76 5.26 5.61 5.95 4.46 4.57 4.31 5.18 4.92 4.27 4.77 4.88 5.00 4.73 4.47 5.34 4.70 4.81 4.93 5.04 4.40 5.27 4.63 5.50 5.24 4.97 4.71 4.44 4.94 5.05 4.78 4.52 4.63 …… 5.02 4.76 18
2015/1/9 >计算方法 (2)加权法(利用频戴表): 平制:沈计算4,4,4,6,6,8,8,8,10 的始最7 :爱 小++小+“+ 其中X,本组段下限值+下组段下限值 玉=3x4+2x6+3x8+1x10 3+2+3+1 K:频款表的血段款 万频款 组中值 表2小苦地140名正幸器子k如感款的潮款泰 (二)几何均k(geometric mean) 灭。=…x 2 143 1g。=gx+lg+… 正正正 无。=g5】 几何均数:变量 E正 术上 g表示以为底的对数: 数的反对数, =2x39+6x410+ 140 9693-4 140 几何均藏的道用条件与实例 创2-2阅得10人血请浦度的创数分别为 2,2,4,4,8,8,8,8,32,32,求平均请度。 通用条件: X。=92×2×4×4×8×8x8×8×32×32=7 1、乘对称分有,是距较大 2、里倍教头条的等此资料或对教正 春分布(正偏春)资样;知批体 10份么表柳耐抗体放价的平均水平约为1:7 油度、丘清凝幕数价瓷解 时2:3(须成泰要样) 点用:上要用于血黄乎和食生物乎中 4
2015/1/9 4 计算方法 3 2 3 1 3 4 2 6 3 8 1 10 x 举例:试计算4,4,4,6,6,8,8,8,10 的均数? 19 (2)加权法(利用频数表): 公式 : 1 1 2 2 3 3 1 2 3 k k k f X f X f X f X fX X f f f f f X 本组段下限值+下组段下限值 其中 2 K:频数表的组段数 f:频数 x:组中值 20 红细胞数 划记 频 数 组中值 f X 3.80~ 2 3.9 7.8 4.00~ 正 6 4.1 24.6 4.20~ 正正 11 4.3 47.3 4.40~ 正正正正正 25 4.5 112.5 4.60~ 正正正正正正 32 4.7 150.4 4.80~ 正正正正正 27 4.9 132.3 5.00~ 正正正 17 5.1 86.7 5.20~ 正正 13 5.3 68.9 5.40~ 正 4 5.5 22 5.60~ 2 5.7 11.4 5.80~6.00 1 5.9 5.9 合计 140 - 表2-1 某地140名正常男子红细胞数的频数表 4.7843 140 669.8 140 2 3.9 6 4.10 1 5.9 x 21 (二)几何均数(geometric mean) ) lg lg ( lg (lg lg lg ) 1 lg 1 1 2 1 2 n x X n x x x x n X X x x x i G i G n n G n ,为正值 表示以 为底的反对数 表示以 为底的对数; 0 lg 10 lg 10 1 X 几何均数:变量 对数值的算术均 数的反对数。 22 几何均数的适用条件与实例 适用条件: 1、非对称分布,差距较大 2、呈倍数关系的等比资料或对数正 态分布(正偏态)资料;如抗体 滴度、血清凝集效价资料 23 例2-2 测得10人血清滴度的倒数分别为 2,2,4,4,8,8,8,8,32,32,求平均滴度。 2 2 4 4 8 8 8 8 32 32 7 10 XG 10份血凝抑制抗体效价的平均水平约为 1:7 7 10 lg 2 lg 2 lg 4 lg 4 lg8 lg8 lg8 lg8 lg32 lg 32 lg 1 G 例2-3 (频数表资料) 应用:主要用于血清学和微生物学中。 24
2015/1/9 频款表资料的儿何均教 (三)中位数(median) gG滴度倒数例泰F 下gX 中位款是将一轮版插从小亚大林列后位次居 中的文量值,符号为M,反映一北现泰值在 30 位次上的平始水平。 道丽表种:通合各种嘉别的瓷料。北通合 326 696.672 定款值,⑤③资料分布不明等。 G=1g1(698.62326)=139 ■ 中位教计算会式 中接教Median,M 将一观值从小大痛排列,中合位里的 最健即为中位散。 1.原场资科 M=n +)/2 B的量(mg/)为 特燕:仅仅利用了中问的1~2个兼每 M=5.46 (mg/dl) 们为青) 着测量蝽0:0.84、2.85、8.58、9.6,则 M2.85+8.58)/2-5.72(mg/d)m秀s 百分位敲(percentile.) 频散表资料的百分位散 B=L+n-x%-∠) 一血款据从小到火拆列,分成100普分,各 某分香1%的观底值,弃制界展上的盖值业 L:P所在组段下限值 是百分,记为P金部见值的%小 1:组距 于P,而其余(100-划%大于Px。 上:P所在组段的频数 :P,所在组之前各组段的累计频数 36
2015/1/9 5 频数表资料的几何均数 i n n i i i G f f X f X f X f f X X lg lg lg lg lg lg 1 1 1 1 2 2 IgG滴度倒数 例数,f lgX f·lgX 20 40 80 160 320 640 1280 合计 16 57 76 75 54 25 23 326 1.3010 1.6021 1.9031 2.2041 2.5051 2.8062 3.1072 - 20.96 91.32 144.64 168.08 135.28 70.15 71.47 698.62 G=lg-1 (698.62/326)=139 25 (三)中位数(median) 中位数是将一批数据从小至大排列后位次居 中的变量值,符号为M,反映一批观察值在 位次上的平均水平。 适用条件:适合各种类型的资料。尤其适合 于①大样本偏态分布的资料; ②资料有不确 定数值;③资料分布不明等。 26 中位数计算公式 先将观察值按从小到大顺序排列, 再按以下公式计算: 为偶数 为奇数 x x n x n M n n n / 2 1 / 2 2 ( 1)/ 2 特点:仅仅利用了中间的1~2个数据 27 中位数 (Median,M ) 将一组观察值从小到大按顺序排列,居中心位置的 数值即为中位数。 1.原始资料 若测得5个人的VLDL中的apo_B的含量(mg/dl)为 0.84、2.85、5.46、8.58、9.60,则 M=5.46(mg/dl) (n为奇数) 若测量结果:0.84、2.85、8.58、9.6,则 M=(2.85+8.58)/2=5.72(mg/dl) (n为偶数) 28 百分位数 : 一组数据从小到大 排列,分成100等分,各 等分含1%的观察值,分割界限上的数值就 是百分位数,记为Px。全部观察值的x%小 于Px,而其余(100-x)%大于 Px。 百分位数(percentile) 29 频数表资料的百分位数 所在组之前各组段的累计频数 所在组段的频数 组距 所在组段下限值 % L x x x x x x x L x f P f P i L P i f n x f P L : : : : - 30