大学酸学实 数据的统计与分析的两类方法 大学数学实验 第一类:一般意义的统计(普查) 对生产的全鄣1000件产品逐一检验,发现18件次品 Experiments in Mathematics 对全区居民逐一调查,得到月平均支出为828元 结果分析: 实验10数据的统计与分析 次品率:1.8%;月平均支出为828元 优点:结果完全确定,可信 清华大教总科总系 缺点:调查、收集的数据量可能很大,经费投入 大,有些产品不允许全部检验,如灯泡、电器的寿 命等 第二类:数理統计(抽查 数据的统计与分析基本内容 全部产品中随机抽取100件,发现2件次品 随机调查了200位居民,得到月平均支出为788元 1.实例及其分析 结果分析: 2敷据的整理和描述 次品率:2%;月平均支出788元 3随机变量的概率分布及字特征 优点:调查、收集的敷据量小,经费投入小,遁合 不允许全部检验的产品,如灯泡、电器的寿命等 4.用随机模拟计算数值积分 缺点:结果是随机的,是否可信? 5.实例的建模和求解 任务:怎样用它来估计整体的状况(全部产品的 次品率,全体居民的月平均支出) (学静学实鉴 (大学数学实验) 实例1:报童的利润 报童每天从发行商处购遗报纸零售,晚上将没有卖排的报纸退 的购进价为a,每份报纸的零售价为b,每份 报纸的退國价〔发行商返圆报堂的钱)为c且滿足b>a>c每 天报纸的需求量是随机的。为了获得最大的利润,诚报止每天 应购进多少份报献? 1.实例及其分析 159天报纸需求量的情况 天数 假定a=0.8元,b=1元,c=0.75元,为报童提供最佳决策
1 大学数学实验 Experiments in Mathematics 实验10 数据的统计与分析 清华大学数学科学系 数据的统计与分析的两类方法 第一类:一般意义的统计(普查) 对生产的全部1000件产品逐一检验,发现18件次品 对全区居民逐一调查,得到月平均支出为828元 结果分析: 次品率:1.8%;月平均支出为828元 优点:结果完全确定,可信 缺点:调查、收集的数据量可能很大,经费投入 大,有些产品不允许全部检验,如灯泡、电器的寿 命等 缺点:结果是随机的,是否可信? 第二类:数理统计(抽查) 全部产品中随机抽取100件,发现2件次品 随机调查了200位居民,得到月平均支出为788元 结果分析: 次品率:2%;月平均支出788元 优点:调查、收集的数据量小,经费投入小,适合 不允许全部检验的产品,如灯泡、电器的寿命等 任务:怎样用它来估计整体的状况(全部产品的 次品率,全体居民的月平均支出) 数据的统计与分析基本内容 2.数据的整理和描述 3.随机变量的概率分布及数字特征 1.实例及其分析 4. 用随机模拟计算数值积分 5. 实例的建模和求解 1. 实例及其分析 实例1: 报童的利润 报童每天从发行商处购进报纸零售,晚上将没有卖掉的报纸退 回。如果每份报纸的购进价为a,每份报纸的零售价为 b,每份 报纸的退回价(发行商返回报童的钱)为c, 且满足b≥a≥c。每 天报纸的需求量是随机的。为了获得最大的利润,该报童每天 应购进多少份报纸? 假定a=0.8元,b=1元,c=0.75元,为报童提供最佳决策。 天数 3 9 13 22 32 35 20 15 8 2 280 — 260 — 240 — 220 — 200 — 180 — 160 — 140 — 120 — 100 — 需求 量 159天报纸需求量的情况
大学酸学实 8实例1:报童的利润(续) 例2:路灯更换策略 的。只能以长期售报过程中每天的平均利润涧最大为目标,喷定 路政部门:路灯雄护 最佳决策 条件:需要专用云梯车进行线路检测和更换灯泡 数学模型近似: 向相应的管理部门提出电力使用和道路管制申请 可以通过历史据得到每天常求量为r的天所占的百分比, 向雇用的各类人员支付报酬等 记做(r),如需要200份所占的百分比为35/159=22% 更换策略:整批更换 决策变量:报童每天购进报纸的份教n 管理部门:不亮灯泡,折合计时进行罚款 平均利润:(n) 路政部门的问题:多长时间进行一次灯泡的全部更 换,换早了,很多灯池还没有坏;换晚了,要承受 v(n)=>I(b-a)r-(a-c(n-r)If(r)+>I(b-a)nlf(r) 太多的罚款 数据的收集 2.数据的整理和描述 某银行为使顾客感到亲切以吸引更多的资金,计划对柜台的高 度进行调些。银行随机选了50名顾客进行调查,测量每个顾 觉适时的柜台高度,表2为得到的据。银行怎样依据它 确定柜台高度呢? 数据的收集和样本的概念 50顾客感觉适高度(单位:厦米) 数据的整理、频数表和直方图 10010136971041009512011 统计量 12611311510893116102122121122 MATLAB命令 117114 110119127119125119 10595117109140121122131108120 115112130116119134124128115110 (学静学实鉴 (大学数学实验) 基本概念 样本—統计研究的主要对象 数据的整理 总体一研究对象的全体。如所有顾客感觉舒适的高度 北京地区SARS患者的统计数据(截至2003年5月5日) 个体-总体中一个基本单位。如一位顾客的舒适高度 10岁以|1120岁21-30岁31-40岁41-50岁51岁以总数 样本若干个体的集合。如50位顾客的舒适高度 样本容量-样本中个体数。如50 比例127%764%B56%2011%1750%77%m0 顾客群体的舒适高度随机变量X,概率分布F(x) n位顾客的舒适高度{xi=1,n}(样本)相互独 比较直观,比较清晰的结论 立的、分布均为F(x)的一组随机变量 21-50岁的中青年患者大约占总发病人数的 样本:随机取值的一组教据 3/4,提醒民众中青年是易感人群 一组相互独立的、同分布的随机变量
2 分析:每天报纸的需求量随机,报童每天的利润也是随机 的。只能以长期售报过程中每天的平均利润最大为目标,确定 最佳决策。 数学模型近似: 决策变量:报童每天购进报纸的份数n 可以通过历史数据得到每天需求量为r的天数所占的百分比, 记做f(r) ,如需要200份所占的百分比为35/159=22% 平均利润:V(n) ∑ ∑ ∞ = − = = − − − − + − r n n r V (n) [(b a)r (a c)(n r)] f (r) [(b a)n]f (r) 1 0 实例1: 报童的利润(续) 实例2:路灯更换策略 管理部门:不亮灯泡,折合计时进行罚款。 路政部门: 路灯维护 条件: 需要专用云梯车进行线路检测和更换灯泡 向相应的管理部门提出电力使用和道路管制申请 向雇用的各类人员支付报酬等 更换策略: 整批更换 路政部门的问题:多长时间进行一次灯泡的全部更 换,换早了,很多灯泡还没有坏;换晚了,要承受 太多的罚款。 2. 数据的整理和描述 • 数据的收集和样本的概念 • 数据的整理、频数表和直方图 • 统计量 • MATLAB命令 数据的收集 某银行为使顾客感到亲切以吸引更多的资金,计划对柜台的高 度进行调整。银行随机选了50名顾客进行调查,测量每个顾客 感觉舒适时的柜台高度,表2为得到的数据。银行怎样依据它 确定柜台高度呢? 50顾客感觉舒适高度(单位:厘米) 115 112 130 116 119 134 124 128 115 110 105 95 117 109 140 121 122 131 108 120 118 117 114 106 110 119 127 119 125 119 126 113 115 108 93 116 102 122 121 122 100 110 136 97 104 100 95 120 119 99 基本概念 • 总体--研究对象的全体。如所有顾客感觉舒适的高度 • 个体--总体中一个基本单位。如一位顾客的舒适高度 • 样本--若干个体的集合。如50位顾客的舒适高度 • 样本容量--样本中个体数。如50 顾客群体的舒适高度~随机变量X,概率分布F(x) n位顾客的舒适高度{ xi , i= 1,…n} (样本)~相互独 立的、分布均为F(x)的一组随机变量。 样本:随机取值的一组数据; 一组相互独立的、同分布的随机变量。 样本——统计研究的主要对象 数据的整理 比较直观,比较清晰的结论 21—50岁的中青年患者大约占总发病人数的 3/4,提醒民众中青年是易感人群。 比例 1.27% 7.64% 35.69% 20.14% 17.50% 17.77% 100% 人数 24 145 677 382 332 337 1897 51岁以 总数 上 10岁以 11-20岁 21-30岁 31-40岁 41-50岁 年龄 下 北京地区SARS患者的统计数据(截至2003年5月5日)
大学酸学实 频数表和直方图 将数据的取值范围划分为若千个区间,统计这组数据在 直方图 histogram),或频数分布图 每个区间中出现的次数,称为频数,得到一个频数表 柜台高度频数表 9535100104.7109451141511851235128251329513765 中点 推测出总体的某些简单性质 明选择柜台高度 在107.10至12590的有31人 柜台高 巨台高度直方图 度设计在这个范围内,会得到 顾客的满意 统计量 两个班的一次考试成绩 频敷表和直方图给出某个范围的状况,无法直接给 序号123456789o2|13|4l5l6 出具体值,如例1关于确定柜台高度的问题 98898886988798 班848828阳4N万8刘 平均值(mean,简称样本均值)定义为 井号四7四2四21224226272293到 6随886859899 x 现象:甲班的平均值:82.75分,乙班的平均值:81.75分 结论:大致表明甲班的平均成稍高于乙班 115.26 现象:甲班中90分以上的有7人,但有2人不及格,分数比较分 散。乙班全在73分到90分之间,分数相对集中 可作为设计柜台高度的参考值 (学静学实鉴 (大学数学实验) 为了描述敷据的这种分散程度(統计上称为变异), 统计上引入标准差的概念 样本 甲班的标准差为10.98分,乙班的标准差为3.98分, 表明甲班成绩的分散程度远大于乙班 统计量:由样本加工出来的、集中反映样本敷量特 的函敷 三类統计量:表示位置的,表示变异程度的,表示 分布形状的
3 频数表和直方图 将数据的取值范围划分为若干个区间,统计这组数据在 每个区间中出现的次数,称为频数,得到一个频数表。 柜台高度频数表 频数 4 4 3 6 8 12 5 4 2 2 104.7 109.45 114.15 118.85 123.55 128.25 132.95 137.65 5 95.35 100.05 中点 推测出总体的某些简单性质。如表6表明选择柜台高度 在107.10至125.90的有31人,占总人数的62%,柜台高 度设计在这个范围内,会得到大多数顾客的满意。 直方图(histogram),或频数分布图 90 95 100 105 110 115 120 125 130 135 140 0 2 4 6 8 10 12 柜台高度直方图 统计量 平均值 (mean,简称样本均值)定义为 频数表和直方图给出某个范围的状况,无法直接给 出具体值,如例1关于确定柜台高度的问题 ∑= = n i i x n x 1 1 x = 115.26 可作为设计柜台高度的参考值 两个班的一次考试成绩 乙班 85 73 90 77 81 82 82 80 86 83 77 78 甲班 69 86 88 78 79 68 88 87 55 93 79 85 90 53 99 81 序号 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 乙班 84 83 82 85 82 81 82 90 84 78 75 83 78 85 84 79 甲班 92 88 85 92 95 79 84 87 88 65 93 73 88 87 94 80 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 现象:甲班的平均值:82.75分,乙班的平均值:81.75分 结论:大致表明甲班的平均成绩稍高于乙班 现象:甲班中90分以上的有7人,但有2人不及格,分数比较分 散。乙班全在73分到90分之间,分数相对集中 40 60 80 100 0 2 4 6 8 10 12 14 40 60 80 100 0 2 4 6 8 10 12 14 16 18 为了描述数据的这种分散程度(统计上称为变异), 统计上引入标准差的概念。 样本x=(x1, x2, …, xn)的标准差(Standard deviation)为: 2 1/ 2 1 ( ) ] 1 1 [ x x n s n i i − − = ∑= 甲班的标准差为10.98分,乙班的标准差为3.98分, 表明甲班成绩的分散程度远大于乙班。 统计量:由样本加工出来的、集中反映样本数量特 征的函数。 三类统计量:表示位置的,表示变异程度的,表示 分布形状的
大学酸学实 表示位置的还有: MATLAB数据描述的常用命令 中位敷( median):将敷据由小到大排序后处于中间位 置的那个敷值 当样本容量m为奇数时,中位数唯一确定;当n nyl-hst(x, k)频数表 原始数据行向量|n频数行向量 间中点行向量 为偶敷时,定义为中间两个敷的平均值 hist(x, k)直元 表示变异程度的还有 x原始数行向量□ 极差( range):x,x2,…,xn的最大值与最小值之差 方差( variance):标准差的平方s2 标准差x 表示分布形状的 偏度( skewness:分布对称性8≈1S(x-)3 画(x1)同上 度s 峰度( kurtosis):分布形状g2= 之(x- 示例 求银行柜台高度的频教表、直方围及均值等计量: 3.随机变量的概率分布及数字特征 111m18m21212入单,号 11s 192 1161913424928015 210. 频率与概率 概率密度与分布函数 期望和方差 as-skewne(X), xdekurtosis(X exam1oolbm 输出图和下列结果: 常用的概率分布 MATLAB命令 450011415001188500123.5500 3=113-171650 x5=.0971,x6=26216 (学静学实鉴 (大学数学实验) 频率与概率 频率:样本数据在一个确定区间(ab的频数与样本 容量m的比值 保证抽取样本的随机性和独立性,当样本容量无 限增大时 会趋向一个确定值,这个值称为随 机变量X落入区间(ab的概率( Probability),记 P(a<X≤b)
4 3 1 1 3 ( ) 1 x x ns g n i = ∑ i − = 4 1 2 4 ( ) 1 x x ns g n i = ∑ i − = 偏度(skewness):分布对称性 峰度(kurtosis ):分布形状 表示位置的还有: 中位数(median):将数据由小到大排序后处于中间位 置的那个数值。 当样本容量n为奇数时,中位数唯一确定;当n 为偶数时,定义为中间两个数的平均值。 表示变异程度的还有: 极差(range):x1, x2, …, xn的最大值与最小值之差。 方差(variance):标准差的平方s2。 表示分布形状的: MATLAB数据描述的常用命令 峰度g 峰度 同上 2 kurtosis(x) 偏度g 偏度 同上 1 skewness(x) var(x) 方差 同上 方差s2 var(x,1):同上 std(x,1): (3)式 中n-1改成n std(x) 标准差 同上 标准差s range(x) 极差 同上 极差 median(x) 中位数 同上 中位数 mean(x) 均值 x: 原始数据行向量 hist(x,k) 直方图 同上 直方图 同上 [n,y]=hist(x)中k 取缺省值10 n: 频数行向量 y: 区间中点行向量 x: 原始数据行向量 k:等分区间数 [n,y]=hist(x,k) 频数表 名称 输入 输出 注意事项 命令 求银行柜台高度的频数表、直方图及均值等统计量: X =[100 110 136 97 104 100 95 120 119 99 ... % 输入表2数据,...为延续符号 126 113 115 108 93 116 102 122 121 122 ... 118 117 114 106 110 119 127 119 125 119 ... 105 95 117 109 140 121 122 131 108 120 ... 115 112 130 116 119 134 124 128 115 110]; [N,Y]=hist(X), % 频数表 hist(X), % 直方图 x1=mean(X),x2=median(X) % 各个统计量 x3=range(X),x4=std(X) x5=skewness(X),x6=kurtosis(X) 示例 exam1001a.m 输出图和下列结果: N = 4 4 3 6 8 12 5 4 2 2 Y= 95.3500 100.0500 104.7500 109.4500 114.1500 118.8500 123.5500 128.2500 132.9500 137.6500 x1 = 115.2600,x2 =116.5000 x3 =47,x4 =10.9690 x5 = -0.0971,x6 =2.6216 exam1001b.m 3. 随机变量的概率分布及数字特征 • 频率与概率 • 概率密度与分布函数 • 期望和方差 • 常用的概率分布 • MATLAB命令 频率与概率 在保证抽取样本的随机性和独立性,当样本容量无 限增大时,频率会趋向一个确定值,这个值称为随 机变量X落入区间(a,b]的概率(Probability),记 作 频率: 样本数据在一个确定区间(a,b]的频数k与样本 容量n的比值 n k f (a < X ≤ b) = P(a < X ≤ b) 90 95 100 105 110 115 120 125 130 135 140 0.24 p(x)
大学酸学实 概率密度与分布函数 期望和方差 对子连续随机变量 (a<X≤b)=p(xx 随机变量X的期望就是平均值的意,记作EX或 概率密度函数( Probability density function,简称概率 密度): EX=xp(x)dr p(x)≥0 P(x)dx=I 概率分布函数( Cumulative distribution function,简称 DX=(x-EX)'p(x) 分布画数) F(x)=P(X≤x)=「p(xx E=1 F(-∞)=0,F(∞)=1 Pa<X≤B=Fb)-Fa Dx p(x) 常用的概率分布 均匀分布( Uniform distribution):XU(a,b p(x)=b-a Era+b 其他 指数分布( Exponential distribution):X-Ep Exp(2) p(x)={元° 370 EX=A DX=2 其他 (学静学实鉴 正态分布( Norm distribution):x~N(a,a2) x2分布( Chi square):y~x2(m)n称自由度 定义:Y=∑x2其中x1,X2…Xn相互独立 服从标准正态分布的随机变量
5 概率密度与分布函数 P a X b p x dx b a ∫ ( < ≤ ) = ( ) 概率密度函数(Probability density function,简称概率 密度) : p(x) ≥ 0 ∫ ∞ −∞ p( x)dx = 1 概率分布函数(Cumulative distribution function,简称 分布函数) ∫ −∞ = ≤ = x F(x) P(X x) p(x)dx F (−∞ ) = 0, F (∞) = 1 P{a<X≤b}=F(b)−F(a) dx dF p(x) = 对于连续随机变量 期望和方差 随机变量X的期望就是平均值的意思,记作EX或µ ∫ ∞ −∞ EX = xp(x)dx ∫ ∞ −∞ EX = xp(x)dx ∫ ∞ −∞ DX = (x − EX ) p(x)dx 2 Ex Ex n Ex n i = ∑ i = =1 1 n Dx Dx n Dx n i = ∑ i = =1 2 1 常用的概率分布 均匀分布(Uniform distribution) :X~U (a,b) ⎪⎩ ⎪ ⎨ ⎧ ∈ = − 0, 其他。 , [ , ], 1 ( ) x a b p x b a 12 ( ) , 2 2 b a DX a b EX − = + = 指数分布(Exponential distribution): X~Exp (λ) ⎪ ⎩ ⎪ ⎨ ⎧ ≥ = − 0, 其他 , 0 1 ( ) e x p x x λ λ 2 EX = λ, DX = λ -1 0 1 2 3 4 5 6 0 0.1 0.2 0.3 0.4 0.5 U(0,2) U(1,5) 图5 均匀分布概率密度函数图形 0 2 4 6 8 10 0 0.1 0.2 0.3 0.4 0.5 Exp(2) Exp(4) 正态分布(Norm distribution): ) 2 ( ) exp( 2 1 ( ) 2 2 σ µ πσ − = − x p x 2 EX = µ , DX = σ -6 -4 -2 0 2 4 6 0 0.1 0.2 0.3 0.4 N(0,1) N(0,22) ~ ( , ) 2 X N µ σ 2 χ 分布(Chi square): ∑= = n i Y X i 1 2 ~ ( ) 2 Y χ n , n称自由度 0 5 10 15 20 0 0.05 0.1 0.15 0.2 Chi2(5) Chi2(10) 定义: 服从标准正态分布的随机变量 X X LX n , , 其中 1 2 相互独立