0.15 0.05 10 上⊥ 65 金属回收《产量) 图22冶炼过程中回收(生产)金属 的200个观察值的直方图 盒图(或带触点盒图)是显示数据的一种很有用的方法。 个盒图是在一个以水平方向和铅直方向定位的矩形上显示出最小 值,最大值,下四分位数与上四分位数(分别代表第25个百分位 数和第75个百分位数),以及中位数(第50个百分位)。盒子是 从下四分位数伸展至上四分位数,在盒内用一直线段表示中位数, 从盒的两端各引一条直线段(或带触点的线段)到最小值与最大 值。 图2-3表示硅酸盐水泥砂浆实验中抗折强度的两个样本的盒 图。这一显示法清晰地表露出两种配方之间的平均强度的差别。它 也表明两种配方都合理地得出强度的对称分布并具有相似的变异 性或分散程度。 点图,直方图以及盒图都可用来概括出一个数据样本的信息 18
18.25 18.15 18 1775 172 1750 1672 16.52 16.35 改良砂浆 未改良砂浆 图2-3硅酸盐水泥砂浆抗折强度实验的盒图 要更全面地描述可能出现在样本中的观察值,则要用概率分布的 概念。 概率分布一个随机变量y的概率结构是用它的概率分布来 描述的。如果y是离散型的,我们常用y的概率函数,记为p(y), 来刻划y的概率分布。如果y是连续型的,则常用y的概率密度 函数,记为f(y),来刻划y的概率分布。 图2-4图示了假想的离散型和连续型的概率分布。在离散型 概率分布中,它是用概率函数力(y)的高度来表示相应的概率,而 在连续型的情况中,它是用曲线f(y)下相应于给定区间上的面 积,来表示落入该区间内的概率。概率分布的性质可以定量地概 述如下: y为离散型:0≤p(y)≤1 切y的值 P(y=y41i)=p(y,) 切y的值 ∑p(y)=1 切y的值 19
y为连续型:≤f(y) P(a≤y≤b)=f(y)dy f(y)dy= 1 均值,方差,期望值一概率分布的均值是它的中心趋势或 中心位置的度量。数学上,定义均值(即p)为 P(y·y)-P(yj) y. 11 513 y (a)离散型分布 (b)连续型分布 图24离散型与连续型概率分布
y(y)ay y为连续型 (2-1) L, P(y) y为离散型 也可以用随机变量y的期望值或随机变量y的长期试验的平均值 来表示均值,即 yf(y)dyy为连续型 A=E(y) (2-2) yp(y) y为离散型 其中E表示期望值算子 概率分布的分散程度或叫做离中趋势可以用方差来度量, 方差定义为 y-)2f(y)dyy为连续型 2-3) (y-)2p(y) y为离散型 方差完全可以用期望来表示,因为有关系式 E[(y-p)2 (2-4) 最后,因为方差被广泛应用,为方便,我们定义一方差算子V: (y)=E[(y-p)2] 期望值与方差的概念广泛用于本书,因此,温习一下关于这 些算子的几个基本结果,或许是有帮助的。如果y是有均值p和 方差a2的随机变量,c是一常量,则 1.E(c) 2.E(y)=a 3. E(cy)=cE(y)=cp 4.v(c)=0 5.V(y) 6.V(cy) 如果两个随机变量,例如,y1,有E(y)=11和V(y1)=0,以及
y2,有E(y2)=P2和V(y2)=a2,则有 7.E(y1+y2)=E(y1)+E(y2)=p1+p2 可以证明 8.v(y1+y2)=v(y)+V(y2)+2Cov(y1,y2) 其中 Cov(y1,y2)=E[(y1-1)(y2-m2)] (2-6) 是随机变量y与y的协方差。协方差是用来度量y1与y2之间的 线性相关性的一个量。特别地,可以证明,如果y1与y2独立0,则 Cov(y,y2)=0。还可证明 9.V(y1-y2)=(y1)+v(y2)-2Cov(y1,y2) 因此,如果y,y2独立,则有 10.v(y1士y2)=V(y)+V(y2)=0+a 以及 11.E(y1·y2)=E(y1)·E(y2)=p1·p2 然而要注意,一般说来,无论y1与y2是否独立 12.E y)∠E(y1) E 23抽样与抽样分布 随机样本,样本均值,样本方差统计推断的客观性在于它 是用总体的一个样本来得出关于该总体的一些结论。我们将要研 究的大多数方法都是假定利用随机样本的。也就是说,如果总体 含有N个元素,选取其中n个元素作为一个样本,使N!/[(N n)!n!]个可能的样本中的每一个,具有相等的被选概率;采 用这种抽样方法叫做随机抽样。具体操作上,有时难以得出随机 ①注意,这一点反过来并不成立,亦即,我们可以有Cow(y1,y2)=0,但它 并不隐含独立性。例如,见Hnes与 Montgomery(1990,pp.128129)