第二节参数估计与假设检验Bioinformatics方差分析:单因素方差分析和多因素方差分析uk一HA:uij..k不全相等。Ho:μ1μ2来源均方平方和自由度F统计量拒绝域FF组间SSBk-MSBMSB>F1-α(k/MSw-n-k)组内SSwn-kMSW总和SSTn-15
15 Bioinformatics 第二节 参数估计与假设检验 方差分析: 单因素方差分析和多因素方差分析 𝐻0: 𝜇1 𝜇2 ⋯ 𝜇𝑘 ⟺ 𝐻𝐴: 𝜇𝑗 𝑗 . . 𝑘 不 全 相 等 。 来源 平方和 自由度 均方 F统计量 拒绝域 组间 𝑆𝑆𝐵 𝑘 − 𝑀𝑆𝐵 𝐹 𝐹 𝑀𝑆𝐵 > 𝐹1−𝛼(𝑘 /𝑀𝑆𝑊 − 𝑛 − 𝑘) 组内 𝑆𝑆𝑊 𝑛 − 𝑘 𝑀𝑆𝑊 总和 𝑆𝑆𝑇 𝑛 −
第二节参数估计与假设检验Bioinformatics其他检验方法拟合优度检验(goodness-of-fittest)是一种用于检验观测数据与理论分布之间是否存在显著差异的统计方法。分组1总和2k观测频数00102Ok...n期望频数EiE2np2EknpkEinpi".nkOL-E2X2Eii=116
Bioinformatics 第二节 参数估计与假设检验 其他检验方法 拟合优度检验(goodness-of-fit test)是一种用于检验观测数据与理论分布之间是否存在显著差异的统计方法。 分组 1 2 . 𝑘 总和 观测频数𝑂𝑖 𝑂1 𝑂2 . 𝑂𝑘 𝑛 期望频数𝐸𝑖 𝐸1𝑛𝑝1 𝐸2 𝑛𝑝2 . 𝐸𝑘 𝑛𝑝𝑘 𝑛 𝑋2 ෨𝑘 𝑖=1 𝑂𝑖 −𝐸𝑖 𝐸𝑖 2 16
设村第二节参数估Bioinformatics其他检验方法检验市独立性卡方检验(chi-squaretestforindependence之间是否独立的统计方法。变总和120120111(E11RiC1/n)(E1RiC1/n)021022变量2(E21R2C1/n)(E22R2C2/n)A".0m10m2Rmm(Em2RmC2/n)n)(Em1RmC1/n)总和CiC2m(Ouj-Eu)?X2EuBU(=1 j=1(=1 j=117
Bioinformatics 第二节 参数估计与假设检验 其他检验方法 独立性卡方检验(chi-square test for independence)是一种用于检验两个分类变量之间是否独立的统计方法。 变量B 总和 变量 A 1 2 . 𝑘 1 𝑂11 (𝐸11𝑅1𝐶1/𝑛) 𝑂12 (𝐸11𝑅1𝐶1/𝑛) . 𝑂1𝑘 (𝐸1𝑘𝑅1𝐶𝑘/𝑛) 𝑅1 2 𝑂21 (𝐸21𝑅2𝐶1/𝑛) 𝑂22 (𝐸22𝑅2𝐶2/𝑛) . 𝑂2𝑘 (𝐸2𝑘 𝑅2𝐶𝑘/𝑛) 𝑅2 . . . . . . 𝑚 𝑂𝑚1 (𝐸𝑚1 𝑅𝑚 𝐶1/𝑛) 𝑂𝑚2 (𝐸𝑚2 𝑅𝑚 𝐶2/𝑛) . 𝑂𝑚𝑘 (𝐸𝑚𝑘 𝑅𝑚 𝐶𝑘/𝑛) 𝑅𝑚 总和 𝐶1 𝐶2 . 𝐶𝑘 𝑛 𝑋2 𝑚 𝑘 2 𝑚 𝑘 2 ෨𝑂𝑖𝑗 − 𝐸𝑖𝑗 𝑂𝑖𝑗 − 𝐸𝑖𝑗 − 0.5 𝐸 或 𝐸 (连续性校正) 𝑖=1 𝑗=1 𝑖𝑗 𝑖=1 𝑗=1 𝑖𝑗 17
第二节参数估计与假设检验Bioinformatics其他检验方法Fisher精确性检验变量B总和12b1a+b变量Aa2dc+dc总和b+da+cn(a+b)!(c+d)!(a+c)!(b+d)P(O1ia)n!a!b!c! d!需要注意的是,p值的含义是如果原假设为真,观察到当前数据或更极端数据的概率。因此计算Fisher精确性检验的p值时,需要同时考虑当前数据出现的可能性以及更极端数据出现的可能性,这些可能性的总和才是最终的p值。18
18 Bioinformatics 第二节 参数估计与假设检验 其他检验方法 Fisher精确性检验 ! 变量B 总和 变量A 1 2 1 𝑎 𝑏 𝑎 + 𝑏 2 𝑐 𝑑 𝑐 + 𝑑 总和 𝑎 + 𝑐 𝑏 + 𝑑 𝑛 P(𝑂11 𝑎) (𝑎 + 𝑏)! (𝑐 + 𝑑)! (𝑎 + 𝑐)! (𝑏 + 𝑑) 𝑛! 𝑎! 𝑏! 𝑐! 𝑑! 需要注意的是,p值的含义是如果原假设为真,观察到当前数据或更极端数据的概率。因此计算Fisher精确 性检验的p值时,需要同时考虑当前数据出现的可能性以及更极端数据出现的可能性,这些可能性的总和才是 最终的p值
第二节参数估计与假设检验Bioinformatics其他检验方法Fisher精确性检验例子:对于数据ab9cod,在保持行列总和不变的情况下,更极端数据为a0b0cd。此时,两种数据p值分别为(+9)!(0 +)!(+0)! (9 + )!P(011)0.00,!!9!0!!!)(0 +)!(0 +!)(0+ 0)!(+P(0110)0.0005。0!/0!!!因此,p值P(O11)+P(O110)0.005。19
Bioinformatics 第二节 参数估计与假设检验 其他检验方法 Fisher精确性检验 例子: 对于数据𝑎 𝑏 9 𝑐 0 𝑑 , 在保持行列总和不变的情况下,更极端数据为𝑎 0 𝑏 0 𝑐 𝑑 。 此时,两种数据p值分别为 𝑃(𝑂11 ) ( + 9)! ( 0 + )! ( + 0)! (9 + )! ! ! 9 ! 0 ! ! 0.00 , 𝑃(𝑂11 0) 0 + 0 ! + ! 0 + ! 0 + ! ! 0 ! 0 ! ! ! 0.000 5。 因此,p值 𝑃 𝑂11 + 𝑃 𝑂11 0 0.00 5。 19