方法原理 残差 设A代表某个类别的观察频数,E代表基于H0计 算出的期望频数,A与E之差被称为残差 残差可以表示某一个类别观察值和理论值的偏 离程度,但残差有正有负,相加后会彼此抵消, 总和仍然为0。为此可以将残差平方后求和,以 表示样本总的偏离无效假设的程度
方法原理 ❖残差 ▪ 设A代表某个类别的观察频数,E代表基于H0计 算出的期望频数,A与E之差被称为残差。 ▪ 残差可以表示某一个类别观察值和理论值的偏 离程度,但残差有正有负,相加后会彼此抵消, 总和仍然为0。为此可以将残差平方后求和,以 表示样本总的偏离无效假设的程度
方法原理 另一方面,残差大小是一个相对的概念,相对于期望 频数为10时,20的残差非常大;可相对于期望频数为 1000时20就很小了。因此又将残差平方除以期望频数 再求和,以标准化观察频数与期望频数的差别。 这就是我们所说的卡方统计量,在1900年由英 国统计学家 Pearson首次提出,其公式为: (4-E)2 E
方法原理 另一方面,残差大小是一个相对的概念,相对于期望 频数为10时,20的残差非常大;可相对于期望频数为 1000时20就很小了。因此又将残差平方除以期望频数 再求和,以标准化观察频数与期望频数的差别。 ▪ 这就是我们所说的卡方统计量,在1900年由英 国统计学家Pearson首次提出,其公式为: 2 2 2 1 1 ( ) ( ) k k i i i i i i i i A E A np E np = = − − = =
方法原理 从卡方的计算公式可见,当观察频数与期望频数完全 致时,卡方值为0; 观察频数与期望频数越接近,两者之间的差异越小, 卡方值越小; 反之,观察频数与期望频数差别越大,两者之间的差 异越大,卡方值越大 当然,卡方值的大小也和自由度有关
方法原理 • 从卡方的计算公式可见,当观察频数与期望频数完全 一致时,卡方值为0; • 观察频数与期望频数越接近,两者之间的差异越小, 卡方值越小; • 反之,观察频数与期望频数差别越大,两者之间的差 异越大,卡方值越大。 • 当然,卡方值的大小也和自由度有关
方法原理 今卡方分布 显然,卡方值的大小不仅与A、E之差有关,还 与单元格数(自由度)有关 10 0.00 0.1024.1228.1432.1636.18 2.016.0310.0514.0718.0922.1126.1330.1534.1738.19 chi-squar∈
方法原理 ❖卡方分布 ▪ 显然,卡方值的大小不仅与A、E之差有关,还 与单元格数(自由度)有关 chi-square 38.19 36.18 34.17 32.16 30.15 28.14 26.13 24.12 22.11 20.10 18.09 16.08 14.07 12.06 10.05 8.04 6.03 4.02 2.01 .00 概率 .12 .10 .08 .06 .04 .02 0.00