例:二项分布(m=2情形)假设(x1,x2)~M2(n,(p1,p2)),通常记作x1~B(n,p1),则Pearson卡方(x1-np1)2 + (x2-np2)2 _ (x1-np1)2 + (n-x1-n(1-p1)2np1np2n(1-p1)npiX2=n-X1= (x1 - np1)2p2 = 1 - p1n(1-p1(np1(x1-np1)2np1(1-p1)xi-npi≥ z2/npi(1-pi)z是x1的通常的中心标准化,而左端-mp+2-mp2"中的npinp2X1 -np1 X2 -np2VnpiVnp2是约束x1+x2=n条件下x1,x2的同时中心标准化6
6 例:二项分布(𝑚 = 2情形) 假设 𝑥1, 𝑥2 ~𝑀2 𝑛, 𝑝1, 𝑝2 , 通常记作 𝑥1~𝐵(𝑛, 𝑝1),则Pearson卡方 (𝑥1−𝑛𝑝1) 2 𝑛𝑝1 + (𝑥2−𝑛𝑝2) 2 𝑛𝑝2 = (𝑥1−𝑛𝑝1) 2 𝑛𝑝1 + (𝑛−𝑥1−𝑛(1−𝑝1)) 2 𝑛(1−𝑝1) = (𝑥1 − 𝑛𝑝1) 2 1 𝑛𝑝1 + 1 𝑛(1−𝑝1) = (𝑥1−𝑛𝑝1) 2 𝑛𝑝1(1−𝑝1) = 𝑥1−𝑛𝑝1 𝑛𝑝1(1−𝑝1) 2 ≜ 𝑧 2 𝑧是𝑥1的通常的中心标准化,而左端(𝑥1−𝑛𝑝1) 2 𝑛𝑝1 + (𝑥2−𝑛𝑝2) 2 𝑛𝑝2 中的 𝑥1 − 𝑛𝑝1 𝑛𝑝1 , 𝑥2 − 𝑛𝑝2 𝑛𝑝2 是约束 𝑥1 + 𝑥2 = 𝑛 条件下𝑥1,𝑥2的同时中心标准化. 𝑥2 = 𝑛 − 𝑥1 𝑝2 = 1 − 𝑝1
列联表与Pearson卡方如果多项分布的格子由两个属性变量划分而成,则是列联表问题列联表列联表分析主要考察两个属性变量的关系。为了与连续变量情形的相关系数概念区分,Pearson将属性变量之间的关联性度量称为contingency,将属性变量交又分类得到的计数表格称为列联表contingencytable.Contingency:一个事件可能引发的事件(依赖性)、应急、临时、附加条款。假设属性变量x,y各有p,q个类别或水平。记wii为x取水平i,y取水平j的样本频数,Wpxg=(wii)称为p×q列联表(contingencytable)或交叉分类表(crosstabulation)。关心的问题:(1)x,y是否独立;(2)如果不独立,x与y哪个水平之间关联性最强?y=jWijrix=iCj
7 列联表与Pearson卡方 列联表 假设属性变量𝑥, 𝑦各有𝑝, 𝑞个类别或水平。记 𝑤𝑖𝑗为 𝑥 取水平𝑖, 𝑦 取 水平 𝑗 的样本频数, 𝑊𝑝×𝑞 = 𝑤𝑖𝑗 称为𝑝 × 𝑞 列联表(contingency table) 或交叉分类表(cross tabulation)。关心的问题: (1) 𝑥, 𝑦是否独立; (2) 如果不独立,𝑥 与 𝑦 哪个水平之间关联性最强? 如果多项分布的格子由两个属性变量划分而成,则是列联表问题. 列联表分析主要考察两个属性变量的关系。为了与连续变量情形 的相关系数概念区分,Pearson将属性变量之间的关联性度量称为 contingency,将属性变量交叉分类得到的计数表格称为列联表 contingency table 。 Contingency:一个事件可能引发的事件(依 赖性)、应急、临时、附加条款。 𝑥 = 𝑖 𝑤𝑖𝑗 𝑦 = 𝑗 𝑟𝑖 𝑐𝑗
例1.x=i与y=i共同发生的次数wii代表了水平i与i的关联度,但考察计数wi的同时应参考其所在行、列的其它计数,特别地需要考虑各行各列的边际总数。y=3x=i:x取值为第i个水平,6这里的代表水平类别,不9是通常的实数1511x=214520表中W23=5,X=2与y=3的关联大还是小?x23=5在第2行最大,似乎x=2与y=3关联程度较高。但观察第3列,5在第3列中并不大,因此x=2与y=3关联程度可能并不高。另一方面,x23=5在第3列中中等大小,这似乎说明y=3与x=2关联程度不高,但它在第2行是最大的计数。如何综合地考察wi相对于所在行总和、列总和的大小并不是简单的问题,也没有唯一答案。8
8 表中𝑤23 = 5, x = 2 与𝑦 = 3 的关联大还是小? 𝑥23 = 5在第2行最大, 似乎x = 2 与𝑦 = 3关联程度较高。但观察 第 3 列, 5在第 3 列中并不大,因此 x = 2 与𝑦 = 3 关联程度可 能并不高。 另一方面,𝑥23 = 5在第3列中中等大小,这似乎说明𝑦 = 3 与𝑥 = 2关联程度不高,但它在第2行是最大的计数。 如何综合地考察𝑤𝑖𝑗相对于所在行总和、列总和的大小并不是简 单的问题,也没有唯一答案。 𝑥 = 2 𝑦 = 3 6 1 1 5 1 1 4 5 例1. 𝑥 = 𝑖 与 𝑦 = 𝑗 共同发生的次数 𝑤𝑖𝑗 代表了水平 𝑖 与 𝑗 的关 联度,但考察计数𝑤𝑖𝑗的同时应参考其所在行、列的其它计数, 特别地需要考虑各行各列的边际总数。 9 20 𝑥 = 𝑖 :𝑥取值为第𝑖个水平, 这里的代表水平/类别,不 是通常的实数
例2.n=781件出土陶器按考古地点(0-6)和类型(a-d)两个属性变量交又分类得到下述列联表。(i,j)格子元素xi为地点i出土的第j类陶器的个数/计数。bd不同考古地点代表不同的时期总计ac或文化,因此01010398930534162751陶器类型分布相似的考古地4127311161点,其年代可能接近;32061431通过研究陶器类型分布判断446363713132考古地点的年代次序关系和54565910120交流情况。616281695218总计2839133374781列联表矩阵与一般的数据矩阵略有不同,其元素非负,代表了关联大小,与此类似的是强度矩阵(intensity)、丰度矩阵(abundance)网络的邻接矩阵等矩阵,矩阵(i,i)元素xii代表行标i与列标的联系紧密程度,恰当的标准化对于此类矩阵分析尤其重要
9 例2. 𝑛 = 781件出土陶器按考古地点(0-6)和类型(a-d)两个属性变量交 叉分类得到下述列联表。 (𝑖,𝑗)格子元素𝑥𝑖𝑗为地点𝑖出土的第𝑗类陶器的 个数/计数。 a b c d 总计 0 30 10 10 39 89 1 53 4 16 2 75 2 73 1 41 1 116 3 20 6 1 4 31 4 46 36 37 13 132 5 45 6 59 10 120 6 16 28 169 5 218 总计 283 91 333 74 781 不同考古地点代表不同的时期 或文化,因此 • 陶器类型分布相似的考古地 点,其年代可能接近; • 通过研究陶器类型分布判断 考古地点的年代次序关系和 交流情况。 列联表矩阵与一般的数据矩阵略有不同,其元素非负,代表了关联大 小,与此类似的是强度矩阵(intensity)、丰度矩阵(abundance)、 网络的邻接矩阵等矩阵,矩阵(𝑖,𝑗)元素𝑥𝑖𝑗代表行标𝑖与列标𝑗的联系紧 密程度,恰当的标准化对于此类矩阵分析尤其重要
如上所述,考察wi大小的时候需要综合考虑其所在行、列的其它计算,需要考虑wii相对于行计数总和ri与列计数总和c;的大小,并作某种归一化或标准化。记号假设p×q列联表X=(wi),定义→行和:r = W1g = (r,.,rp)T列和:c = WT1p = (Ci,,Cq)T Dr = diag(r); Dc= diag(c)行归一化:P=(wii/r)=D-1W,其每一行的和都是1列归一化:Q=(wij/c)=WD=1,其每一列的和都是1W行归一化后,P的每一行的总和为1,各行之间具有可比性我们认为x各水平的特征刻画,比如第i行Pi = (Wi, ., Wiq)/ri是属性x的的水平i的特征刻画。同样O的第i列qj = (W1j..,Wpj)/cj是属性的的水平i的特征刻画10
10 如上所述,考察𝑤𝑖𝑗大小的时候需要综合考虑其所在行、列的其它 计算,需要考虑 𝑤𝑖𝑗 相对于行计数总和 𝑟𝑖 与列计数总和 𝑐𝑗 的大小, 并作某种归一化或标准化。 假设 𝑝 × 𝑞 列联表 𝑋 = 𝑤𝑖𝑗 ,定义 行和: 𝐫 = 𝑊𝟏𝑞 = (𝑟1, . , 𝑟𝑝) ⊤ 列和: 𝐜 = 𝑊⊤𝟏𝑝 = (𝑐1, . , 𝑐𝑞) ⊤ 𝐷𝑟 = 𝑑𝑖𝑎𝑔 𝐫 ; 𝐷𝑐= 𝑑𝑖𝑎𝑔 𝐜 行归一化: 𝑃 = 𝑤𝑖𝑗 /𝑟𝑖 = 𝐷𝑟 −1𝑊,其每一行的和都是1 列归一化: 𝑄 = 𝑤𝑖𝑗 /𝑐𝑗 = 𝑊𝐷𝑐 −1 ,其每一列的和都是1 记号 𝑊行归一化后, 𝑃的每一行的总和为1,各行之间具有可比性, 我们认为 𝑥 各水平的特征刻画,比如第 𝑖 行 𝐩𝑖 = 𝑤𝑖1, . , 𝑤𝑖𝑞 /𝑟𝑖 是属性 𝑥 的的水平 𝑖 的特征刻画。同样𝑄的第 𝑗 列 𝐪𝑗 = 𝑤1𝑗, . , 𝑤𝑝𝑗 /𝑐𝑗 是属性 𝑦 的的水平 𝑗 的特征刻画