第十一讲 主成分分析方差=长度2=信息
第十一讲 主成分分析 方差=长度2=信息
Recap假设样本ViERq,XiERP满足多元线性回归模型:Ynxq=XBpxg+E—yi=BTxi+Ei,Ei,i=1,..,n id~(O,2)(xT)(e)(yT)(BTx1+e))横向排YB +:::= XB +ε-(X)eT)yn(BTXn+E)Y = XB + E Y = (y(1) .,y(g) = X(β(1),..,β(g)) + (E(1),..,E(q) Y(k) = Xβ(k) + E(k), E(k)~(0, Okkln)竖向看LS: min IlEl2 min Zk=-1le(k)ll = minlly(k) - Xβ()ll2,k = 1, .,q,=β(k) = (XTX) -1XTy(k), B = (β(1), .,β(g)) = (XTX)-1xTY,每个响应分别回归:y(k)~X,利用得到的q个残差向量(1),(g)估计Z: ij =)G) / (n - p), = T/ (n - p),8 = ((1),.,E(g).B=argminl2=argmin-1/2(命题3),矩阵或Y的每一行可看作是一个“标量”,其方差矩阵看作是“常数
2 假设样本𝐲𝑖 ∈ 𝑅 𝑞 , 𝐱𝑖 ∈ 𝑅 𝑝满足多元线性回归模型: 𝑌𝑛×𝑞 = 𝑋𝐵𝑝×𝑞 + ℰ ⇔ 𝐲𝑖 = 𝐵 ⊤𝐱𝑖 + 𝛆𝑖 , 𝛆𝑖 , 𝑖 = 1, . , 𝑛 𝑖𝑖𝑑~ 𝟎, Σ 𝑌 = 𝐲1 ⊤ ⋮ 𝐲𝑛 ⊤ = (𝐵 ⊤𝐱1+𝛆1) ⊤ ⋮ (𝐵 ⊤𝐱𝑛+𝛆𝑛) ⊤ = 𝐱1 ⊤ ⋮ 𝐱𝑛 ⊤ 𝐵 + 𝛆1 ⊤ ⋮ 𝛆𝑛 ⊤ = 𝑋𝐵 + ℰ 𝑌 = 𝑋𝐵 + ℰ ⇔ 𝑌 = 𝐲 1 , . , 𝐲 𝑞 = 𝑋 𝛃 1 , . , 𝛃 𝑞 + (𝛆 1 , . , 𝛆(𝑞)), ⇔ 𝐲(𝑘) = 𝑋𝛃(𝑘) + 𝛆(𝑘) , 𝛆(𝑘)~ 𝟎, 𝜎𝑘𝑘𝐼𝑛 LS: min ℰ 2 ⇔ min σ 𝑘=1 𝑞 𝛆(𝑘) 2 ⇔ min 𝐲(𝑘) − 𝑋𝛃(𝑘) 2 , 𝑘 = 1, . , 𝑞, ⇒ 𝛃 (𝑘) = (𝑋 ⊤𝑋) −1𝑋 ⊤𝐲(𝑘) , 𝐵 = 𝛃 1 , . , 𝛃 𝑞 = (𝑋 ⊤𝑋) −1𝑋 ⊤𝑌, Recap 横向排 竖 向 看 𝐵 = argmin ℰ 2 = argmin ℰΣ −1/2 2 (命题3), 矩阵ℰ或𝑌的每一 行可看作是一个“标量”,其方差矩阵Σ看作是“常数” 。 每个响应分别回归:𝐲(𝑘)~𝑋,利用得到的𝑞个残差向量𝛆ො 1 , . , 𝛆ො 𝑞 估 计Σ:𝜎ො𝑖𝑗 = 𝛆ො(𝑖) ⊤ 𝛆ො(𝑗)/ 𝑛 − 𝑝 , Σ = ℰመ⊤ℰመ/ 𝑛 − 𝑝 , ℰመ = 𝛆ො 1 , . , 𝛆ො 𝑞 . 𝑌
主成分分析(PCA)主成分分析(PCA,principalcomponentanalysis)是由KPearson、Hotelling独立发展出来的降维方法。以后会看到,PcA实际上是奇异值分解(SVD)的一个特殊应用。PCA把多个相关变量线性组合成新的“变量”,如果少数几个组合能包含原来所有变量的大部分方差信息,那么我们可以用它们替代原来较多的变量。这些变量的组合称为主成分(PC,principalcomponent)。物体的长度方差:随机变量长度2物体的长度以远端边界点之间的距离,或边界点与中心的距离度量。随机变量的长度2:方差随机变量作为の的函数,是有“形状”的数学对象,表现为其分布形状。我们以方差E(x一μ)而不是E(x)2度量随机变量的“长度”(后者不代表几何形状的长度,参见下图)。3
3 主成分分析(PCA, principal component analysis) 是由K. Pearson、Hotelling独立发展出来的降维方法。以后会看到,PCA实际 上是奇异值分解(SVD)的一个特殊应用。 PCA把多个相关变量线性组合成新的“变量”, 如果少数几个组合能包 含原来所有变量的大部分方差信息,那么我们可以用它们替代原来较 多的变量。这些变量的组合称为主成分(PC, principal component )。 主成分分析(PCA) 方差: 随机 变量长度2 物体的长度 物体的长度以远端边界点之间的距离,或边界点与中心的距离度量。 2 v x μ x 0 随机变量的长度2:方差 随机变量作为𝜔的函数,是有“形状”的数学对象,表现为其分布形 状。我们以方差𝐸(𝑥 − 𝜇) 2而不是𝐸(𝑥) 2度量随机变量的“长度” (后者不代表几何形状的长度,参见下图)
随机向量的各向“长度随机向量x的空间轮廓在各个方向上都有长度。对任何方向v,Ilvll=1,x在v上的投影坐标为vTx,中心u的投影坐标为vTu随机向量在该方向上的方差或“长度2”:E(x) = μ,E(vTx -vTμ)2 = vT ZV, Ilvll = 1,var(x) = Z+PCA求解随机向量投影坐标方差最大的方向,此时投影坐标称为主成分。Ax与中心u的平均距离Elxx在v方向的长度叫I2不能体现出长度的方E(vx-vμ)2向性及分量之间的相依性
4 2 v v1 v x μ x x v T v μ v T 随机向量的各向“长度” 随机向量𝐱的空间轮廓在各个方向上都有长度。对任何方向𝐯, 𝐯 = 1, 𝐱在𝐯上的投影坐标为𝐯 ⊤𝐱,中心𝛍的投影坐标为𝐯 ⊤𝛍, 随机向量在该方向上的方差或“长度2”: E(𝐯 ⊤𝐱 − 𝐯 ⊤𝛍) 2 = 𝐯 ⊤ Σ 𝐯, 𝐯 = 1, PCA求解随机向量投影坐 标方差最大的方向,此 时投影坐标称为主成分。 𝐱与中心𝛍的平均距离𝐸||𝐱 − 𝛍|| 𝟐 不能体现出长度的方 向性及分量之间的相依性。 𝐸 𝐱 = 𝛍, var 𝐱 = Σ
总体PCA我们首先考虑总体(单个随机向量)的主成分分析。PCA寻找一个低维空间(特别地,一组正交基),使得随机向量在其上的投影最大可能地保留原始数据的信息,信息以投影坐标的方差(长度2)代表。这些正交基称为主成分方向(或载荷),而随机向量在这些方向上的投影坐标称为主成分。XERP在vERP上的投影为Px=V(vTv)-1vTx,投影坐标投影坐标为(vTv)-1vTx。特别地,若vESP-1,即Ilvll=1,P,x=v(vTx),投影坐标为vTx。假设随机向量xERP的方差矩阵为=var(x),x在投影坐标在常数向量vESP-1上的投影坐标vTx是一个随机变量,的方差其方差为var(vTx) = vTZv.哪个方向上投影方差/长度最大?5
5 我们首先考虑总体(单个随机向量)的主成分分析。 PCA寻找一个低维空间(特别地,一组正交基),使得随机向 量在其上的投影最大可能地保留原始数据的信息,信息以投 影坐标的方差(长度2)代表。 这些正交基称为主成分方向(或载荷),而随机向量在这些 方向上的投影坐标称为主成分。 投影坐标 的方差 投影坐标 总体PCA 𝐱 ∈ 𝑅 𝑝在𝐯 ∈ 𝑅 𝑝 上的投影为𝑃𝐯𝐱 = 𝐯(𝐯 ⊤𝐯) −1𝐯 ⊤𝐱, 投影坐标 为(𝐯 ⊤𝐯) −1𝐯 ⊤𝐱。特别地,若𝐯 ∈ 𝑆 𝑝−1 , 即 𝐯 = 1, 𝑃𝐯𝐱 = 𝐯 𝐯 ⊤𝐱 , 投影坐标为𝐯 ⊤𝐱。 假设随机向量 𝐱 ∈ 𝑅 𝑝 的方差矩阵为Σ = var(𝐱), 𝐱在 在常数向量𝐯 ∈ 𝑆 𝑝−1上的投影坐标𝐯 ⊤𝐱是一个随机变量, 其方差为 var 𝐯 ⊤𝐱 = 𝐯 ⊤Σ𝐯. 哪个方向上投影方差/长度最大?