当前位置：和泉文库 > 统计 > 浏览文档

《多元统计分析》课程教学资源（课件讲稿）第十三讲因子分析

文件格式：PDF，文件大小：1.13MB，售价：9.01元

文档详细内容（约38页）

背景2：潜变量模型当现象不能被观察到的事实依据所解释时，是否遗漏了一个维度/潜变量素/变量？若遗漏的变量可观测，则是回归问题；若不可观测，则是潜变量模型（隐变量、因子变量）。潜变量模型假设可观测现象由不可观测的潜变量或隐变量所控制，“透过现象看本质”描述的正是潜变量模型物理学中的隐变量模型：物理学中的隐变量理论是因物理学家质疑量子力学完备性而提出的替代理论。一些物理学家如爱因斯坦，认为量子力学并未完整地描述物理系统的状态，亦即质疑量子力学是不完备的，因此量子力学的背后应该隐藏了一个尚未发现的理论，可以完整解释物理系统所有可观测量的演化行为，而避免掉任何不确定性或随机性。历史上爱因斯坦是隐变量理论的主要倡导者，出于对标准量子力学诠释的概率性解释的不满。他曾说：“我相信上帝不般子。”1935年，爱因斯坦与波多尔斯基、罗森共同提出的EPR伴谬（以姓氏字首为缩写）试图对哥本哈根诠释做出挑战，论文中指出隐变量应该加入量子力学中，俾使在量子纠缠现象中不会出现鬼魅般的超距作用。在提出后，争辩一直停留在物理哲学的范畴，直到贝尔不等式提出之后方得区分两者差异。实验证实：一定类型的局域隐变量理论与实验结果不相符，包括EPR伴谬中提出的诠释。6

6 背景2：潜变量模型当现象不能被观察到的事实依据所解释时，是否遗漏了一个维度/因素/变量？若遗漏的变量可观测，则是回归问题；若不可观测，则是潜变量模型（隐变量、因子变量）。潜变量模型假设可观测现象由不可观测的潜变量或隐变量所控制， “透过现象看本质”描述的正是潜变量模型。物理学中的隐变量模型: 物理学中的隐变量理论是因物理学家质疑量子力学完备性而提出的替代理论。一些物理学家如爱因斯坦，认为量子力学并未完整地描述物理系统的状态，亦即质疑量子力学是不完备的，因此量子力学的背后应该隐藏了一个尚未发现的理论，可以完整解释物理系统所有可观测量的演化行为，而避免掉任何不确定性或随机性。历史上爱因斯坦是隐变量理论的主要倡导者，出于对标准量子力学诠释的概率性解释的不满。他曾说：“我相信上帝不掷骰子。” 1935年，爱因斯坦与波多尔斯基、罗森共同提出的EPR佯谬（以姓氏字首为缩写）试图对哥本哈根诠释做出挑战，论文中指出隐变量应该加入量子力学中，俾使在量子纠缠现象中不会出现鬼魅般的超距作用。在提出后，争辩一直停留在物理哲学的范畴，直到贝尔不等式提出之后方得区分两者差异。实验证实：一定类型的局域隐变量理论与实验结果不相符，包括EPR佯谬中提出的诠释。潜变量

外显变量/可观测变量：manifestvariable，response潜变量模型潜变量/隐变量/因子：latentvariable，hiddenvariable，factor.潜变量统计模型大致可以如下划分：Latent variablesManifestvariablesCategoricalContinuousContinuousFactoranalysisItem response theoryCategoricalLatentprofileanalysisLatentclassanalysis潜变量模型例子：口教育/心理测量学中的因子分析：通过题目(item)测试结果(response)推断能力、性格等隐变量(latenttrait)，相关模型方法称为因子分析(factoranalysis)Itemresponsetheory、latenttraitanalysis口自然语言处理中的topicmodel：从文本语言特点推断主题的模型；口HiddenMarkovModel（HMM)：隐藏的马氏过程控制观察变量，在热力学、化学、信号处理、模式识别中有重要应用。口资产定价的Fama-French三因子模型：投资组合的收益可以由市场风险、市值风险、账面市值比风险等三个潜在因素/因子共同解释。口聚类分析、混合模型、零膨胀泊松：从不同类别混合构成的数据中推断潜在类别变量

7 潜变量模型例子：  教育/心理测量学中的因子分析: 通过题目(item)测试结果(response)推断能力、性格等隐变量(latent trait), 相关模型方法称为因子分析 (factor analysis)、Item response theory、latent trait analysis.  自然语言处理中的topic model: 从文本语言特点推断主题的模型；  Hidden Markov Model (HMM): 隐藏的马氏过程控制观察变量，在热力学、化学、信号处理、模式识别中有重要应用。  资产定价的Fama-French 三因子模型：投资组合的收益可以由市场风险、市值风险、账面市值比风险等三个潜在因素/因子共同解释。  聚类分析、混合模型、零膨胀泊松：从不同类别混合构成的数据中推断潜在类别变量。潜变量模型 Latent variables Manifest variables Continuous Categorical Continuous Factor analysis Item response theory Categorical Latent profile analysis Latent class analysis 外显变量/可观测变量：manifest variable，response 潜变量/隐变量/因子：latent variable，hidden variable，factor. 潜变量统计模型大致可以如下划分：

例1(a)Probit model假设0-1响应y取值与自变量x有关，如何建立两者之间的关系？Probit模型假设存在一个连续潜变量z控制y显现为0还是1：(1,z>0M(0,z≤0假设z与自变量x存在正态线性模型关系：z|x~N(a + bTx, 1),则E(ylx) = P(y = 1x) = P(z > 0|x) = Φ(α + bTx)该模型描述了响应y关于自变量x的非线性回归关系。与Pobit模型类似，但不假设正态因变量的模型是logistic回归模型：exp(a + bTx)E(ylx) = P(y = 1|x) = 1 + exp(α + bTx)在0-1数据分析中，logistic回归应用更为广泛，但probit与之类似。8

8 例1(a) Probit model 假设0-1响应𝑦取值与自变量𝐱有关，如何建立两者之间的关系？ Probit模型假设存在一个连续潜变量 𝑧 控制𝑦显现为0还是1： 𝑦 = ቊ 1, 𝑧 > 0 0, 𝑧 ≤ 0 假设𝑧 与自变量𝐱存在正态线性模型关系： 𝑧|𝐱~𝑁 𝑎 + 𝐛 ⊤𝐱, 1 ，则 𝐸 𝑦 𝐱 = 𝑃 𝑦 = 1|𝐱 = 𝑃 𝑧 > 0 𝐱 = Φ 𝑎 + 𝐛 ⊤𝐱 . 该模型描述了响应𝑦关于自变量𝐱的非线性回归关系。与Pobit模型类似，但不假设正态因变量的模型是logistic回归模型： 𝐸 𝑦 𝐱 = 𝑃 𝑦 = 1|𝐱 = exp(𝑎 + 𝐛 ⊤𝐱) 1 + exp(𝑎 + 𝐛⊤𝐱) 在0-1数据分析中，logistic回归应用更为广泛，但probit与之类似

例1(b)Poissonover-dispersionmodel假设有独立计数数据y1,,yn，常见的模型是泊松分布Pois(a)。但如果样本方差远远大于样本均值（over-dispersion），则显然泊松假设不合理，这可能是因为泊松的均值受某些未考虑的变量x的影响而不是常数，比如yi | xi~Pois (axi)若x，可以观测到，则是回归问题。泊松回归模型假设yi|xi~Pois(exp(a+bTxi))即回归函数与X的关系如下：; ≤ E(yi|xi) =exp(a +bTxi)似然函数n2AiL(a, b) =Yi!i=1

9 即回归函数与𝐱𝑖的关系如下： 𝜆𝑖 ≜ 𝐸(𝑦𝑖|𝐱𝑖) = exp(𝑎 + 𝐛 ⊤𝐱𝑖) 似然函数 𝐿 𝑎, 𝐛 = ෑ 𝑖=1 𝑛 𝜆𝑖 𝑦𝑖 𝑦𝑖 ! 𝑒 −𝜆𝑖 . 例1(b) Poisson over-dispersion model 假设有独立计数数据𝑦1, . , 𝑦𝑛, 常见的模型是泊松分布𝑃𝑜𝑖𝑠(𝜆)。但如果样本方差远远大于样本均值(over-dispersion)，则显然泊松假设不合理，这可能是因为泊松的均值受某些未考虑的变量𝑥𝑖的影响而不是常数，比如 𝑦𝑖|𝑥𝑖~Pois (𝜆𝑥𝑖) 若𝑥𝑖可以观测到，则是回归问题。泊松回归模型假设 𝑦𝑖|𝐱𝑖~Pois (exp(𝑎 + 𝐛 ⊤𝐱𝑖))

若Vi|x;~Pois（ax）中的x;~G(x）是潜变量，则其变化会导致泊松均值变化，生成其它计数分布模型：C(axi)k-ΛxidG(xi)P(yi = k) = Jk!口若假设xi～Gamma(α,α)，则y;服从负二项分布，该分布常用于拟合over-dispersion的计数数据口若计数数据over-dispersion，且o过多（稀疏），我们可假设数据中出现的yi=o有两种可能：一种可能是yi~Pois(a)，但观测到o个数；另外一种可能是yi~Pois(O)，即yi=0。计数数据由这两种Poisson数据混合而成（Poissonmixture），潜变量操纵这两种可能。假设x;~B(1,p),则y;的边际分布为零膨胀泊松分布(Zero-inflatedPoisson)：P(yi = k) = P(yi = k|xi = 1)p + qP(yi = k|xi = 0)ake-α + q1(k=0) EP-1,t-Mi,pi ≥ 0,pi = 1m个泊松混合：P(i=k）=Z1Pi110

10  若计数数据over-dispersion，且0过多（稀疏），我们可假设数据中出现的𝑦𝑖 =0有两种可能：一种可能是𝑦𝑖~Pois (𝜆)，但观测到0个数；另外一种可能是𝑦𝑖~Pois (0)，即𝑦𝑖 ≡ 0。计数数据由这两种Poisson数据混合而成(Poisson mixture)，潜变量操纵这两种可能。假设𝑥𝑖~𝐵 1, 𝑝 , 则𝑦𝑖的边际分布为零膨胀泊松分布(Zero-inflated Poisson)： 𝑃 𝑦𝑖 = 𝑘 = 𝑃 𝑦𝑖 = 𝑘|𝑥𝑖 = 1 𝑝 + 𝑞𝑃 𝑦𝑖 = 𝑘|𝑥𝑖 = 0 = 𝑝 𝜆 𝑘 𝑘! 𝑒 −𝜆 + 𝑞1(𝑘=0) .  若假设𝑥𝑖~𝐺𝑎𝑚𝑚𝑎(𝛼, 𝛼)，则𝑦𝑖服从负二项分布，该分布常用于拟合over-dispersion的计数数据若𝑦𝑖|𝑥𝑖~Pois (𝜆𝑥𝑖)中的𝑥𝑖~𝐺(𝑥)是潜变量，则其变化会导致泊松均值变化, 生成其它计数分布模型： ׬ = �� = �𝑦� �� 𝜆𝑥𝑖 𝑘 𝑘! 𝑒 −𝜆𝑥𝑖 𝑑𝐺(𝑥𝑖) 𝑚个泊松混合: 𝑃 𝑦𝑖 = 𝑘 = σ𝑖=1 𝑚 𝑝𝑖 𝜆𝑖 𝑘 𝑘! 𝑒 −𝜆𝑖 , 𝑝𝑖 ≥ 0, σ 𝑝𝑖 = 1

点击进入文档下载页（PDF格式）

共38页，可试读13页，点击继续阅读 ↓↓

您可能感兴趣的文档

《多元统计分析》课程教学资源（课件讲稿）第十二讲双标图biplot
《多元统计分析》课程教学资源（课件讲稿）第十一讲主成分分析
《多元统计分析》课程教学资源（课件讲稿）第十讲多元线性模型
《多元统计分析》课程教学资源（课件讲稿）第九讲 Hotelling’s T2检验
《多元统计分析》课程教学资源（课件讲稿）第八讲 Wishart分布（3/3）
《多元统计分析》课程教学资源（课件讲稿）第七讲 Wishart分布（2/3）
《多元统计分析》课程教学资源（课件讲稿）第六讲 Wishart分布（1/3）
《多元统计分析》课程教学资源（课件讲稿）第五讲高斯图模型
《多元统计分析》课程教学资源（课件讲稿）第四讲多元正态分布（多元生成分布、椭球分布、多元正态分布）
《多元统计分析》课程教学资源（课件讲稿）第三讲球对称分布（2/2）
《多元统计分析》课程教学资源（课件讲稿）第二讲球对称分布（1/2）
《多元统计分析》课程教学资源（课件讲稿）第一讲多元统计分析简介
《多元统计分析》课程教学资源（课件讲稿）第十四讲结构方程模型
《多元统计分析》课程教学资源（课件讲稿）第十五讲奇异值分解
《多元统计分析》课程教学资源（课件讲稿）第十六讲典则相关分析CCA
《多元统计分析》课程教学资源（课件讲稿）第十七讲列联表与对应分析
《多元统计分析》课程教学资源（课件讲稿）第十八讲距离和相似系数
《多元统计分析》课程教学资源（课件讲稿）第十九讲多维标度法
《多元统计分析》课程教学资源（课件讲稿）第二十讲聚类分析
《多元统计分析》课程教学资源（课件讲稿）第二十一讲分类预测
《多元统计分析》课程实验指导书（讲义）
《时间序列分析》课程实验指导书（共十三个）
《统计计算与软件包》课程实验指导书（SAS软件）
《统计预测与决策》课程实验指导书（共四个）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录