背景2:潜变量模型当现象不能被观察到的事实依据所解释时,是否遗漏了一个维度/潜变量素/变量?若遗漏的变量可观测,则是回归问题;若不可观测,则是潜变量模型(隐变量、因子变量)。潜变量模型假设可观测现象由不可观测的潜变量或隐变量所控制,“透过现象看本质”描述的正是潜变量模型物理学中的隐变量模型:物理学中的隐变量理论是因物理学家质疑量子力学完备性而提出的替代理论。一些物理学家如爱因斯坦,认为量子力学并未完整地描述物理系统的状态,亦即质疑量子力学是不完备的,因此量子力学的背后应该隐藏了一个尚未发现的理论,可以完整解释物理系统所有可观测量的演化行为,而避免掉任何不确定性或随机性。历史上爱因斯坦是隐变量理论的主要倡导者,出于对标准量子力学诠释的概率性解释的不满。他曾说:“我相信上帝不般子。”1935年,爱因斯坦与波多尔斯基、罗森共同提出的EPR伴谬(以姓氏字首为缩写)试图对哥本哈根诠释做出挑战,论文中指出隐变量应该加入量子力学中,俾使在量子纠缠现象中不会出现鬼魅般的超距作用。在提出后,争辩一直停留在物理哲学的范畴,直到贝尔不等式提出之后方得区分两者差异。实验证实:一定类型的局域隐变量理论与实验结果不相符,包括EPR伴谬中提出的诠释。6
6 背景2:潜变量模型 当现象不能被观察到的事实依据所解释时,是否遗漏了一个维度/因 素/变量? 若遗漏的变量可观测,则是回归问题;若不可观测,则 是潜变量模型(隐变量、因子变量)。 潜变量模型假设可观测现象由不可观测的潜变量或隐变量所控制, “透过现象看本质”描述的正是潜变量模型。 物理学中的隐变量模型: 物理学中的隐变量理论是因物理学家质疑量子力学 完备性而提出的替代理论。一些物理学家如爱因斯坦,认为量子力学并未完 整地描述物理系统的状态,亦即质疑量子力学是不完备的,因此量子力学的 背后应该隐藏了一个尚未发现的理论,可以完整解释物理系统所有可观测量 的演化行为,而避免掉任何不确定性或随机性。 历史上爱因斯坦是隐变量理论的主要倡导者,出于对标准量子力学诠释的概 率性解释的不满。他曾说:“我相信上帝不掷骰子。” 1935年,爱因斯坦 与波多尔斯基、罗森共同提出的EPR佯谬(以姓氏字首为缩写)试图对哥本 哈根诠释做出挑战,论文中指出隐变量应该加入量子力学中,俾使在量子纠 缠现象中不会出现鬼魅般的超距作用。在提出后,争辩一直停留在物理哲学 的范畴,直到贝尔不等式提出之后方得区分两者差异。实验证实:一定类型 的局域隐变量理论与实验结果不相符,包括EPR佯谬中提出的诠释。 潜变量
外显变量/可观测变量:manifestvariable,response潜变量模型潜变量/隐变量/因子:latentvariable,hiddenvariable,factor.潜变量统计模型大致可以如下划分:Latent variablesManifestvariablesCategoricalContinuousContinuousFactoranalysisItem response theoryCategoricalLatentprofileanalysisLatentclassanalysis潜变量模型例子:口教育/心理测量学中的因子分析:通过题目(item)测试结果(response)推断能力、性格等隐变量(latenttrait),相关模型方法称为因子分析(factoranalysis)Itemresponsetheory、latenttraitanalysis口自然语言处理中的topicmodel:从文本语言特点推断主题的模型;口HiddenMarkovModel(HMM):隐藏的马氏过程控制观察变量,在热力学、化学、信号处理、模式识别中有重要应用。口资产定价的Fama-French三因子模型:投资组合的收益可以由市场风险、市值风险、账面市值比风险等三个潜在因素/因子共同解释。口聚类分析、混合模型、零膨胀泊松:从不同类别混合构成的数据中推断潜在类别变量
7 潜变量模型例子: 教育/心理测量学中的因子分析: 通过题目(item)测试结果(response)推 断能力、性格等隐变量(latent trait), 相关模型方法称为因子分析 (factor analysis)、Item response theory、latent trait analysis. 自然语言处理中的topic model: 从文本语言特点推断主题的模型; Hidden Markov Model (HMM): 隐藏的马氏过程控制观察变量,在热 力学、化学、信号处理、模式识别中有重要应用。 资产定价的Fama-French 三因子模型:投资组合的收益可以由市场风 险、市值风险、账面市值比风险等三个潜在因素/因子共同解释。 聚类分析、混合模型、零膨胀泊松:从不同类别混合构成的数据中 推断潜在类别变量。 潜变量 模型 Latent variables Manifest variables Continuous Categorical Continuous Factor analysis Item response theory Categorical Latent profile analysis Latent class analysis 外显变量/可观测变量:manifest variable,response 潜变量/隐变量/因子:latent variable,hidden variable,factor. 潜变量统计模型大致可以如下划分:
例1(a)Probit model假设0-1响应y取值与自变量x有关,如何建立两者之间的关系?Probit模型假设存在一个连续潜变量z控制y显现为0还是1:(1,z>0M(0,z≤0假设z与自变量x存在正态线性模型关系:z|x~N(a + bTx, 1),则E(ylx) = P(y = 1x) = P(z > 0|x) = Φ(α + bTx)该模型描述了响应y关于自变量x的非线性回归关系。与Pobit模型类似,但不假设正态因变量的模型是logistic回归模型:exp(a + bTx)E(ylx) = P(y = 1|x) = 1 + exp(α + bTx)在0-1数据分析中,logistic回归应用更为广泛,但probit与之类似。8
8 例1(a) Probit model 假设0-1响应𝑦取值与自变量𝐱有关,如何建立两者之间的关系? Probit模型假设存在一个连续潜变量 𝑧 控制𝑦显现为0还是1: 𝑦 = ቊ 1, 𝑧 > 0 0, 𝑧 ≤ 0 假设𝑧 与自变量𝐱存在正态线性模型关系: 𝑧|𝐱~𝑁 𝑎 + 𝐛 ⊤𝐱, 1 , 则 𝐸 𝑦 𝐱 = 𝑃 𝑦 = 1|𝐱 = 𝑃 𝑧 > 0 𝐱 = Φ 𝑎 + 𝐛 ⊤𝐱 . 该模型描述了响应𝑦关于自变量𝐱的非线性回归关系。 与Pobit模型类似,但不假设正态因变量的模型是logistic回归模型: 𝐸 𝑦 𝐱 = 𝑃 𝑦 = 1|𝐱 = exp(𝑎 + 𝐛 ⊤𝐱) 1 + exp(𝑎 + 𝐛⊤𝐱) 在0-1数据分析中,logistic回归应用更为广泛,但probit与之类似
例1(b)Poissonover-dispersionmodel假设有独立计数数据y1,,yn,常见的模型是泊松分布Pois(a)。但如果样本方差远远大于样本均值(over-dispersion),则显然泊松假设不合理,这可能是因为泊松的均值受某些未考虑的变量x的影响而不是常数,比如yi | xi~Pois (axi)若x,可以观测到,则是回归问题。泊松回归模型假设yi|xi~Pois(exp(a+bTxi))即回归函数与X的关系如下:; ≤ E(yi|xi) =exp(a +bTxi)似然函数n2AiL(a, b) =Yi!i=1
9 即回归函数与𝐱𝑖的关系如下: 𝜆𝑖 ≜ 𝐸(𝑦𝑖|𝐱𝑖) = exp(𝑎 + 𝐛 ⊤𝐱𝑖) 似然函数 𝐿 𝑎, 𝐛 = ෑ 𝑖=1 𝑛 𝜆𝑖 𝑦𝑖 𝑦𝑖 ! 𝑒 −𝜆𝑖 . 例1(b) Poisson over-dispersion model 假设有独立计数数据𝑦1, . , 𝑦𝑛, 常见的模型是泊松分布𝑃𝑜𝑖𝑠(𝜆)。但如 果样本方差远远大于样本均值(over-dispersion),则显然泊松假设 不合理,这可能是因为泊松的均值受某些未考虑的变量𝑥𝑖的影响而不 是常数,比如 𝑦𝑖|𝑥𝑖~Pois (𝜆𝑥𝑖) 若𝑥𝑖可以观测到,则是回归问题。泊松回归模型假设 𝑦𝑖|𝐱𝑖~Pois (exp(𝑎 + 𝐛 ⊤𝐱𝑖))
若Vi|x;~Pois(ax)中的x;~G(x)是潜变量,则其变化会导致泊松均值变化,生成其它计数分布模型:C(axi)k-ΛxidG(xi)P(yi = k) = Jk!口若假设xi~Gamma(α,α),则y;服从负二项分布,该分布常用于拟合over-dispersion的计数数据口若计数数据over-dispersion,且o过多(稀疏),我们可假设数据中出现的yi=o有两种可能:一种可能是yi~Pois(a),但观测到o个数;另外一种可能是yi~Pois(O),即yi=0。计数数据由这两种Poisson数据混合而成(Poissonmixture),潜变量操纵这两种可能。假设x;~B(1,p),则y;的边际分布为零膨胀泊松分布(Zero-inflatedPoisson):P(yi = k) = P(yi = k|xi = 1)p + qP(yi = k|xi = 0)ake-α + q1(k=0) EP-1,t-Mi,pi ≥ 0,pi = 1m个泊松混合:P(i=k)=Z1Pi110
10 若计数数据over-dispersion,且0过多(稀疏),我们可假设 数据中出现的𝑦𝑖 =0有两种可能:一种可能是𝑦𝑖~Pois (𝜆),但 观测到0个数;另外一种可能是𝑦𝑖~Pois (0),即𝑦𝑖 ≡ 0。计数 数据由这两种Poisson数据混合而成(Poisson mixture),潜变 量操纵这两种可能。假设𝑥𝑖~𝐵 1, 𝑝 , 则𝑦𝑖的边际分布为零膨 胀泊松分布(Zero-inflated Poisson): 𝑃 𝑦𝑖 = 𝑘 = 𝑃 𝑦𝑖 = 𝑘|𝑥𝑖 = 1 𝑝 + 𝑞𝑃 𝑦𝑖 = 𝑘|𝑥𝑖 = 0 = 𝑝 𝜆 𝑘 𝑘! 𝑒 −𝜆 + 𝑞1(𝑘=0) . 若假设𝑥𝑖~𝐺𝑎𝑚𝑚𝑎(𝛼, 𝛼),则𝑦𝑖服从负二项分布,该分布常用 于拟合over-dispersion的计数数据 若𝑦𝑖|𝑥𝑖~Pois (𝜆𝑥𝑖)中的𝑥𝑖~𝐺(𝑥)是潜变量,则其变化会导致泊松均值 变化, 生成其它计数分布模型: = �� = �𝑦� �� 𝜆𝑥𝑖 𝑘 𝑘! 𝑒 −𝜆𝑥𝑖 𝑑𝐺(𝑥𝑖) 𝑚个泊松混合: 𝑃 𝑦𝑖 = 𝑘 = σ𝑖=1 𝑚 𝑝𝑖 𝜆𝑖 𝑘 𝑘! 𝑒 −𝜆𝑖 , 𝑝𝑖 ≥ 0, σ 𝑝𝑖 = 1