多元线性回归模型的缺陷变量的无意义排序当定性响应变量有m个种类时(m>2)通常会给各个种类进行编号排序,但这些种类仅在逻辑上仅具有平行关系,并不具有顺序关系。但是编号本身则天然代表了某种大小关系或顺序关系,不同的排序方式会产生完全不同的线性模型及参数估计,给人们带来混淆。参数估计的有效性不再满足假设响应变量具有二值离散的分布特征(即yi=0或者yi=1)那么普通的多元线性回归模型对参数的估计将不满足有效性。预测值的经济含义模糊在响应变量为二元离散取值的情况下,如果使用普通的多元线性回归模型进行建模,预测的结果则可能大于1或小于0,这样的结果与现实相悸
多元线性回归模型的缺陷 变量的无意义排序 当定性响应变量有m个种类时(m>2),通常会给各个种类进 行编号排序,但这些种类仅在逻辑上仅具有平行关系,并不具有顺序 关系。但是编号本身则天然代表了某种大小关系或顺序关系,不同的 排序方式会产生完全不同的线性模型及参数估计,给人们带来混淆。 参数估计的有效性不再满足 假设响应变量具有二值离散的分布特征(即𝑦𝑖 = 0或者 𝑦𝑖 = 1), 那么普通的多元线性回归模型对参数的估计将不满足有效性。 预测值的经济含义模糊 在响应变量为二元离散取值的情况下,如果使用普通的多元线性 回归模型进行建模,预测的结果则可能大于1或小于0,这样的结果 与现实相悖
二分类多元Logistic/Probit回归广义线性模型(generalizedlinearmodel)组成部分:随机部分、系统部分(或线性部分)、联系函数随机部分系统部分联系函数指响应变量与其概率分布(例如正态联接随机部分与系统部分,函数指以线性形式进入模型的特征变分布、二项分布或逆高斯分布)假定形式与系统部分误差项的分布有响应变量在各个观测之间相互独立关。量,记为zi=x且在建模时仅考虑其条件期望E(yilX)g[E(i|X)] =xβ当联系函数为g(a)=a时,广义线性回归模型退化为普通线性回归模型普通线性模型可以看作广义线性模型的一个特例
二分类多元Logistic/ Probit回归 广义线性模型(generalized linear model) 组成部分:随机部分、系统部分(或线性部分)、联系函数 随机部分 指响应变量与其概率分布(例如正态 分布、二项分布或逆高斯分布)假定 响应变量在各个观测之间相互独立, 且在建模时仅考虑其条件期望𝐸(𝑦𝑖 |𝑋) 系统部分 指以线性形式进入模型的特征变 量,记为𝑧𝑖 = 𝑥𝑖 ′𝛽 联系函数 联接随机部分与系统部分,函数 形式与系统部分误差项的分布有 关。 𝑔[𝐸(𝑦𝑖│𝑋)] = 𝑥𝑖 ′𝛽 当联系函数为g(a)=a时,广义线性回归模型退化为普通线性回归模型。 普通线性模型可以看作广义线性模型的一个特例
二分类多元Logistic/Probit回归在利用广义线性模型做二分类建模时,这两类函数可以将系统部分给出z的转化为在0到1之间的二分类响应变量的多变量E(yix),使得模型可以更元Logistic/Probit模好地拟合二项分布的数据。型对于Logistic函数(即对于Probit函数(即标准正态分Sigmoid函数)此转换布的累积分布函数),则有:过程可表示为:P(yi=1|X)=E(yilX)=Φ(z)P(yi = 1|X) = E(yi |X) =52Ae-zezds E[0,1]Sigmoid(zi) = 1+e-z, EV2元[0,1]
二分类多元Logistic/ Probit回归 • 在利用广义线性模型做二分类建 模时,这两类函数可以将系统部 分给出z_i的转化为在0到1之间的 变量E(y_i│X),使得模型可以更 好地拟合二项分布的数据。 • 对于Probit函数(即标准正态分 布的累积分布函数),则有: 𝛲 𝑦𝑖 = 1 𝑿 = 𝔼(𝑦𝑖 |𝑿) = 𝛷(𝑧𝑖 ) = න 0 𝑧𝑖 1 2𝜋 𝑒 − 𝑠 2 2 𝑑𝑠 ∈ [0,1] • 二分类响应变量的多 元Logistic/Probit模 型 • 对于Logistic函数(即 Sigmoid函数),此转换 过程可表示为: Ρ(𝑦𝑖 = 1│𝑋) = 𝐸(𝑦𝑖│𝑋) = 𝑆𝑖𝑔𝑚𝑜𝑖𝑑(𝑧𝑖 ) = e −𝑍𝑖 1+e −𝑍𝑖 ∈ [0,1]
二分类多元Logistic/Probit回归P(yi = 1]X(8)x'βim二分类多元Logistic回归模型[P(Yi = O]X)等式左边称为对数几率(logodds),儿率为y,=1与y=o的条件概率的比值,表示给定特征变量,响应变量y,=1的相对可能性回归系数β,的经济含义:在其他特征变量不变的情况下,变量x的一单位变化所引发的对数儿率的平均变化。或者解释为:在其他特征变量不变的情况下,变量xk对对数几率的边际影响(marginaleffect)二分类多元Probit回归模型Φ-1[P(yi = 1|X)] = xiβ(9)
二分类多元Logistic/ Probit回归 二分类多元Logistic回归模型 二分类多元Probit回归模型
二分类多元Logistic/Probit回归参数估计方法非线性最小二乘法(nonlinearleastsquare)使离差平方和最小化以Probit模型为例,参数估计量极大似然估计法(maximumlikelihoodestimation)Logistic模型为例,参数估计量BMLE=argmaxZ-1(yixiβ-In[1+ex]数值优化算法来求得数值解,如梯度下降法和牛顿法m!
二分类多元Logistic/ Probit回归 参数估计方法 • 非线性最小二乘法(nonlinear least square)使离差平方和最小化 • 以Probit模型为例,参数估计量 • 极大似然估计法(maximum likelihood estimation) • Logistic模型为例,参数估计量 • 𝜷𝑀𝐿𝐸 = 𝑎𝑟𝑔 𝑚𝑎𝑥 𝜷 σ𝑖=1 𝑁 𝑦𝑖𝒙𝒊 ′𝜷 − 𝑙𝑛 1 + 𝑒 𝒙𝒊 ′𝜷 • 数值优化算法来求得数值解,如梯度下降法和牛顿法