选择回归模型的动机》》2、过拟合问题过拟合:模型对训练集的拟合程度比对真实总体的拟合程度更好,导致该模型在预测集上表现较差1002003004005004
选择回归模型的动机 过拟合:模型对训练集的拟合程度比对真实总体的拟合程度更好,导致该模型在预测 集上表现较差 2、过拟合问题
选择回归模型的动机>》>2、过拟合问题过拟合体现在两个方面:引入过多无关特征变量引入过多特征变量的高次项(因而模型高度非线性化)因此,为了避免过拟合问题所导致的预测能力降低,模型形式的设定(线性/非线性)和特征变量的选择就显得尤其重要
选择回归模型的动机 过拟合体现在两个方面: • 引入过多无关特征变量 • 引入过多特征变量的高次项(因而模型高度非线性化) 因此,为了避免过拟合问题所导致的预测能力降低,模型形式的设定(线性/非线性) 和特征变量的选择就显得尤其重要 2、过拟合问题
选择回归模型的动机>》》3、维数灾难尤其是当特征变量的个数大于观测数时(p>n),回归分析将得不到唯一的参数估计即使p<n时,特征变量具有过高的维数也会导致多重共线性与过拟合问题的出现,进而大大削弱回归系数的解释力与模型的预测能力
选择回归模型的动机 尤其是当特征变量的个数大于观测数时(p>n),回归分析将得不到唯一的参数估计 即使p<n时,特征变量具有过高的维数也会导致多重共线性与过拟合问题的出现,进 而大大削弱回归系数的解释力与模型的预测能力 3、维数灾难
交叉检验法为了解决上述问题带来的困扰,必须对回归模型进行选择或约束(也即对特征变量进行选择或约束),然后在不同模型之间进行比较,进而选出最优的模型。模型评价调整R2、AIC准则、BIC准则等以及ROC曲线、AUC指标等,还有模型在预测指标集上的均方误差(即Mean-SquareError,MSE)虽然这些指标均可用于最优模型的选择,但它们都对训练集和预测集的变化比问题较敏感。一旦换一组训练集样本,可能会得到完全不同的模型
交叉检验法 为了解决上述问题带来的困扰,必须对回归模型进行选择或约束(也即对特征变量进 行选择或约束),然后在不同模型之间进行比较,进而选出最优的模型。 虽然这些指标均可用于最优模型的选择,但它们都对训练集和预测集的变化比 较敏感。一旦换一组训练集样本,可能会得到完全不同的模型 调整R 2、AIC准则、BIC准则等以及ROC曲线、AUC指标等,还有模型在预测 集上的均方误差(即Mean-Square Error,MSE) 模型评价 指标 问题
交叉检验法k折交叉检验法(k-foldcross-validation,简记CV)选择最优模型第二步第一步第三步对训练集进行(同一)将总观测集随机地分选择另一折作为测试回归模型的拟合,然后为k个样本数量基本集,重复第一步和第用该模型对测试集进行二步,直到所有折都一致的折(fold)预测,并计算测试集上曾作过测试集(即重找其中一折作为预测的均方误差。复k次)。集,剩下的作为训练集
交叉检验法 k折交叉检验法(k-fold cross-validation,简记CV)选择最优模型 对训练集进行(同一) 回归模型的拟合,然后 用该模型对测试集进行 预测,并计算测试集上 的均方误差。 将总观测集随机地分 为k个样本数量基本 一致的折(fold), 找其中一折作为预测 集,剩下的作为训练 集。 第一步 第二步 选择另一折作为测试 集,重复第一步和第 二步,直到所有折都 曾作过测试集(即重 复k次)。 第三步