数据降维的动机维数灾难在涉及到向量计算的问题中,随着维数的增加,计算量呈指数倍增长,样本点所包含的信息密度随维度增加而降低,相同的测度时在高维空间需要更多的样本点作为支撑。维数灾难的后果分类模型过拟合,进而导致预测能力下降
数据降维的动机 维数灾难 • 在涉及到向量计算的问题中,随着维数的增加,计算量呈指数倍增长。 • 样本点所包含的信息密度随维度增加而降低,相同的测度时在高维空 间需要更多的样本点作为支撑。 维数灾难的后果 • 分类模型过拟合,进而导致预测能力下降
数据降维的常用方法数据降维的本质学习映射函数f(x)=y,其中x是原始高维向量,y是映射后的低维向量。数据降维的方法特征选择一一挑选特征的子集。保留的特征全部来源于原特征集特征提取一一获得原来特征的线性(或者非线性)组合。经过特征提取后的变量不能在原来的特征集中找到
数据降维的常用方法 学习映射函数𝑓(𝒙)=𝒚,其中𝒙是原始高维向量,𝒚是映射后的低维向量。 数据降维的本质 数据降维的方法 • 特征选择——挑选特征的子集。保留的特征全部来源于原特征集 • 特征提取——获得原来特征的线性(或者非线性)组合。经过特 征提取后的变量不能在原来的特征集中找到
数据降维的作用01提炼关键信息,归并同类型指标去除穴余信息,提高数据信噪比降维可以减少由原始高维空间·降维能够提炼同类型指标中的中的几余信息所造成的误差。关键信息,简化指标体系,聚焦总体影响。,降维后的保留的重要相关特征能够减轻机器学习模型训练压降维也可以帮助提升高维数据力、提升模型预测性能的可视化程度
数据降维的作用 去除冗余信息,提高数据信噪比 • 降维可以减少由原始高维空间 中的冗余信息所造成的误差。 • 降维后的保留的重要相关特征, 能够减轻机器学习模型训练压 力、提升模型预测性能。 提炼关键信息,归并同类型指标 • 降维能够提炼同类型指标中的 关键信息,简化指标体系,聚 焦总体影响。 • 降维也可以帮助提升高维数据 的可视化程度
数据降维在金融领域的应用场景In定价因子的构建用户画像金融机构常需要通过海量数据刻在资产定价方面,降维分析方法常画客户特点以及对产品的偏好,被用于提取代表系统风险的潜在因以此实现对不同客户群的精准营子、捕获高频数据的因子结构。销。进而量化地、系统地、精细地控制在正式对用户进行分类前,降维投资组合的预期收益和承受风险分析方法常用于对指标的简化和以构建更加有效的投资组合。预处理,有助于提高后续大数据分析模型的效率
数据降维在金融领域的应用场景 定价因子的构建 • 在资产定价方面,降维分析方法常 被用于提取代表系统风险的潜在因 子、捕获高频数据的因子结构。 • 进而量化地、系统地、精细地控制 投资组合的预期收益和承受风险, 以构建更加有效的投资组合。 用户画像 • 金融机构常需要通过海量数据刻 画客户特点以及对产品的偏好, 以此实现对不同客户群的精准营 销。 • 在正式对用户进行分类前,降维 分析方法常用于对指标的简化和 预处理,有助于提高后续大数据 分析模型的效率
二、数据降维的准备工作
二、数据降维的准备工作