数据降维在金融领域的应用场景动机待分析的原始数据存在量纲上的不一致,导致计算误差。归一化或标准化处理可以使它们相同的范围内。常用方法离差标准化:即最大值-最小值标准化。此方法对原始数据的线性变换,使结果落到[0,1]区间。Z得分标准化:即中心化。此方法基于原始数据服从正态分布的假设,利用均值和标准差对数据进行标准化,若某特征变量x~N(u,α2)则标准化后的数据为:x*=二~N(0,1)
数据降维在金融领域的应用场景 动机 • 待分析的原始数据存在量纲上的不一致,导 致计算误差。归一化或标准化处理可以使它 们相同的范围内。 常用方法 • 离差标准化:即最大值-最小值标准化。此方 法对原始数据的线性变换,使结果落到[0,1] 区间。 • Z得分标准化:即中心化。此方法基于原始数 据服从正态分布的 假设,利用均值和标准差 对数据进行标准化,若某特征变量𝑥~𝑁(𝜇,𝜎 2 ), 则标准化后的数据为: 𝑥 ∗ = 𝑥−𝜇 𝜎 ~𝑁(0,1)
缺失值补充“模拟产生”真实e适用情况值的填充方法(针一般填充方法对时间序列)。使用变量的均值、众数、当某一变量的数据缺漏牛顿插值法、拉格朗中位数、滞后项进行填充。比例较高时,变量所含日插值法、埃尔米特·根据实际情况采用0、正的有用信息较多。(Hermite)插值法无穷、负无究进行统一填等其他插值方法。充
缺失值补充 适用情况 一般填充方法 “模拟产生”真实 值的填充方法(针 对时间序列)
缺失值补充牛顿插值法y =f(xo) +f(xo.x)(x-xo)假设某一变量y关于x的真实函数形式为f(x),(x。y)和(x1y)为两个已知yy =f(x)J点,通过这两个点可以计算出函数(x)在区间内的近似斜率(也被称为一阶差商),即:(x0,x1)=-()x,x0当数据在点处空缺时,可以通过下式拟合出缺失值:2X1Xoy=f(xo)+f(xoxi)(x-xo)
缺失值补充 牛顿插值法 假设某一变量𝑦关于𝑥的真实函数形式为𝑓(𝑥),(𝑥0 , 𝑦0 )和(𝑥1 ,𝑦1 )为两个已知 点,通过这两个点可以计算出函数𝑓(𝑥)在区间内的近似斜率(也被称为一阶 差商),即: 𝑓(𝑥0 ,𝑥1 ) = 𝑓 𝑥1 −𝑓 𝑥0 𝑥1−𝑥0 当数据在点𝑥处空缺时,可以通过下式拟合出缺失值: 𝑦 ̃= 𝑓(𝑥0 ) + 𝑓(𝑥0 ,𝑥1 )(𝑥 ̃− 𝑥0 )
三、主成分分析
三、主成分分析