多元统计分析的定义 多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。 多元统计分析的内容和方法 1、简化数据结构(降维问题) 将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信 息又不太多。 1)主成分分析 (2)因子分析 (3)对应分析等 2、分类与判别(归类问题) 对所考察的变量按相似程度进行分类 (1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法 (2)判别分析:判别样本应属何种类型的统计方法 3、变量间的相互联系 一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析) 是:两组变量间的相互关系(典型相关分析) 多元统计分析的理论基础 1、矩阵 2、多元正态分布 欧氏距离和马氏距离 1、欧氏距离(直线距离) (1)优点 (2)缺陷:权重被忽略和量纲不一致时处理不当 2、马氏距离 (1)优点:克服量纲、克服指标间相关性影响 (2)缺点:确定协方差矩阵困难 假设检验的基本原理 小概率事件原理 小概率思想是指小概率事件(P<0.01或P<0.05等)在一次试验中基本上不会发生。反证法思想是先提出假 设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立:;反之, 则认为假设成立。 假设检验的步骤 (1)提出一个原假设和备择假设 (2)确定检验统计量 (3)确定显著性水平a (4)计算检验统计量的值并进行判断 均值向量的检验 正态总体均值检验的类型 1)根据样本对其总体均值大小进行检验(One- Sample T Test):如妇女身高的检验 2)根据来自两个总体的独立样本对其总体均值的检验( Indepent Two- Sample TTest):如两个班平均成绩 的检验 3)配对样本的检验(Pair- Sample T Test):如减肥效果的检验 4)多个总体均值的检验
多元统计分析的定义 多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广。 多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。 多元统计分析的内容和方法 1、 简化数据结构(降维问题) 将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信 息又不太多。 (1)主成分分析 (2)因子分析 (3)对应分析等 2、分类与判别(归类问题) 对所考察的变量按相似程度进行分类。 (1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。 (2)判别分析:判别样本应属何种类型的统计方法。 3、变量间的相互联系 一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析) 二是:两组变量间的相互关系(典型相关分析) 多元统计分析的理论基础 1、矩阵 2、多元正态分布 欧氏距离和马氏距离 1、欧氏距离(直线距离) (1)优点 (2)缺陷:权重被忽略和量纲不一致时处理不当 2、马氏距离 (1)优点:克服量纲、克服指标间相关性影响 (2)缺点:确定协方差矩阵困难 假设检验的基本原理 小概率事件原理 小概率思想是指小概率事件(P<0.01 或 P<0.05 等)在一次试验中基本上不会发生。反证法思想是先提出假 设(检验假设 H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;反之, 则认为假设成立。 假设检验的步骤 (1)提出一个原假设和备择假设 (2)确定检验统计量 (3)确定显著性水平α (4)计算检验统计量的值并进行判断 均值向量的检验 正态总体均值检验的类型 1)根据样本对其总体均值大小进行检验( One-Sample T Test ):如妇女身高的检验。 2)根据来自两个总体的独立样本对其总体均值的检验( Indepent Two-Sample T Test ):如两个班平均成绩 的检验。 3)配对样本的检验( Pair-Sample T Test ):如减肥效果的检验。 4)多个总体均值的检验
SIM手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异 即:研究被调查者的收入水平是否会影响其对SM手机的满意程度 SPSS处理: Analyze- Compare Mean- One-Way ANOVA 结果如下: Sumof Squares df Mean Square 6.863 3.432 Within Group 1333.341 5.089 Total 1340.204 264 表中 Sum of Squares表示组内和组间的变动情况,df代表自由度, Mean Square代表均方差,F检验值 0.674,显著性水平0.51。一般情况下,显著性水平0.1以下差异显著。对于SM手机来说,不同收入水平 方差分析F值显著性水平0.51,没有通过显著性水平检验,说明三种收入的被调查者的用户满意度没有 著性差异,即被调查者的收入水平并不影响其对SIM手机的满意程度 方差分析的应用条件 (1)可比性,若资料中各组均数本身不具可比性则不适用方差分析 (2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用 方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换 方法变为正态或接近正态后再进行方差分析。 (3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。即若组间方差 不齐则不适用方差分析 聚类分析 是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 聚类分析类型及方法 1、聚类分析的类型有: 对样本分类,称为Q型聚类分析 对变量分类,称为R型聚类分析 Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来 型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似 变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的 聚类分析的方 系统聚类(层次聚类) 非系统聚类(非层次聚类) 系统聚类法包括:凝聚方式聚类、分解方式聚类 非系统聚类法包括:模糊聚类法、K一均值法(快速聚类法)等等 以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离 例1:为了研究辽宁省5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分 2.94 1927 3.29 13.30 7.98 32 10 1.35 10.06 l6.18 8.391196 l081 Gl={辽宁},G2={浙江},G3={河南,G4={甘肃},G5={青海
SIM 手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异 即:研究被调查者的收入水平是否会影响其对 SIM 手机的满意程度。 SPSS 处理:Analyze — Compare Mean — One-Way ANOVA 结果如下: Sumof Squares df Mean Square F Sig. Between Groups 6.863 2 3.432 0.674 0.51 Within Groups 1333.341 262 5.089 Total 1340.204 264 表中 Sum of Squares 表示组内和组间的变动情况,df 代表自由度,Mean Square 代表均方差,F 检验值 0.674,显著性水平 0.51。一般情况下,显著性水平 0.1 以下差异显著。对于 SIM 手机来说,不同收入水平 方差分析 F 值显著性水平 0.51,没有通过显著性水平检验,说明三种收入的被调查者的用户满意度没有显 著性差异,即被调查者的收入水平并不影响其对 SIM 手机的满意程度。 方差分析的应用条件 (1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。 (2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用 方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换 方法变为正态或接近正态后再进行方差分析。 (3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。即若组间方差 不齐则不适用方差分析。 聚类分析 是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 聚类分析类型及方法 1、聚类分析的类型有: 对样本分类,称为 Q 型聚类分析 对变量分类,称为 R 型聚类分析 Q 型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。 R 型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似 变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的 2、聚类分析的方法: 系统聚类(层次聚类) 非系统聚类(非层次聚类) 系统聚类法包括:凝聚方式聚类、分解方式聚类 非系统聚类法包括:模糊聚类法、K-均值法(快速聚类法)等等 以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。 例 1:为了研究辽宁省 5 省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分 省份 x1 x2 x3 x4 x5 x6 x7 x8 辽宁 浙江 河南 甘肃 青海 7.90 7.68 9.42 9.16 10.06 39.77 50.37 27.93 27.98 28.64 8.49 11.35 8.20 9.01 10.52 12.94 13.30 8.14 9.32 10.05 19.27 19.25 16.17 15.99 16.18 11.05 14.59 9.42 9.10 8.39 2.04 2.75 1.55 1.82 1.96 13.29 14.87 9.76 11.35 10.81 G1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={青海}
采用欧氏距高: dl2=[79-7.682+(39.77-50.37)2+(849-1135)2+(1294 13.3)2+(1927-19.25)2+(11.05-14.59)2+(2.04-275)2+(13.29-1487)2]0.5=1167 dl3=1380dl4=13.12dl5=1280d23=2463d24=24.06d25=23.54d34=2.2d35=3.51 d45=2.21 DI= I 313.8024630 4|31224062200 5(2802354351210 l6l=d(34)l=min{dl3,dl4}=13.12d62=d(3,4)2=min{d23,d24}=24.06 d6=d(3,4)s=mn{d35,d45}=2.2l D2=1 13.120 24.0611.670 5(2.21 12.80 540 d7l=d(3,4,5)l=min{dl3,dl4dl5}=12.80 d72=d(3,4,5)2=mn{d23,d24,d25}=23.54 2(23.5411.670 d78=min{d7l,d72}=12.80 河南3**★★ 甘肃4* ☆☆☆☆如★食☆☆云云k★★食★k☆☆★ 肯海5* 辽宁1*★偷音音 浙江2*★会内会会索膏杂索会 判别分析与聚类分析的比较 1、判别分析是在己知研究对象分成若干类型并已取得各种类型的一批已知样本的观测数据,在此基础 上根据某些准则建立判别式,然后对未知类型的样本进行判别分类。 2、聚类分析则是对研究对象的类型未知的情况下,对其进行分类的方法。 3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再 用判别分析构建判别式对新样本进行判别
采用欧氏距离: d12=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94- 13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5 D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0 d61=d(3,4)1=min{d13,d14}=13.12 d62=d(3,4)2=min{d23,d24}=24.06 d65=d(3,4)5=min{d35,d45}=2.21 6 1 2 5 6 0 D2= 1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0 d71=d(3,4,5)1=min{d13,d14,d15}=12.80 d72=d(3,4,5)2=min{d23,d24,d25}=23.54 7 1 2 D3= 7 0 1 12.80 0 2 23.54 11.67 0 d78=min{d71,d72}=12.80 7 8 D4= 7 0 8 12.8 0 河南 3******* ****** 甘肃 4******* ************************* 青海 5************* ***** 辽宁 1**************************** ********** 浙江 2**************************** 判别分析与聚类分析的比较: 1、判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样本的观测数据,在此基础 上根据某些准则建立判别式,然后对未知类型的样本进行判别分类。 2、聚类分析则是对研究对象的类型未知的情况下,对其进行分类的方法。 3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再 用判别分析构建判别式对新样本进行判别
距离判别基本思想 即:首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给样品, 计算它到各类平均数的距离,哪个距离最小就将它判归哪个类 贝叶斯( Bayes)判别基本思想: 贝叶斯判别法是通过计算被判样本x属于k个总体的条件概率P(nkx)n=1,2k.比较k个概率的大 小,将样本判归为来自出现概率最大的总体(或归属于错判概率最小的总体)的判别方法 判别分析类型及方法 (1)按判别的组数来分,有两组判别分析和多组判别分析 (2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别 (3)按判别对所处理的变量方法不同有逐步判别、序贯判别。 (4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则 试用贝叶斯判别法将样本x0判到G1、G2、G3中的一个。考虑与不考虑误判损失的结果如何? 1、考虑误判损失: 误判到G1的平均损失为 ECMI=0.55*0.46°0+0.15·1.5*400+0.30*0.70*100= 误判到G2的平均损失为 ECM2=0.55*046·20+0.15·1.5*0+0.30*0.70*50 误判到G3的平均损失为 ECM3=0.55*0.46*80+0.15*1.5·200+0.30·0.700 其中ECM2最小,故将x0判别到G2。 不考虑误判损 将xO判别到G1的条件概率为 P(G1/x0)=(0.55*0.46/(0.55°0.46+0.15*1.5+0.300.70= 将x0判别到G2的条件概率为 P(G2/0)=(0.15*1.5)/(0.55*0.46+0.15*1.5+0.30*0.70)= 将x判别到G3的条件概率为 P(G3/0)=(0.30*0.70)0.55*0.46+0.15*1.5+0.30*0.70= 其中P(G1/0)取值最大,故将x0判别到Gl 例7:设有G1,G2和G3三个类,欲判别某样本x0属于哪一类已知 q=0.05,q2=0.65,q3=0.30,f(x0)=0.10,f2(x0)=0.63,f(x0)=24现利用后验概 率准则计算x属于各组的后验概率: PG/x)=4(x) 0.05×0.10 0.005 ∑9/(x)005×010+065×063+030×241145=004 P(G2/x)=9/2(x) 0.65×0.63 0.4095 0.361 0.05×0.10+0.65×0.63+0.30×241.1345 q(xo)
距离判别基本思想: 即:首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给样品, 计算它到各类平均数的距离,哪个距离最小就将它判归哪个类。 贝叶斯(Bayes)判别基本思想: 贝叶斯判别法是通过计算被判样本 x 属于 k 个总体的条件概率 P(n/x),n=1,2…..k. 比较 k 个概率的大 小,将样本判归为来自出现概率最大的总体(或归属于错判概率最小的总体)的判别方法。 判别分析类型及方法 (1)按判别的组数来分,有两组判别分析和多组判别分析 (2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别 (3)按判别对所处理的变量方法不同有逐步判别、序贯判别。 (4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则 试用贝叶斯判别法将样本 x0 判到 G1、G2、G3 中的一个。考虑与不考虑误判损失的结果如何? 1、考虑误判损失: 误判到 G1 的平均损失为 ECM1=0.55*0.46*0+0.15*1.5*400+0.30*0.70*100= 误判到 G2 的平均损失为 ECM2=0.55*0.46*20+0.15*1.5*0+0.30*0.70*50= 误判到 G3 的平均损失为 ECM3=0.55*0.46*80+0.15*1.5*200+0.30*0.70*0= 其中 ECM2 最小,故将 x0 判别到 G2。 2、不考虑误判损失: 将 x0 判别到 G1 的条件概率为: P(G1/x0) =(0.55*0.46)/(0.55*0.46+0.15*1.5+0.30*0.70)= 将 x0 判别到 G2 的条件概率为: P(G2/x0) =(0.15*1.5)/(0.55*0.46+0.15*1.5+0.30*0.70)= 将 x0 判别到 G3 的条件概率为: P(G3/x0) =(0.30*0.70)/(0.55*0.46+0.15*1.5+0.30*0.70)= 其中 P(G1/x0) 取值最大,故将 x0 判别到 G1。 例 7 : 设 有 G1 , G2 和 G3 三 个 类 , 欲 判 别 某 样 本 x0 属 于 哪 一 类 . 已 知 0.05, 0.65, 0.30, q1 = q2 = q3 = f 1 (x0 ) = 0.10 , f 2 (x0 ) = 0.63, f 3 (x0 ) = 2.4 现利用后验概 率准则计算 x0 属于各组的后验概率: 0.004 1.1345 0.005 0.05 0.10 0.65 0.63 0.30 2.4 0.05 0.10 ( ) ( ) ( ) 3 1 0 1 1 0 1 0 = = + + = = i= i i q f x q f x P G x 0.361 1.1345 0.4095 0.05 0.10 0.65 0.63 0.30 2.4 0.65 0.63 ( ) ( ) ( ) 3 1 0 2 2 0 2 0 = = + + = = i= i i q f x q f x P G x
P(G3/x)=9f(x) 0.30×24 0.72 b)0.05×0.10+0.65×0.63+0.30×241.13450635 q,( 例9:下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重 要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为 x1:月收入 x2:月生活费支出 x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0 x4:目前工作的年限 x5:前一个工作的年限 x6:目前住所的年限 x7:前一个住所的年限 x8:家庭赡养的人口数 x9:信用程度,“5”的信用度最高,“1”的信用度最低 Yrs at Yrs at yrs at yrs at Record monthly monthly Home Pre sent Previous Present PreviousNoof Number Income Expe nses Owner? Job Job Address Address Depend.Output 2 850 25 5142 5 400 1000 5 3 2 2500 7 2200 1200 23.83.68 3 111 3 5 10 800 800 1 01234 750030 30 1000 1011010001111 5 30 00060 505530 10 334132433 5 70003700 4 2800 17
0.635 1.1345 0.72 0.05 0.10 0.65 0.63 0.30 2.4 0.30 2.4 ( ) ( ) ( ) 3 1 0 3 3 0 3 0 = = + + = = i= i i q f x q f x P G x 例 9:下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重 要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为: x1: 月收入 x2:月生活费支出 x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0” x4:目前工作的年限 x5:前一个工作的年限 x6:目前住所的年限 x7:前一个住所的年限 x8: 家庭赡养的人口数 x9:信用程度,“5”的信用度最高,“1”的信用度最低。 Loan Yrs at Yrs at Yrs at Yrs at Record Monthly Monthly Home Present Previous Present Previous No. of Number Income ExpensesOwner? Job Job Address Address Depend. Output 1 3000 1500 0 2 8 6 2 5 3 2 850 425 1 3 3 25 25 1 3 3 1000 3000 0 0.1 0.3 0.1 0.3 4 1 4 9000 2250 1 8 4 5 3 2 5 5 4000 1000 1 3 5 3 2 1 4 6 3500 2500 0 0.5 0.5 0.5 2 1 1 7 2200 1200 1 6 3 1 4 1 3 8 4500 3500 0 8 2 10 1 5 2 9 1200 1000 0 0.5 0.5 1 0.5 3 1 10 800 800 0 0.1 1 5 1 3 1 11 7500 3000 1 10 3 10 3 4 5 12 3000 1000 1 20 5 15 10 1 5 13 2500 700 1 10 5 15 5 3 5 14 3000 2600 1 6 1 3 4 2 2 15 7000 3700 1 10 4 10 1 4 4 16 3000 2800 0 1 2 3 4 3 1 17 4500 1500 1 6 4 4 9 3 4