多元统计分析考试重点勾画 什么是多元统计分析 多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法 是一元统计学的推广。 令多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计 学科。 二、多元统计分析的内容和方法 1、简化数据结构(降维问题) 将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简 化但损失的信息又不太多 (1)主成分分析 (2)因子分析 (3)对应分析等 2、分类与判别(归类问题) 对所考察的变量按相似程度进行分类 (1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法 (2)判别分析:判别样本应属何种类型的统计方法。 例5:根据信息基础设施的发展状况,对世界20个国家和地区进行分类。 考察指标有6个: X1:每千居民拥有固定电话数目 2、X2:每千人拥有移动电话数目 3、X3:高峰时期每三分钟国际电话的成本 4、Ⅹ4:每千人拥有电脑的数目 5、X5:每千人中电脑使用率 6、X6:每千人中开通互联网的人数 3、变量间的相互联系 一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析) 二是:两组变量间的相互关系(典型相关分析) ◆4、多元数据的统计推断 点估计 参数估计区间估计 统 u检验 参数 t检验 推 F检验 断假设 相关与回归 检验 卡方检验 非参 秩和检验 秩相关检验 矩阵及其运算 传征同量 差、协差其阝 协方差矩阵的基运 ☆1、假设检验的基本原理 l/13
1/13 多元统计分析考试重点勾画 一、什么是多元统计分析 ❖ 多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法, 是一元统计学的推广。 ❖ 多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计 学科。 二、多元统计分析的内容和方法 ❖ 1、简化数据结构(降维问题) 将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简 化但损失的信息又不太多。 (1)主成分分析 (2)因子分析 (3)对应分析等 2、分类与判别(归类问题) 对所考察的变量按相似程度进行分类。 (1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。 (2)判别分析:判别样本应属何种类型的统计方法。 例 5:根据信息基础设施的发展状况,对世界 20 个国家和地区进行分类。 考察指标有 6 个: 1、X1:每千居民拥有固定电话数目 2、X2:每千人拥有移动电话数目 3、X3:高峰时期每三分钟国际电话的成本 4、X4:每千人拥有电脑的数目 5、X5:每千人中电脑使用率 6、X6:每千人中开通互联网的人数 3、变量间的相互联系 一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析) 二是:两组变量间的相互关系(典型相关分析) ❖ 4、多元数据的统计推断 点估计 参数估计 区间估计 统 u 检验 计 参数 t 检验 推 F 检验 断 假设 相关与回归 检验 卡方检验 非参 秩和检验 秩相关检验 ❖ 1、假设检验的基本原理
小概率事件原理 ◆小概率思想是指小概率事件(P<0.01或P<005等)在一次试验中基本上不会发生, 反证法思想是先提出假设(检验假设HO),再用适当的统计方法确定假设成立的可能 性大小,如可能性小,则认为假设不成立:反之,则认为假设成立 2、假设检验的步骤 (1)提出一个原假设和备择假设 例如:要对妇女的平均身高进行检验,可以先假设妇女身高的均值等于160cm (u=160cm)。这种原假设也称为零假设( null hypothesis),记为H0 21均值向量的检验 1、正态总体均值检验的类型 令根据样本对其总体均值大小进行检验( One-Sample T Test) 如妇女身高的检验 令根据来自两个总体的独立样本对其总体均值的检验( Indepent Two-Sample T Test 如两个班平均成绩的检验 令配对样本的检验(Pair- Sample T Test) 如减肥效果的检验 ◆多个总体均值的检验 A、总体方差已知 用u检验,检验的拒绝域为 W={>la}即W={=<-,a或=>,c} ☆B、总体方差未知 用样本方差2代替总体方差a2,这种检验叫t检验 总体方差a2已知 总体方差2未知 统计量 X-{0 统计量t= 在显著水平a下拒绝H0,若 H=0≠o >l I H=Ho A>Ho 2>l1-a t>t-(n-1) Ⅲa=04< 1-a(n-1) 令例1:如果你买了一包标有500g重的一包红糖,你觉得份量不足。于是 你找到监督部门;当然他们会觉得一包份量不够可能是随机的。于是监督 部门就去商店称了50包红糖(数据在 sugar. sav):其中均值(平均重 量)是49835g;这的确比500g少,但这是否能够说明厂家生产的这 批红糖平均起来不够份量呢?于是需要统计检验。 首先,可以画出这些重量的直方图(下图) 2/13
2/13 小概率事件原理 ❖ 小概率思想是指小概率事件(P<0.01 或 P<0.05 等)在一次试验中基本上不会发生。 反证法思想是先提出假设(检验假设 H0),再用适当的统计方法确定假设成立的可能 性大小,如可能性小,则认为假设不成立;反之,则认为假设成立。 ❖ 2、假设检验的步骤 (1)提出一个原假设和备择假设 ❖ 例如:要对妇女的平均身高进行检验,可以先假设妇女身高的均值等于 160 cm (u=160cm )。这种原假设也称为零假设( null hypothesis ),记为 H 0 。 2.1 均值向量的检验 ❖ 1、正态总体均值检验的类型 ❖ 根据样本对其总体均值大小进行检验( One-Sample T Test ) 如妇女身高的检验。 ❖ 根据来自两个总体的独立样本对其总体均值的检验( Indepent Two-Sample T Test ) 如两个班平均成绩的检验。 ❖ 配对样本的检验( Pair-Sample T Test ) 如减肥效果的检验。 ❖ 多个总体均值的检验 ❖ A、总体方差已知 用 u 检验,检验的拒绝域为 即 ❖ B、总体方差未知 用样本方差 代替总体方差 ,这种检验叫 t 检验. ❖ 例 1:如果你买了一包标有 500g 重的一包红糖,你觉得份量不足。于是 你找到监督部门;当然他们会觉得一包份量不够可能是随机的。于是监督 部门就去商店称了 50 包红糖(数据在 sugar.sav );其中均值(平均重 量)是 498.35g ;这的确比 500g 少,但这是否能够说明厂家生产的这 批红糖平均起来不够份量呢?于是需要统计检验。 首先,可以画出这些重量的直方图(下图) 1 2 W z u { } − = 1 1 2 2 W z u z u { } − − = − 或 2 s 2 总体方差 2 已知 统计量 z= n X − 0 总体方差 2 未知 统计量t = n s X − 0 H0 H1 在显著水平 下拒绝 H0,若 Ⅰ = 0 0 2 1 − z u ( 1) 2 1 − − t t n Ⅱ = 0 0 u1− z ( 1) t t 1− n − Ⅲ = 0 0 −u1− z ( 1) t −t 1− n −
N=5。.o 49。.042.0494.0496.0498.0500.052.50405o6. 斗91.0493.0495.0497.04990501.0503.0505. WEIGHT 判断样本是否服从正态分布 (2)根据来自两个总体的独立样本对其总体均值的检验 ◆目的是推断两个样本分别代表的总体均数是否相等。其检验过程与上述两种t检验 也没有大的差别,只是假设的表达和t值的计算公式不同 两样本均数比较的t检验其假设一般为 即两样本来自的总体均数相等 H:1>2或1<m2,即两样本来自的总体均数不相等,检验水准为0.05。 令计算t统计量时是用两样本均数差值的绝对值除以两样本均数差值的标准误 ◆A、与∝已知时 构造统计量z X-y Yn, n2 冷B、与G未知但相等时 构造统计量 (+n2-2 √-+-1214+ ◆相应的假设检验问题为 H0:41=2 H1:1大于山2 μ1为第一组的总体均值,而μ2为第二组的总体均值 ◆用SPSS处理数据 Spss it Ij: Analyze-Compare Means- Independent-Samples T Test 3/13
3/13 ❖ 判断样本是否服从正态分布 判断样本是否服从正态分布 (2)根据来自两个总体的独立样本对其总体均值的检验 ❖ 目的是推断两个样本分别代表的总体均数是否相等。其检验过程与上述两种 t 检验 也没有大的差别,只是假设的表达和 t 值的计算公式不同。 ❖ 两样本均数比较的 t 检验,其假设一般为: H0:µ1=µ2,即两样本来自的总体均数相等. H1:µ1>µ2 或 µ1<µ2,即两样本来自的总体均数不相等,检验水准为 0.05。 ❖ 计算 t 统计量时是用两样本均数差值的绝对值除以两样本均数差值的标准误。 ❖ 相应的假设检验问题为: H0:μ1=μ2 H1: μ1 大于μ2 ❖ μ1 为第一组的总体均值,而μ2 为第二组的总体均值。 ❖ 用 SPSS 处理数据: Spss 选项:Analyze—Compare Means — Independent-Samples T Test
☆3、配对样本的检验( paired samples) (针对同样的样本)考察实验前后样本均值有无差异。能够很好地控制非实验因素对结果 的影响注意:实验前后两个样本两个样本并不独立 注意:同一样本实验前后并不独立,但不同样本之间却相互独立。 ◆配对样本的检验实际上是用配对差值与总体均数“0”进行比较,即推断差数的总体均 数是否为“0”。故其检验过程与依据样本均数推断总体均数大小的t检验类似, ☆A、建立假设 H0:d=0,即差值的总体均数为“0”,H1:Md>0或d<0,即差值的总体均数不为“0”, 检验水平为a B.计算统计量 进行配对设计t检验时t值为差值均数与0之差的绝对值除以差值标准误的商,其中差 值标准误为差值标准差除以样本含量算术平方根的商。 ◆C.确定概率,作出判断 以自由度(对子数减1)查t界值表,若P<a,则拒绝H0,接受H1,若P>=a,则还不 能拒绝HO。 ◆例4:要比较50个人在减肥前和减肥后的重量。这样就有了两个样本,每个都有50 个数目 这里不能用前面的独立样本均值差的检验:这是因为两个样本并不独立。 ◆每一个人减肥后的重量都和自己减肥前的重量有关。但不同人之间却是独立的。令 减肥前的重量均值为u1,而减肥后的均值为μ2:这样所要进行的检验为 H0:41=2 H1:1大于∠2 方差分析的基本思想 1、定义 方差分析又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相 同,检验两个或多个样本均数的差异是否有统计学意义。 令2、了解方差分析中几个重要概念: (1)观测因素或称为观测变量 如:考察农作物产量的影响因素。农作物产量就是观测变量 ◆(2)控制因素或称控制变量 进行试验(实验)时,我们称可控制的试验条件为因素( Factor),因素变化的各个等级为水 平(Levl) 影响农作物产量的因素,如品种、施肥量、土壤等。 如果在试验中只有一个因素在变化其他可控制的条件不变称它为单因素试验 若试验中变化的因素有两个或两个以上,则称为双因素或多因素试验。 方差分析就是从观测变量的方差入手,研究诸多控制变量(因素)中哪些变量是对 观测变量有显著影响的变量 ◆3、方差分析的基本原理 设有r个总体,各总体分别服从N(A1a2)N(2,a2) N(A1,a2),假定各 总体方差相等。现从各总体随机抽取样本。透过各总体的样本数据推断r个总体的均值是否 相等? Ho: u=k H1:至少有一组数据的平均值与其它组的平均值有显著性差异 4/13
4/13 ❖ 3、配对样本的检验( paired samples ) (针对同样的样本)考察实验前后样本均值有无差异。能够很好地控制非实验因素对结果 的影响注意:实验前后两个样本两个样本并不独立 ❖ 注意:同一样本实验前后并不独立,但不同样本之间却相互独立。 ❖ 配对样本的检验实际上是用配对差值与总体均数“0”进行比较,即推断差数的总体均 数是否为“0”。故其检验过程与依据样本均数推断总体均数大小的 t 检验类似,即: ❖ A、建立假设 H0:µd=0,即差值的总体均数为“0”,H1:µd>0 或 µd<0,即差值的总体均数不为“0”, 检验水平为α 。 ❖ B. 计算统计量 进行配对设计 t 检验时 t 值为差值均数与 0 之差的绝对值除以差值标准误的商,其中差 值标准误为差值标准差除以样本含量算术平方根的商。 ❖ C. 确定概率,作出判断 以自由度 v(对子数减 1)查 t 界值表,若 P<α,则拒绝 H0,接受 H1,若 P>=α,则还不 能拒绝 H0。 ❖ 例 4:要比较 50 个人在减肥前和减肥后的重量。这样就有了两个样本,每个都有 50 个数目。 ❖ 这里不能用前面的独立样本均值差的检验;这是因为两个样本并不独立。 ❖ 每一个人减肥后的重量都和自己减肥前的重量有关。但不同人之间却是独立的。令 减肥前的重量均值为 μ1 ,而减肥后的均值为μ2 ;这样所要进行的检验为: H0: μ1=μ2 H1: μ1 大于μ2 一、方差分析的基本思想 1、定义 方差分析又称变异数分析或 F 检验,其目的是推断两组或多组资料的总体均数是否相 同,检验两个或多个样本均数的差异是否有统计学意义。 ❖ 2、了解方差分析中几个重要概念: ❖ (1)观测因素或称为观测变量 如:考察农作物产量的影响因素。农作物产量就是观测变量。 ❖ (2)控制因素或称控制变量 进行试验(实验)时,我们称可控制的试验条件为因素(Factor),因素变化的各个等级为水 平(Level)。 影响农作物产量的因素,如品种、施肥量、土壤等。 如果在试验中只有一个因素在变化,其他可控制的条件不变,称它为单因素试验; 若试验中变化的因素有两个或两个以上,则称为双因素或多因素试验 。 ❖ 方差分析就是从观测变量的方差入手,研究诸多控制变量(因素)中哪些变量是对 观测变量有显著影响的变量 ❖ 3、方差分析的基本原理 设有 r 个总体,各总体分别服从 …… ,假定各 总体方差相等。现从各总体随机抽取样本。透过各总体的样本数据推断 r 个总体的均值是否 相等? :至少有一组数据的平均值与其它组的平均值有显著性差异。 2 1 N( , ) 2 2 N( , ) 2 ( , ) N r 0 1 2 : H = = r H1
◆分析的思路:用离差平方和(SS)描述所有样本总的变异情况,将总变异分为两个 来源 (1)组内变动( within groups),代表本组内各样本与该组平均值的离散程度,即水平内 部(组内)方差 (2)组间变动( between groups),代表各组平均值关于总平均值的离散程度。即水平之 间(组间)方差 即:SS总=SS组间+SS组内 消除各组样本数不同的影响-离差平方和除以自由度(即均方差)。从而构造统计量: F ◆方差分析的基本思想就是通过组内方差与组间方差的比值构造的F统计量,将其与 给定显著性水平、自由度下的F值相对比,判定各组均数间的差异有无统计学意义 ◆零假设否定域: p-I,n-r(a 令例2SIM手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异 即:研究被调查者的收入水平是否会影响其对SIM手机的满意程度 令SPSS处理: Analyze-C mare Mean One- Way anoVa ◆多元方差分析(操作参见书例2.1,第36页): SPSS it I: Analyze- General Linear Model- Multivariate 用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育指 标的总体均数向量p1和μ2相等与否,得到: F=88622,P=0.0008。拒绝该年级男女生身体发育指标的总体均数向量相等的假设, 从而可认为该校男女生身体发育状况不同 4、方差分析的应用条件 (1)可比性,若资料中各组均数本身不具可比性则不适用方差分析 (2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分 布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平 方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析 (3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的 即若组间方差不齐则不适用方差分析 依据涉及的分析变量多少分为:一元方差分析、多元方差分析 依据对分析变量的影响因素的数量分为:单因素方差分析、多因素方差分析 什么是聚类分析? 令聚类分析(P54) 是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 ◆聚类分析的目的(P54) 使类内对象的同质性最大化和类间对象的异质性最大化 、聚类分析的基本思想: 是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的 统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似 的归为其他类。直到把所有的样品(或指标)聚合完毕 ◆相似样本或指标的集合称为类 5/13
5/13 ❖ 分析的思路:用离差平方和(SS)描述所有样本总的变异情况,将总变异分为两个 来源: (1)组内变动(within groups),代表本组内各样本与该组平均值的离散程度,即水平内 部(组内)方差 (2)组间变动(between groups),代表各组平均值关于总平均值的离散程度。即水平之 间(组间)方差 即:SS 总=SS 组间+SS 组内 ❖ 消除各组样本数不同的影响--离差平方和除以自由度(即均方差)。从而构造统计量: ❖ 方差分析的基本思想就是通过组内方差与组间方差的比值构造的 F 统计量,将其与 给定显著性水平、自由度下的 F 值相对比,判定各组均数间的差异有无统计学意义。 ❖ 零假设否定域: ❖ 例 2 SIM 手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异 即:研究被调查者的收入水平是否会影响其对 SIM 手机的满意程度。 ❖ SPSS 处理:Analyze — Compare Mean — One-Way ANOVA ❖ 多元方差分析(操作参见书例 2.1,第 36 页): ❖ SPSS 选项: Analyze— General Linear Model — Multivariate 可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育指 标的总体均数向量μ1 和μ2 相等与否, 得到: F=8.8622,P=0.0008。拒绝该年级男女生身体发育指标的总体均数向量相等的假设, 从而可认为该校男女生身体发育状况不同。 ❖ 4、方差分析的应用条件 (1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。 (2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分 布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平 方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。 (3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。 即若组间方差不齐则不适用方差分析。 依据涉及的分析变量多少分为:一元方差分析、多元方差分析 依据对分析变量的影响因素的数量分为:单因素方差分析、多因素方差分析 ❖ 一、什么是聚类分析? ❖ 聚类分析(P54) 是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 ❖ 聚类分析的目的(P54) 使类内对象的同质性最大化和类间对象的异质性最大化。 ❖ 二、聚类分析的基本思想: 是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的 统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似 的归为其他类。直到把所有的样品(或指标)聚合完毕. ❖ 相似样本或指标的集合称为类。 SS r( 1) F SS − = 组间 组内 (n-r) 1, ( ) F F r n r − −