R是一个开放(GPL)的统计编程环境,S语言在1980年代后期在AT&T实验室开发。R项目由Auckland大学统计系的RobertGentleman和RossIhaka于1995年开始的。R是一套完整的数据处理、计算和绘图软件系统,具有强大的数据存储和处理系统以及数组运算(其向量、矩阵运算方面的功能尤其强大)、完整连贯的统计分析和优秀的统计制图等功能,还是一个强大的面向对象的编程语言。这样的编程环境需要使用者熟悉各种命令的操作,还需熟悉DOS编程环境,而且所有命令执行完即进人新的界面。但到目前为止,R语言还是一个命令行编程环境,命令、函数很多,需要记住大量的操作命令和统计函数,统计分析也需要通过编程方式来实现,所以通常是以批命令的方式进行的,R自带一个建立程序脚本的编辑器,要使该R编辑器和输出界面同步。我们可以通过R计划的网站(http://www.r-project.org)了解有关R的最新信息和使用说明,得到最新版本的R软件和基于R的应用统计软件包。R嵌入了一个非常实用的帮助系统。R具有很强的作图能力。我们将R程序容易地移植到S-Plus程序中,反之S的许多过程直接或稍作修改用于R。通过R语言的许多内嵌统计函数,很容易学习和掌握R语言的语法。我们可以编制自己的函数来扩展现有的R语言。下载R软件http://www.r-project.org学习网站http://www.biosino.org/pages/newhtm/r/schtml/CRAN的镜像站点http://cran.r-project.org/mirrors.htmlUCLA提供的关于R与S-Plus的联接,具有搜索功能http://statcomp.ats.ucla.edu/splus/default.htmCRAN提供了许多便于统计分析的宏包http://cran.r-project.org/src/contrib/PACKAGES.htmlstable-稳妥(分布)广义回归分析tseries-时间序列分析VaR-风险值分析matrix-矩阵运算cinterface-C与R的接口foreign-读写由S,Minitab,SAS,SPSS,Stata等软件的数据normix-混合正态分布分析nortest-正态分布的Anderson-Darling检验MCMCpack-基于Gibbs抽样的MCMC抽样方法fracdiff-分数差分模型的极大似然估计等等1.4R软件读写数据文件1.4.1数据的导入R不能直接导入Exce12003的x1s格式数据与Exce12007,2010的x1sx数据。但是可以直接导入csv格式与txt格式的。所以要使用xls格式的数据,就9
9 R 是一个开放(GPL)的统计编程环境,S 语言在 1980 年代后期在 AT&T 实验室 开发。R 项目由 Auckland 大学统计系的 Robert Gentleman 和 Ross Ihaka 于 1995 年开始的。 R 是一套完整的数据处理、计算和绘图软件系统,具有强大的数据存储和 处理系统以及数组运算(其向量、矩阵运算方面的功能尤其强大)、完整连贯的统 计分析和优秀的统计制图等功能,还是一个强大的面向对象的编程语言。这样的 编程环境需要使用者熟悉各种命令的操作,还需熟悉 DOS 编程环境,而且所有命 令执行完即进人新的界面。但到目前为止,R 语言还是一个命令行编程环境,命 令、函数很多,需要记住大量的操作命令和统计函数,统计分析也需要通过编程 方式来实现,所以通常是以批命令的方式进行的,R 自带一个建立程序脚本的编 辑器,要使该 R 编辑器和输出界面同步。 我们可以通过R计划的网站(http://www.r-project.org)了解有关R的最 新信息和使用说明,得到最新版本的R软件和基于R的应用统计软件包。R 嵌入 了一个非常实用的帮助系统。R 具有很强的作图能力。我们将R程序容易地移植 到 S-Plus 程序中,反之S的许多过程直接或稍作修改用于R。通过R语言的许 多内嵌统计函数,很容易学习和掌握 R 语言的语法。我们可以编制自己的函数来 扩展现有的R语言。 下载 R 软件 http://www.r-project.org 学习网站 http://www.biosino.org/pages/newhtm/r/schtml/ CRAN 的镜像站点 http://cran.r-project.org/mirrors.html UCLA 提供的关于 R 与 S-Plus 的联接,具有搜索功能 http://statcomp.ats.ucla.edu/splus/default.htm CRAN 提供了许多便于统计分析的宏包 http://cran.r-project.org/src/contrib/PACKAGES.html stable - 稳妥(分布)广义回归分析 tseries – 时间序列分析 VaR – 风险值分析 matrix – 矩阵运算 cinterface – C 与 R 的接口 foreign – 读写由 S, Minitab, SAS, SPSS, Stata 等软件的数据 normix – 混 合正态分布分析 nortest – 正态分布的 Anderson-Darling 检验 MCMCpack – 基于 Gibbs 抽样的 MCMC 抽样方法 fracdiff – 分数差分模型的极大似然估计 等等 1.4 R 软件读写数据文件 1.4.1 数据的导入 R 不能直接导入 Excel2003 的 xls 格式数据与 Excel2007,2010 的 xlsx 数 据。但是可以直接导入 csv 格式与 txt 格式的。所以要使用 xls 格式的数据,就
得先另存为csv格式。读入txt格式的数据文件的函数为read.table,读入csv格式数据文件的函数为read.csv。比如说要读取D盘R-Work里面的”因子分析.txt”(或者为”因子分析.csv”)的文件,然后在R里面生成一个叫做princomp的数据集。具体的命令为princomp<read.table("D:/R-Work/因子分析.txt",header=TRUE,sep="")princomp<read.csv("D:/R-Work/因子分析.csv",header=TRUE)其中数据中第一行若为变量名,则里面的参数设置为:header=TRUE;若第一行为数据,则参数设置为:header=FLASE。下载安装RODBC包也可以导入xls格式的数据。下载xlsx包可以导入xlsx的数据。但还是建议把这两种文件另存为csv格式的文件。1.4.2R的描述统计分析R里面进行描述性统计分析的函数为summary。summary可直接对数值型数据做描述统计,对分类型数据做频数分析。summary(ch1)#多个变量的最小值、Q1、中位数、均值、Q3、最大值。lot(ch1[,-1])#多个变量的散点图attach(chl)mean (H)x1=c(36,57,48,83,75,66,78,61,89,94,37,56)hist(xl)#按频率画直方图hist(xl,probability=TRUE,main-paste("histogram of","weight")xlarb="weight")#按密度画频率直方图Ines(density(xl))#频率直方图加密度线stem(x1)#茎叶图mean(x1)#均值median(x1)#中位数sd(xl)#标准差var(xl)#方差min(x1)#最小值max(x1)#最大值sum(xl)#求和shapiro.test(xl)#做正态性检验qqnorm(x1);saline(xl)#做QQ图plot(x);dines(x,col="blue")#做折线图stars(chl,ful=T)#多个数据的星相相图stars(chl,full=F,draw。segments=T)#多个数据的星相图boxplot(chl)#多个数据的箱线图boxplot(chl,horizontal=T)多个数据水平放置的箱线图sort(x1)#对数据进行排序,返回的是排序后的数值rank(xl)#求秩秩的函数,返回的是数据的“排名”order(x1)#对应排名的元素所在的位置10
10 得先另存为 csv 格式。读入 txt 格式的数据文件的函数为 read.table,读入 csv 格式数据文件的函数为 read.csv。 比如说要读取 D 盘 R-Work 里面的”因子分析.txt”(或者为”因子分析.csv”) 的文件,然后在 R 里面生成一个叫做 princomp 的数据集。具体的命令为 princomp<read. table("D:/ R-Work/因子分析.txt", header=TRUE, sep="") princomp<read.csv("D:/R-Work/因子分析.csv", header=TRUE) 其中数据中第一行若为变量名,则里面的参数设置为: header=TRUE;若第一行为 数据,则参数设置为: header= FLASE。下载安装 RODBC 包也可以导入 xls 格式 的数据。下载 xlsx 包可以导入 xlsx 的数据。但还是建议把这两种文件另存为 csv 格式的文件。 1.4.2 R 的描述统计分析 R 里面进行描述性统计分析的函数为 summary。summary 可直接对数值型数 据做描述统计,对分类型数据做频数分析。 summary(ch1)#多个变量的最小值、Q1、中位数、均值、Q3、最大值。 lot(ch1[,-1])#多个变量的散点图 attach(ch1) mean(H) x1=c(36,57,48, 83,75,66,78,61,89,94,37,56) hist(x1)#按频率画直方图 hist(xl, probability= TRUE, main-paste("histogram of"," weight" )xlarb= "weight")#按密度画频率直方图 lnes( density(x1))#频率直方图加密度线 stem(x1)#茎叶图 mean(x1)#均值 median(x1)#中位数 sd(x1)#标准差 var(x1)#方差 min(x1)#最小值 max(x1)#最大值 sum(x1) #求和 shapiro.test(x1)#做正态性检验 qqnorm(x1); saline(x1)#做 QQ 图 plot(x); dines(x,col="blue")#做折线图 stars(chl,ful=T)#多个数据的星相相图 stars(chl,full=F,draw. segments=T)#多个数据的星相图 boxplot(chl)#多个数据的箱线图 boxplot(chl, horizontal=T)#多个数据水平放置的箱线图 sort(x1)#对数据进行排序,返回的是排序后的数值 rank(x1)#求秩秩的函数,返回的是数据的“排名” order(x1)#对应排名的元素所在的位置
第二章至多元正态总体均值向量和协差阵的假设检验2.1实验一多因素方差分析本实验项目的目的具体包括以下几个方面:(1)明确多因素方差分析有关的概念;(2)理解多因素方差分析的基本思想与原理;(3)熟练掌握多因素方差分析的方法:(4)能用SPSS软件进行多因素方差分析。2.1.1方法原理一多因素方差分析定义:多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。多因素方差分析不仅能够分析多个控制变量对观测变量的独立影响,还能够分析多个控制变量的交互作用能否对观测变量对结果产生显著影响。二.多因素方差分析基本原理多因素方差分析中,观测变量取值的变动会受到控制变量独立作用、控制变量交互作用和随机变量三方面的影响,据此,将观测变量总的离差平方和分解为三部分内容:控制独立作用引起的变差,控制变量交互作用引起的变差和随机因素引起的变差。可得,多因素方差分析的总变差分解公式为:SST=SSA+SSB+SSAB+SSE式中,SST为观测变量的总方差,SSA、SSB分别为控制变量A、B独立作用引起的变差,SSAB为控制变量A、B交互作用引起的变差,SSE为随机因素引起的变差。通常,称SSA+SSB为主效应,SSAB为多项交互效应,SSE为剩余部分。同理,当控制变量为3个时,观测变量的总变差可分解为:SST=SSA+SSB+SSC+SSAB+SSAC+SSBC+SSABC+SSE可见,在观测变量总离差平方和中,如果SSA所占比例较大,则说明控制变量A是引起观测变量变动的主要因素之一,观测变量的变动可以部分地由控制变量A来解释;反之,如果SSA所占比例较小,则说明控制变量A不是引起观测变量变动的主要因素,观测变量的变动无法由控制变量A来解释。对于SSB和SSAB也相同。三.多因素方差分析基本步骤1.提出原假设。单因素方差分析的原假设HO:各控制变量不同水平下观测变量各总体的均值无显著性差异,控制变量各效应和交互效应同时为零。2.选择检验统计量。多因素方差分析采用的检验统计量仍然是F统计量,数学定义为:FA=[SSA/(k-1)1/[SSE/kr(1-1)]=MSA/MSEFB=[SSB/(r-1)1/[SSE/kr(I-1)]=MSB/MSEFAB=[SSAB/(k-1(r-1)1/[SSE/kr(I-1)]=MSAB/MSE以上三个F统计量服从F分布。3.计算检验统计量的观测值和伴随概率p值。SPSS自动计算出F统计量的观测值,并根据F分布表给出相应的伴随概率p值。4.给出显著性水平α,并做出判断。对给定的显著性水平α,依次与各个检验统计量对应的p值进行比较。如果FA的伴随概率p小于或等于显著性水平α,则应拒11
11 第二章 多元正态总体均值向量和协差阵 的假设检验 2.1 实验一 多因素方差分析 本实验项目的目的具体包括以下几个方面:(1)明确多因素方差分析有关的 概念;(2)理解多因素方差分析的基本思想与原理;(3)熟练掌握多因素方差分 析的方法;(4)能用 SPSS 软件进行多因素方差分析。 2.1.1 方法原理 一.多因素方差分析定义:多因素方差分析用来研究两个及两个以上控制变量是 否对观测变量产生显著影响。多因素方差分析不仅能够分析多个控制变量对观测 变量的独立影响,还能够分析多个控制变量的交互作用能否对观测变量对结果产 生显著影响。 二.多因素方差分析基本原理 多因素方差分析中,观测变量取值的变动会受到控制变量独立作用、控制变 量交互作用和随机变量三方面的影响,据此,将观测变量总的离差平方和分解为 三部分内容:控制独立作用引起的变差,控制变量交互作用引起的变差和随机因 素引起的变差。可得,多因素方差分析的总变差分解公式 为:SST=SSA+SSB+SSAB+SSE 式中,SST 为观测变量的总方差,SSA、SSB 分别为控制 变量 A、B 独立作用引起的变差,SSAB 为控制变量 A、B 交互作用引起的变差,SSE 为随机因素引起的变差。通常,称 SSA+SSB 为主效应,SSAB 为多项交互效应,SSE 为剩余部分。同理,当控制变量为 3 个时,观测变量的总变差可分解为: SST=SSA+SSB+SSC+SSAB+SSAC+SSBC+SSABC+SSE 可见,在观测变量总离差平方和中,如果 SSA 所占比例较大,则说明控制变量 A 是 引起观测变量变动的主要因素之一,观测变量的变动可以部分地由控制变量 A 来 解释;反之,如果 SSA 所占比例较小,则说明控制变量 A 不是引起观测变量变动的 主要因素,观测变量的变动无法由控制变量 A 来解释。对于 SSB 和 SSAB 也相同。 三.多因素方差分析基本步骤 1.提出原假设。单因素方差分析的原假设 H0:各控制变量不同水平下观测变量各 总体的均值无显著性差异,控制变量各效应和交互效应同时为零。 2.选择检验统计量。多因素方差分析采用的检验统计量仍然是 F 统计量,数学定 义为: FA=[SSA/(k-1)]/ [SSE/kr(1-1)] =MSA/MSE FB=[SSB/(r-1)]/ [SSE/kr(I-1)]= MSB/MSE FAB=[SSAB/(k-1(r-1)]/ [SSE/kr(I-1)]= MSAB/MSE 以上三个 F 统计量服从 F 分布。 3.计算检验统计量的观测值和伴随概率 p 值。SPSS 自动计算出 F 统计量的观测 值,并根据 F 分布表给出相应的伴随概率 p 值。 4.给出显著性水平α ,并做出判断。对给定的显著性水平α ,依次与各个检验统计 量对应的 p 值进行比较。如果 FA 的伴随概率 p 小于或等于显著性水平α ,则应拒
绝原假设,认为控变量A不同水平下观测变量各总体的均值存在显著差异,即第一个控制变量A的不同水平对观测变量产生了显著影响:如果FB的伴随概率p小于或等于显著性水平a,则应拒绝原假设,认为控侧变量B不同水平下观测变量各总体的均值存在显著差异,即第二个控制变量B的不同水平对观测变量产生了显著影响;如果FAB的伴随概率p小于或等于显著性水平a,则应拒绝原假设,第一个控制变量A和第二个控制变量B各个水平的相互作用对观测变量均值产生了显著影响:相反,则认为不同水平对结果没有显著影响。2.1.2分析实例农业大学某班30名不同性别的同学分为3组,高等数学课程分别接受了3种不同的教学方法,用变量“组别”对学生分组进行区分,取值为1,2,3分别表示3个不同的组别,用变量“性别”对不同性别的学生进行区分,取值为0表示女生,为1表示男生。分析他们的高等数学数学成绩是否有显著性差异,也就是说需要研究不同教学方法和不同性别对高等数学成绩的影响。一.实验步骤:多因素方差分析由SPSS的GeneralLinearMode过程中Univariate子过程实现。下面以案例说明多因素方差分析的Univariate子过程的基本操作步骤1.准备工作,在SPSS中打开该数据文件,通过选择Fie一Open命令将数据,调入SPSS的工作文件窗口,2.从菜单上依次选择Analyze一(GeneralLinearModel一Univariate命令,打开多因素方差分析对话框,3.在Univariate对话框中,相关内容介绍如下:DependentVariable:因变量列表,用于选择观测变量FixedFactor(s):固定因素栏,用于指定固定效应的控制变量。RandomFactor(s):随机因素栏,指定随机效应的控制变量。Covariate(s):协变量栏,指定作为协变量的变量。WLSWeight:加权变量栏,放入加权变量作最小二乘法(WLS)分析。本例在Univariate对话框左端的变量列表将要检验的变量“高等数学成绩”添加到右边的DependentVariable中,将变量“组别”和“性别”移入FixedFactor(s)栏。12
12 绝原假设,认为控变量 A 不同水平下观测变量各总体的均值存在显著差异,即第 一个控制变量 A 的不同水平对观测变量产生了显著影响:如果 FB 的伴随概率 p 小于或等于显著性水平 a,则应拒绝原假设,认为控侧变量 B 不同水平下观测变 量各总体的均值存在显著差异,即第二个控制变量 B 的不同水平对观测变量产生 了显著影响;如果 FAB 的伴随概率 p 小于或等于显著性水平 a,则应拒绝原假设, 第一个控制变量A和第二个控制变量B各个水平的相互作用对观测变量均值产生 了显著影响:相反,则认为不同水平对结果没有显著影响。 2.1.2 分析实例 农业大学某班 30 名不同性别的同学分为 3 组,高等数学课程分别接受了 3 种不同的教学方法,用变量“组别”对学生分组进行区分,取值为 1,2,3 分别 表示 3 个不同的组别,用变量“性别”对不同性别的学生进行区分,取值为 0 表示女生,为 1 表示男生。分析他们的高等数学数学成绩是否有显著性差异,也 就是说需要研究不同教学方法和不同性别对高等数学成绩的影响。 一.实验步骤: 多因素方差分析由 SPSS 的 General Linear Mode 过程中 Univariate 子过程实 现。下面以案例说明多因素方差分析的 Univariate 子过程的基本操作步骤 1.准备工作,在 SPSS 中打开该数据文件,通过选择 Fie-Open 命令将数据,调 入 SPSS 的工作文件窗口, 2.从菜单上依次选择 Analyze- General Linear Model-- Univariate 命令, 打开多因素方差分析对话框, 3.在 Univariate 对话框中,相关内容介绍如下: Dependent Variable:因变量列表,用于选择观测变量 Fixed Factor(s):固定因素栏,用于指定固定效应的控制变量。 Random Factor( s):随机因素栏,指定随机效应的控制变量。 Covariate(s):协变量栏,指定作为协变量的变量。 WLS Weight:加权变量栏,放入加权变量作最小二乘法(WLS)分析。 本例在 Univariate 对话框左端的变量列表将要检验的变量“高等数学成 绩”添加到右边的 Dependent Variable 中,将变量“组别”和“性别”移入 Fixed Factor(s)栏
X口UnivariateDependent VariableModel..序号高等数学成绩Contrasts...组别FixedFactor(s)+性别Plots....>Post Hoc..Random Factor(s);Save..Options..Covariate(s):WLS Weight:HelpResetCance图2-1-1Univariate对话框4.单击Model按钮,出现Model对话框,该对话框可以选择建立多因素方差分析模型的种类。相关选项介绍如下:SpecifyModel:指定模型。Fullfactorial:建立饱和模型,SPSS默认选项,包括所有因素主效应、协变量效应以及因素间的交互效应。Custom:自定义模型,即建立非饱和模型。点击激活Factor和Model项。Factors&Covariates:因素与协变量栏,列出源因素,显示固定因素(F)和协变量(C)R表示随机因素指定模型。Model模型列表,放入自定义模型各因素的构成,模型的选择取于数据的性质。BuildTern(s):效应选择,由下拉菜单可以进行选择。Interaction交互效应,SPSS默认选项,建立所有被选变量最高水平的交互效应。Maineffects:主效应,建立每个被选变量的主效应。AII2一Way:二阶交互作用,建立被选变量所有可能的两方向交互效应。AII3一Way:三阶交互作用,建立被选变量所有可能的三方向交互效应。AII4一Way:四阶交互作用,建立被选变量所有可能的四方向交互效应。AII5一Way:五阶交互作用,建立被选变量所有可能的五方向交互效应。Sumofsquares:平方和选项,由下拉列表可以选择下列任一类平方和。Type1:一类平方和,常用于平衡数据方差分析模型,任何一级交互效应之前的主效应,二级交互效应之前的一级交互效应等;多项式回归模型,任何高次项之前的低次项:完全嵌套模型,第二指定效应嵌套的第一指定效应等。TypeII:二类平方和,常用于平衡数据方差分析模型,任何仅包含主效应的模型,回归模型和完全嵌套设计。TypeIII:三类平方和,SPSS默认选项,适合于一类、二类平方和适用的所有模型,无缺失值的所有平衡与不平衡数据模型,最为常用。IypeIV:四类平方和,适用于一类、二类平方和适用的所有模型,有缺失值的13
13 图 2-1-1 Univariate 对话框 4.单击 Model 按钮,出现 Model 对话框,该对话框可以选择建立多因素方差分 析模型的种类。相关选项介绍如下: Specify Model:指定模型。 Full factorial:建立饱和模型,SPSS 默认选项,包括所有因素主效应、协变 量效应以及因素间的交互效应。 Custom:自定义模型,即建立非饱和模型。点击激活 Factor 和 Model 项。 Factors& Covariates:因素与协变量栏,列出源因素,显示固定因素(F)和 协变量(C)R 表示随机因素指定模型。 Model 模型列表,放入自定义模型各因素的构成,模型的选择取于数据的性质。 Build Tern(s):效应选择,由下拉菜单可以进行选择。 Interaction 交互效应,SPSS 默认选项,建立所有被选变量最高水平的交互效应。 Main effects:主效应,建立每个被选变量的主效应。 AII2-Way:二阶交互作用,建立被选变量所有可能的两方向交互效应。 AII3-Way:三阶交互作用,建立被选变量所有可能的三方向交互效应。 AII4-Way:四阶交互作用,建立被选变量所有可能的四方向交互效应。 AII5-Way:五阶交互作用,建立被选变量所有可能的五方向交互效应。 Sum of squares:平方和选项,由下拉列表可以选择下列任一类平方和。 Type 1:一类平方和,常用于平衡数据方差分析模型,任何一级交互效应之前的 主效应,二级交互效应之前的一级交互效应等;多项式回归模型,任何高次项之 前的低次项:完全嵌套模型,第二指定效应嵌套的第一指定效应等。 Type II:二类平方和,常用于平衡数据方差分析模型,任何仅包含主效应的模 型,回归模型和完全嵌套设计。 Type III:三类平方和,SPSS 默认选项,适合于一类、二类平方和适用的所有模 型,无缺失值的所有平衡与不平衡数据模型,最为常用。 Iype Ⅳ:四类平方和,适用于一类、二类平方和适用的所有模型,有缺失值的