当前位置：和泉文库 > 高等教育 > 浏览文档

《R语言》课程教学资源（文献资料）R语言简介——数据分析与绘图的编程环境

Chapter 1 绪论与基础 Chapter 2 简单操作；数值与向量 Chapter 3 对象，模式和属性 Chapter 4 有序因子与无序因子 Chapter 5 数组和矩阵 Chapter 6 列表和数据帧 Chapter 7 从文件中读取数据 Chapter 8 概率分布 Chapter 9 语句组、循环和条件操作 Chapter 10 编写自己的函数 Chapter 11 R的统计模型 Chapter 12 图形过程

文件格式：PDF，文件大小：514.53KB，售价：15.49元

共72页，可试读20页，点击往前阅读 ↑↑

文档详细内容（约72页）

CHAPTER4.有序因子与无序因子此时通过函数 tapply()可以计算个省份会计收入的样本均值 incmeans <-tapply (incomes, statef, mean) 包含所得均值的向量在显示时由其水平标记 VIC 44.50057.33355.50053.60055.00060.50056.00052.250 函数 tapply(的作用是对它第一个参数的组件中所包含的每个组应用一个函数,本例中是对 comes应用函数mean(),而 Incomes的水平由 tapply(的第二个参数 statef定义。函数的结果是一个长度与因子水平数相等的结构。上面的例子是比较一般的情况,即 Incomes与 statef是两个单独变量时 tapply()的应用方法。更详细的资料读者可以通过帮助文档查询。假设我们还要进一步的对各省税务会计收入均值的标准误进行计算。我们需要编写一个简单的R函数来计算任何给定向量的标准误。由于R内建一个计算样本方差的函数var(),所以我们要做的只是写一个一行的函数,并通过赋值语句指定函数的名称 stderr < function(x) sqrt(var(x)/length(x)) (函数的编写将在稍后的章节讲述,参见)赋值完成后我们就可以这样计算标准误了: incster <-tapply(incomes, statef, stderr) 所求得的值为 inciter d VIc 1.54.31024.54.10612.73860 244 作为一个练习,你可能还想得到收入均值95%的置信区间。可以通过下面的方法完成:先用 tapply()应用函数1 ength(得到样本长度,然后用函数qt(来获得t分布的分位点函数 tapply(可以通过多类别的方法处理更复杂的向量索引。例如,我们可能像依据省份和性别来分割税务会计的数据,在一个简单的例子中(只有个类别),我们的思路可以是这样的:根据类别中不同的项,向量中的值被分成不同的组,然后,函数被分别应用于每一个组。返回指是函数结果的向量由类别的水平标记。个向量和一个标记用的因子合并有时会成为一个 ragged array,因为子类别的大小可能是不规则的。当子类别的大小全都相同时,合并过程中会自动完成索引,而且这样显然会更有效率,正如我们在下一章将要看到的那样。 4.3有序因子因子的水平按照字母顺序存储,不过如果被明确的指定,他们将按照指定的顺序存储。有时因子的水平具有其原始的顺序,而且这种顺序可以在我们的统计分析中被用到,所以我们需要一定的方法来记录这种顺序。函数 ordered()可以创建这种有序因子,但是这种有序因子同因子是有差别的。在多数情况下有序因子和无序因子的差别仅仅是前者在输出结果是其水平,不过在拟合线性模型时,两种因子是有实质差异的

CHAPTER 4. 有序因子与无序因子 13 此时通过函数tapply()可以计算个省份会计收入的样本均值 > incmeans <- tapply(incomes, statef, mean) 包含所得均值的向量在显示时由其水平标记 act nsw nt qld sa tas vic wa 44.500 57.333 55.500 53.600 55.000 60.500 56.000 52.250 函数tapply()的作用是对它第一个参数的组件中所包含的每个组应用一个函数，本例中是对incomes应用函数mean()，而incomes的水平由tapply()的第二个参数statef定义。函数的结果是一个长度与因子水平数相等的结构。上面的例子是比较一般的情况，即incomes与statef是两个单独变量时tapply()的应用方法。更详细的资料读者可以通过帮助文档查询。假设我们还要进一步的对各省税务会计收入均值的标准误进行计算。我们需要编写一个简单的R函数来计算任何给定向量的标准误。由于R内建一个计算样本方差的函数var()，所以我们要做的只是写一个一行的函数，并通过赋值语句指定函数的名称 > stderr <- function(x) sqrt(var(x)/length(x)) （函数的编写将在稍后的章节讲述，参见）赋值完成后我们就可以这样计算标准误了： > incster <- tapply(incomes, statef, stderr) 所求得的值为 > incster act nsw nt qld sa tas vic wa 1.5 4.3102 4.5 4.1061 2.7386 0.5 5.244 2.6575 作为一个练习，你可能还想得到收入均值95%的置信区间。可以通过下面的方法完成：先用tapply()应用函数length()得到样本长度，然后用函数qt()来获得t分布的分位点。函数tapply()可以通过多类别的方法处理更复杂的向量索引。例如，我们可能像依据省份和性别来分割税务会计的数据，在一个简单的例子中（只有一个类别），我们的思路可以是这样的：根据类别中不同的项，向量中的值被分成不同的组，然后，函数被分别应用于每一个组。返回指是函数结果的向量，由类别的水平标记。一个向量和一个标记用的因子合并有时会成为一个ragged array，因为子类别的大小可能是不规则的。当子类别的大小全都相同时，合并过程中会自动完成索引，而且这样显然会更有效率，正如我们在下一章将要看到的那样。 4.3 有序因子因子的水平按照字母顺序存储，不过如果被明确的指定，他们将按照指定的顺序存储。有时因子的水平具有其原始的顺序，而且这种顺序可以在我们的统计分析中被用到，所以我们需要一定的方法来记录这种顺序。函数ordered() 可以创建这种有序因子，但是这种有序因子同因子是有差别的。在多数情况下，有序因子和无序因子的差别仅仅是前者在输出结果是其水平，不过在拟合线性模型时，两种因子是有实质差异的

CHAPTER5.数组和矩阵 >ib<- bind (1: n, blocks) >xb[ib]<-1 Xy X <- bind (Xb, Xv) 构建关联矩阵,比如叫N,我们可以使用 >N<- crossprod (Xb, Xv) 不过,构件这个矩阵,更简单直接的方法是使用函数tabe() >N<- table(blocks, varieties 54函数 array 除了通过赋予一个向量以dim属性,我们还可以用函数 array来从向量构建数组。函数形式为 >Z<-array(data_vector, dim_vector) 例如,若向量h包含24,或者更少个数值,那么命令 >Z<-array(h, dim=c(3, 4, 2)) 将用h的数值在Z中创建一个3×4×2的数组。如果h的大小恰好是24,那么命令的效果等同于 >dim(Z)<-c(3,4,2) 不过,如果h的大小小于24,它的值将被重复使用直到凑足24个。(参见)作为一个极端但是很常见的例子 z<- (0,c(3,4,2)) 使E成为一个全零的数组。此时,dim(z)代表维数向量c(3,4,2),Z[1:24]代表数据向量,Z]和Z都代表整个数组。数组可以在算数表达式中使用,结果也是一个数组,这个数组由数据向量逐个元素的运算后组成,,通常参与运算的对象应当具有相同的dim属性。而且这将作为最终结果的维数向量。所以如果A,B,C是相似的数组,那么 >D<-2*A*B+C+1 令D成为一个与数据向量相似的数组,而且很明显的,结果将是逐个元素进行运算后得出的。不过,涉及到向量和数组混合运算的法则还需要更进一步而且更精确的说明 5.41向量,数组的混合运算,重复使用规则向量,数组混合运算的精确法则会让人感觉有些怪异,而且很难在参考书中找到。按照经验,我们发现下面的这些规则是值得信赖的一些参考表达式从左到右被扫描参与运算的任意对象如果大小不足,都将被重复使用直到与其他参与运算的对象等长有且只有较短的向量和数组在运算中相遇时,所有的数组必须具有相同的dim属性,或者返回一个错误。( As long as short vectors and arrays only are encountered, the arrays must all have the same dim attribute or

CHAPTER 5. 数组和矩阵 16 > ib <- cbind(1:n, blocks) > iv <- cbind(1:n, varieties) > Xb[ib] <- 1 > Xv[iv] <- 1 > X <- cbind(Xb, Xv) 构建关联矩阵，比如叫N，我们可以使用 > N <- crossprod(Xb, Xv) 不过，构件这个矩阵，更简单直接的方法是使用函数table()： > N <- table(blocks, varieties) 5.4 函数array() 除了通过赋予一个向量以dim属性，我们还可以用函数array来从向量构建数组。函数形式为 > Z <- array(data_vector, dim_vector) 例如，若向量h包含24，或者更少个数值，那么命令 > Z <- array(h, dim=c(3,4,2)) 将用h的数值在Z中创建一个3 × 4 × 2的数组。如果h的大小恰好是24，那么命令的效果等同于 > dim(Z) <- c(3,4,2) 不过，如果h的大小小于24，它的值将被重复使用直到凑足24个。（参见）作为一个极端但是很常见的例子 > Z <- array(0, c(3,4,2)) 使E成为一个全零的数组。此时，dim(Z)代表维数向量c(3,4,2)，Z[1:24]代表数据向量，Z[]和Z都代表整个数组。数组可以在算数表达式中使用，结果也是一个数组，这个数组由数据向量逐个元素的运算后组成，，通常参与运算的对象应当具有相同的dim属性。而且这将作为最终结果的维数向量。所以如果A,B,C是相似的数组，那么 > D <- 2*A*B + C + 1 令D成为一个与数据向量相似的数组，而且很明显的，结果将是逐个元素进行运算后得出的。不过，涉及到向量和数组混合运算的法则还需要更进一步而且更精确的说明。 5.4.1 向量，数组的混合运算，重复使用规则向量，数组混合运算的精确法则会让人感觉有些怪异，而且很难在参考书中找到。按照经验，我们发现下面的这些规则是值得信赖的一些参考。 • 表达式从左到右被扫描 • 参与运算的任意对象如果大小不足，都将被重复使用直到与其他参与运算的对象等长 • 有且只有较短的向量和数组在运算中相遇时，所有的数组必须具有相同的dim属性，或者返回一个错误。(As long as short vectors and arrays only are encountered, the arrays must all have the same dim attribute or an error results.)

点击进入文档下载页（PDF格式）

共72页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录