当前位置：和泉文库 > 统计 > 浏览文档

《统计原理 Principal of statistics》课程教学资源（统计软件教程）R语言实战（中文完整版）

R安装与操作 Data Analysis and Graphics with R 数据导入/导出及格式化双变量关系的描述性分析

文件格式：PDF，文件大小：22.52MB，售价：36.15元

文档详细内容（约402页）

20 第2章创建数据集表2-1病例数据病人编号入院时间年龄糖尿病类型病情 (PatientID) (AdmDate) (Age) (Diabetes) (Status) 1 10/15/2009 25 Typel Poor 2 11/01/2009 34 Type2 Improved 3 10/21/2009 28 Typel Excellent 4 10/28/2009 52 Typel Poor 不同的行业对于数据集的行和列叫法不同。统计学家称它们为观测(observation)和变量 (variable),数据库分析师则称其为记录(record)和字段(field),数据挖掘/机器学习学科的研究者则把它们叫做示例(example)和属性(attribute)。我们在本书中通篇使用术语观测和变量。你可以清楚地看到此数据集的结构（本例中是一个矩形数组）以及其中包含的内容和数据类型。在表2-l所示的数据集中，PatientID是行/实例标识符，AdmDate是日期型变量，Age是连续型变量，Diabetes是名义型变量，Status是有序型变量。 R中有许多用于存储数据的结构，包括标量、向量、数组、数据框和列表。表2-1实际上对应着R中的一个数据框。多样化的数据结构赋予了R极其灵活的数据处理能力。 R可以处理的数据类型（模式）包括数值型、字符型、逻辑型（℉UE/FALSE)入、复数型（虚数)和原生型（字节）。在R中，PatientID、AdmDate和Age将为数值型变量，而Diabetes和 Status则为字符型变量。另外，你需要分别告诉R:PatientID是实例标识符，AdmDate含有日期数据，Diabetes和Status分别是名义型和有序型变量。R将实例标识符称为cownames(行名)，将类别型（包括名义型和有序型）变量称为因子（factors)。我们会在下一节中讲解这些内容，并在第3章中介绍日期型数据的处理。 2.2数据结构 R拥有许多用于存储数据的对象类型，包括标量、向量、矩阵、数组、数据框和列表。它们在存储数据的类型、创建方式、结构复杂度，以及用于定位和访问其中个别元素的标记等方面均有所不同。图2-1给出了这些数据结构的一个示意图。让我们从向量开始，逐个探究每一种数据结构。一些定义 R中有一些术语较为独特，可能会对新用户造成困扰。在R中，对象(object)是指可以赋值给变量的任何事物，包括常量、数据结构、函数，甚至图形。对象都拥有某种模式，描述了此对象是如何存储的，以及某个类，像prit这样的泛型函数表明如何处理此对象。与其他标准统计软件（如SAS、SPSS和Stata)中的数据集类似，数据框(data frame)是R 中用于存储数据的一种结构：列表示变量，行表示观测。在同一个数据框中可以存储不同类型 (如数值型、字符型)的变量。数据框将是你用来存储数据集的主要数据结构。图灵社区会员matrixvirus(matrixvirus@163.com)）专享尊重版权

20 第 2 章创建数据集表2-1 病例数据病人编号（PatientID）入院时间（AdmDate）年龄（Age）糖尿病类型（Diabetes）病情（Status） 1 10/15/2009 25 Type1 Poor 2 11/01/2009 34 Type2 Improved 3 10/21/2009 28 Type1 Excellent 4 10/28/2009 52 Type1 Poor 不同的行业对于数据集的行和列叫法不同。统计学家称它们为观测（observation）和变量（variable），数据库分析师则称其为记录（record）和字段（field），数据挖掘/机器学习学科的研究者则把它们叫做示例（example）和属性（attribute）。我们在本书中通篇使用术语观测和变量。你可以清楚地看到此数据集的结构（本例中是一个矩形数组）以及其中包含的内容和数据类型。在表2-1所示的数据集中，PatientID是行/实例标识符，AdmDate是日期型变量，Age是连续型变量，Diabetes是名义型变量，Status是有序型变量。 R中有许多用于存储数据的结构，包括标量、向量、数组、数据框和列表。表2-1实际上对应着R中的一个数据框。多样化的数据结构赋予了R极其灵活的数据处理能力。 R可以处理的数据类型（模式）包括数值型、字符型、逻辑型（TRUE/FALSE）、复数型（虚数）和原生型（字节）。在R中，PatientID、AdmDate和Age将为数值型变量，而Diabetes和 Status则为字符型变量。另外，你需要分别告诉R：PatientID是实例标识符，AdmDate含有日期数据，Diabetes和Status分别是名义型和有序型变量。R将实例标识符称为rownames（行名），将类别型（包括名义型和有序型）变量称为因子（factors）。我们会在下一节中讲解这些内容，并在第3章中介绍日期型数据的处理。 2.2 数据结构 R拥有许多用于存储数据的对象类型，包括标量、向量、矩阵、数组、数据框和列表。它们在存储数据的类型、创建方式、结构复杂度，以及用于定位和访问其中个别元素的标记等方面均有所不同。图2-1给出了这些数据结构的一个示意图。让我们从向量开始，逐个探究每一种数据结构。一些定义 R中有一些术语较为独特，可能会对新用户造成困扰。在R中，对象（object）是指可以赋值给变量的任何事物，包括常量、数据结构、函数，甚至图形。对象都拥有某种模式，描述了此对象是如何存储的，以及某个类，像print这样的泛型函数表明如何处理此对象。与其他标准统计软件（如SAS、SPSS和Stata）中的数据集类似，数据框（data frame）是R 中用于存储数据的一种结构：列表示变量，行表示观测。在同一个数据框中可以存储不同类型（如数值型、字符型）的变量。数据框将是你用来存储数据集的主要数据结构。图灵社区会员 matrixvirus(matrixvirus@163.com) 专享尊重版权

点击进入文档下载页（PDF格式）

共402页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录