SPSS实用统分析 续表 文件类型及扩展名 说明 dBase (*. dbf dBase数据车文件 SAS Long File Name(*,s7bda)|sAS长文件名数据文件 SAS Short File Name(*. sd7) SAS短文件名数据文件 SAS V6 for windows (* sd2) SASv6 for windows数据文件 SAS Y6 for Unix (* ssd01) SAS v6 for Unix数据文件 SAS Transport(.xpt SAS Transport数据文件 文本文件 Dat(*. dat Tab分隔符数据文件 其中扩展名为“*.sav”的数据文件为 SPSS for Windows建立的数据文件。至于如何 读取其他格式的数据文件,限于篇幅不再介绍。 例如选择一个SPSs系统自带的名为Word9ssa的数据文件,它记录着1995年109 个国家或地区总人口数、人口密度等社会经济指标的数据资料。如图22所示 图2-2数据窗口里的数据文件 从数据文件的外观上看,数据区单元格里都有一个具体的数据,无论它表现为数字、文 字、日期或者符号,将它们统称为数据(Data〉。在变量列顶端以确定的名称显示岀来。单击 任何一个有数据的单元格时,这个单元格被个黑框突出出来,称此单元格为选定单元格,这 个单元格里的数据也就显示在上面的数据输入栏中,表明可村这个数据进行编辑操作,选定单 元格里的数据对应的观测量序号和变量名称同时显示在数据输入栏左边的状态栏里需要阅读 或者査洵其他的数据,使用窗右边或下边的滚动条按钮滚动屏幕,观察更多的变量和数据。 需特别处理或了解某变量或观测量的情况,单击相关变量名或观测量序号,则对应的 变量列或观测量行以置亮的形式突出出来,称这列(行)为选中列(行),如图23所示。 u 17800 时C指 300640 图2-3选中一列(行)
第2章数据文件的建立及整理 212变量、观测量的概念 建立数据文件的目的是对数据文件中反映的研究对象的数量方面进行分析,进而揭示 其内在的数量变化规律。掌握准确、全面的数据资料是统计分析的基础,直接关系到统计 分析的结果。因此,组织建立一个科学、合理、精炼的数据文件是非常重要的。 SPSS的数据文件里包括变量、观测量等,首先介绍这些基本概念 1.SPSS变量 sPSS中的变量与统计学中的变量概念一致,对总体单位而言,它表示统计标志。对总 体而言,则表示统计指标。 sPSS变量具有以下属性:变量名、变量类型、变量长度、变量标签、缺失值、单元格 宽度、对齐格式、测度水平等 (1)Name(变量名) 变量名,即变量名称,定义一个变量首先应当为它命名。SPPP中变量命名的规则如下: ①变量名由不多于8个的字符组成,如果定义的变量名中字符个数大于8,系统将会 自动截去尾部作不完全显示。 ②首字必须为字母,其后可以是字母、符号或数字,也可以使用汉字作为变量名。例 如,“ n score”、“产值”。但是有几个特殊字符,如“?”、“!”、“*”以及算术运算符等都 是不允许使用的。此外点“”不能作为变量名的最后一个字符。 ③变量名中不得使用SPSS的保留字,它们是: ALL、AND、BY、BQ、GE、GT、LE、LT、NE、NOT、OR、TO、W理TH ④系统不区分大小写字母,例如 SCORE、 Score、 ScorE视为同一个变量名。 (2)Type(变量类型)。 SPSs变量有3种基本类型: Numeric(数值型)、 String(字符型)和Date(日期型 系统默认的变量宽度(Wdth)为8(即数字,包括小数点或者字母,总数为8),小数点位 数为2,例如12345.56、 Student、1.25E-08皆为符合要求的变量值。如果要改变系统默认 的变量宽度,可以在 Option(总选项)对话框中重新设置。 数值型变量又可以分为8种不同类型,其中标准数值型变量为系统默认的基本类型。 各类型名称、输入格式列于表22中 表22系统默认长度下数值型变量的输入与显示格式 数值变量类型 数据输入格式 数据显示格式示例 Numeric(标准数值型变量) 标准数值或科学记数法标准数值格式231.05 Comma(带逗点型) 带逗点格式、科学记数法带逗点格式23556 Doc(带圆点型) 带圆点格式、科学记数法带圆点格式567895 Scientific Notation(科学记数法)标准数值、科学记数法 科学记数法67E+07 Dollar(带美元符$型) 标准数值、科学记数法等带美元符号,S5,670.80
SPSs实用统计分析 续表 数值变量类型 数据输入格式 数据显示格式示例 m Currency(自定义型) 标准数值、科学记数法等|在 Option对话框中自行定义 String(字符型) Book, nn 89, girl 05 Dae(日期型) 按指定的格式输入 按指定的格式输出 标准型数值变量值就是平常的数字书写格式;带逗点型的数值变量,其变量值的整数 部分自右向左每3位加一个逗点作为分隔符,用圆点作小数点;带圆点型的数值变量,其 变量值的整数部分自右向左每3位加一个圆点作为分隔符,而用逗点作小数点:科学记数 法中表示指数的字母用E,也可用D,甚至不用,如235E2、235E+2、235D2、235+2 都表示235,均显示为24E+02。 带美元符号($)型,输入时可以不必键入字符“$",根据指定的变量长度,譬如,定 义变量宽度为1l位,则显示时均为“$*,**,*” sPSs中,日期型变量值的显示格式非常多,无论选定哪一种具体的格式,输入时都可 以使用“/”和“”作为分隔符,显示时系统会按定义的格式输出。 字符型变量的值是一串字符,使用时需特别注意,定义变量名时字母大小写不加区分, 但输入字符型变量值(即字符串)时,系统对大写字母和小写字母则是严格加以区别的。 日期型变量和字符型变量不允许参与运算。 (3) ariable labels(变量标签)。 变量标签是对变量名的附加说明。SPS中不超过8个字符的变量名,许多情况下,不 足以表达变量的含义。利用变量标签可以对变量的意义作进一步解释和说明。特别地,在 中文 Windows下还可以附加中文标签,这给不熟悉英文的用户带来很大方便。例如,定义 变量名:Name,可以加注标签“姓名(或学生姓名、职工姓名等)”。给变量加了标签以后, 在数据窗口工作时,当鼠标箭头指向一个变量的时候,变量名下立即显示出它的标签。 (4) Value Labels(值标签,或标签值)。 变量值标签是对变量的可能取值附加的进一步说明,通常仅对类型(或分类)变量的 取值指定值标籌。 对变量值附加标签值有重要的作用,例如我们定义一个变量“ Departme”,代表某所大 学的系或部门,我们准备将它作为分类变量参与数据文件的统计分析,可以将它定义为 个字符型变量,也可以定义为一个数值型变量。如果将它定义为一个字符型变量,则由于 该校有众多的系和部门,在输入观测值时必须输入系或部门名称,这将大大地增加键盘输 入的工作量。如果将它定义为个数值型变量,日后在阅读数据文件的时候,常常又可能 不明确变量值的意义。而将各系或部门的名称作为变量的各个值的标签,假如在值标签开 关(见22,1节)开启的状态下,要输入各系或部门的名称,只需要输入它的值,而在数据 窗口变量值的单元格里却显示该变量值对应的值标签,既减轻了输入的工作量,又可以 目了然地了解变量值的意义 例如:将变量 Departme分别定义为字符型和数值型变量时,可以按照下面的表中所列
第2章数据文件的建立及整理 规定它的值和值标签,并设变量标签为“××大学的系与部门” 符型变量的值a 数值型变量的值0 值标签 数学系物理系化学系 (5)Wdth(变量格式宽度)。 变量格式宽度指在数据窗口中变量列所占据的单元格的列宽度。应该注意,定义变量 类型时指定的宽度和定义变量格式时的宽度是有区别的。定义变量格式宽度应当综合考虑 变量宽度和变量名所占的宽度,一般取其较大的一个作为定义该变量格式宽度时可取的最 小值。即: “变量格式宽度>=变量宽度”,同时“变量格式宽度>=变量名长度” 如果变量宽度>变量格式宽度,那么,在数据窗口中显示变量名的字符数不够,变 量名将被截去尾部作不完全显小。输入的数据可能截去尾部,被截去的部分用“*”号代替。 (6) Alignment(单元格对齐格式)。 在数据窗口中,变量值在单元格的显示有左中右之分,一般情况下,对数值型变量默认 的对齐方式为右对齐,字符型变量默认的对齐方式为左对齐,用户可以自行决定对齐方式。 (7)Msngⅵalue(缺失值)。 统计调査,搜集研究对象的有关统计资料是统计工作的基础。但是在具体工作时,总 难免会发生一些失误,例如,须观测的现象没有观测到,或者由于不慎遗失了原始记录, 或者由于登记时的疏忽导致记录错误。总之,会因种种原因造成统计资料的残缺、遗漏和 差错 统计中把那些没有观测到,或没有记录到,或者记录结果有明显的错误的数值,称为 缺失值。例如,在调查小麦亩产量时,记录到某地的平均亩产为4580公斤,如此高的产量 显然违背普通常识的,小麦亩产量不可能达到这样高,这个数据应属于错误的数据,统计 分析中使用了这样的数据必然导致错误的分析结果。SPSS提供了处理这些缺失值的功能, 以便在统计分析中排除它们。 sPSS中,对数值型变量,系统默认的缺失值为0:对字符型变量,默认的缺失值为空 格。用户可以自定义缺失值。例如在处理小麦亩产量数据资料时,可以把数值大于1500 公斤的数据标记为缺失值。 (8) Measurement(测度)。 统计学中,所谓测度是指按照某种法则给现象、事物或事件分派一定的数字或符号, 通过测度来刻划事物的特征或属性。例如,对人进行测度,其属性或者特征有性别、年龄、 身高、体重、职业等。可以用58公斤标识某人的体重,用172米标识他的身高,用1(男) 或2(女)标识他(或她)的性别 一般来说,任何事物都具有直接的或者潜在的可测性,但是可测的程度或者水平是不 同的,统计学中,通常将测度分为;Scae(定比测度,或比率测度) Ordinal(定序测度
SPSs实用统计分析 或顺序测度)、 Nominal(定类测度,或名义测度)。认为这3种测度水平以 Scale测度的测 度水平最高, Ordinal测度次之, Nominal测度的测度水平最低 从统计学的角废,测度选择·般按以下原则进行: ①取值于一个区间,或者取值为比率的连续型变量应设胃为 Scale测度,如职工收入、 身高、体重,产品产值、价格等。 ②无论是数值型变量还是字符型变量,只要资料具有某种内在的顺序分类,如可明显 地区分为大、中、小;高、中、低;优、良、中、可、差等,则应设置为 Ordinal测度。 ③资料如果是不具有某种内在顺序分类的字符型变量,如L人的工种、公司里的部门、 地理区域划分等,可以设置为 Nominal测度。表示明显分类的数值性变量也可以设置为 Nominal测度,如将Sex(性别)定义为数值型变量,1=“男”,2=“女”。 在SPSS8.0以后的版本中,测度选择一般规定:当变量定义为数值型变量时,系统默 认的测度水平确定为 Scale测度,允许用户自行确定3种测度水平一种测度;当变量定义 为字符型变量时,系统默认的测度水平确定为 nominal测度,也允许将其测度水平改为 Ordinal测度。 测度的确定与许多统计分析过程以及图形过程有密切关系。在这些过程中系统需要区 分变量是定比测度的变量,或是分类变量。 nominal测度和 Ording测度的变量只作为分类 变量米对待 观测量 SPss中用Case(s)表示观测量、案例或事件。统计学中指出,构成总体的单位具有各 种各样的特征,将这些特征的名称称为“标志”。如某工厂的全体职工组成一个总体,该厂 的每个职工为一个总体单位,他们都有姓名、性別、民族、体重、身高、工资等,这些反 映职工特征的名称称为标志,这些标志又区分为数量型标志(可用数量来表示的,如体重 身高、工资等)和品质型标志(不能用数量表示的,如性别、民族等)。对每一个职工进行 观察,都可以记录到每个标志的一组资料,这组资料在统计学中称为标志的标志表现,对 不同的职工将记录到的互不相同的资料,体现了标志的变异性,因此,笼统地称各个特征 为变量。 如果把对一个职工各种特征的观察视为一个观测量,便可得到反映这个职工具体特征 的一组观测值,这一组观测值在SPSS中称为个Case(观测量)。数据窗口的二维表格中 的每一个横行用来存放这一组观测值。因此,把数据窗口的每一个横行就当作为一个Case, 表中第m行第n列交叉点处的单元格(cel)中的数值视为第m个单位的第n个变量的变 量值。 213定义变量 在建立SPSS数据文件之前首先要定义变量,即要定义变量名、变量类型、变量宽度、 变量标签、变量格式等。为了提高工作效率,建议用户在建立数据文件之前,对掌握的数 据资料事先进行一些分析,对需建立的文件从内容、格式、变量名等方面进行通盘的考虑 并制定一个简要的计划。为了说明定义变量的步骤,给出某校16名硕土研究生毕业论文答