第三章计量资料的统计描述2第一节分布特征描述2一、频数分布的概念、方法与用途第二节集中趋势的描述一、算术均数二、中位数..6三、几何均数7四、百分位数和四分位数.8第三节离散趋势的描述0一、极差.9二、方差与标准差.9三、变异系数10第四节正态分布...11一、正态分布的概念11二、正态分布的分布特征.12三、标准正态分布13四、正态曲线下的面积.13第五节统计描述的SPSS操作方法与结果错误!未定义书签。一、频数分布分析(FREQUENCIES)错误!未定义书签。二、描述性统计分析(DESCRIPTIVES)错误!未定义书签
1 第三章 计量资料的统计描述.2 第一节 分布特征描述 .2 一、频数分布的概念、方法与用途 .2 第二节 集中趋势的描述.5 一、算 术 均 数.5 二、中 位 数.6 三、 几 何 均 数.7 四、百分位数和四分位数.8 第三节 离散趋势的描述 .9 一、极 差.9 二、方 差 与 标 准 差.9 三、 变 异 系 数. 10 第四节 正态分布. 11 一、正态分布的概念. 11 二、正态分布的分布特征. 12 三、标准正态分布 . 13 四、正态曲线下的面积. 13 第五节 统计描述的 SPSS 操作方法与结果.错误!未定义书签。 一、频数分布分析(FREQUENCIES).错误!未定义书签。 二、描述性统计分析(DESCRIPTIVES).错误!未定义书签
第三章计量资料的统计描述问题已知某班各学生在一次测验中的成绩,该班学生的平均成绩是多少?又已知该年级各班学生的平均成绩及人数,其年级平均分数是多少?已知某市历年高中毕业生人数,如何求其平均增长率并预测未来的毕业生人数?假如两个班某科目平均成绩相同,如何比较二者的差异?如何比较不同科自考试成绩的代表水平?学习目标1.理解频数分布的概念、理解各种描述集中趋势和离散趋势指标的概念2.熟练掌握频数分布的方法与用途以及各种平均数的计算方法3.熟练掌握方差与标准差的意义与分析方法,熟练掌握正态分布的特点及其应用4.掌握均数、中位数和几何平均数的应用范围5.了解其他平均数指标和离散程度指标的意义和应用6.掌握SPSS中描述性统计基本分析方法和操作计量资料也称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料。在心理测验理论中,最常用的测量水平是等距测量,通过建立一个特定的等距量表来测量一个人某方面的能力。这些用等距量表测量所得的数据为有意义的数值,当通过实验或调查采集到大量等距数据后,常常需要先对这些数据进行整理和描述。这类变量常可用两种描述计量资料分布规律的统计方法来描述:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。第一节分布特征描述一、频数分布的概念、方法与用途搜集到数据后,欲了解其分布的范围、数据最集中的区间以及分布的形态,可通过编制频数分布表来实现。1.频数分布表的编制频数分布表(frequencytable)用来表示一批数据各观察值或在不同取值区间的出现的频紧程度(频数)。对于散布区间很大的连续型数据,数据散布区间由若于组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下:例3-1某班52名学生在一项拼写测验中的成绩如下,试编制频数表和观察频数分布情况。592752 36275035254736285636342234224333214332352446444232203217403137393138214229501736273830303837293731频数表的编制步骤:2
2 第三章 计量资料的统计描述 问题 已知某班各学生在一次测验中的成绩,该班学生的平均成绩是多少?又已知该年级各班 学生的平均成绩及人数,其年级平均分数是多少?已知某市历年高中毕业生人数,如何求其 平均增长率并预测未来的毕业生人数?假如两个班某科目平均成绩相同,如何比较二者的差 异?如何比较不同科目考试成绩的代表水平? 学习目标 1. 理解频数分布的概念、理解各种描述集中趋势和离散趋势指标的概念 2. 熟练掌握频数分布的方法与用途以及各种平均数的计算方法 3. 熟练掌握方差与标准差的意义与分析方法,熟练掌握正态分布的特点及其应用 4. 掌握均数、中位数和几何平均数的应用范围 5. 了解其他平均数指标和离散程度指标的意义和应用 6. 掌握 SPSS 中描述性统计基本分析方法和操作 计量资料也称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料。在心 理测验理论中,最常用的测量水平是等距测量,通过建立一个特定的等距量表来测量一个人 某方面的能力。这些用等距量表测量所得的数据为有意义的数值,当通过实验或调查采集到 大量等距数据后,常常需要先对这些数据进行整理和描述。这类变量常可用两种描述计量资 料分布规律的统计方法来描述:一类是用统计图表,主要是频数分布表(图);另一类是选 用适当的统计指标。 第一节 分布特征描述 一、频数分布的概念、方法与用途 搜集到数据后,欲了解其分布的范围、数据最集中的区间以及分布的形态,可通过编制 频数分布表来实现。 1. 频数分布表的编制 频数分布表(frequency table)用来表示一批数据各观察值 或在不同取值区间的出现的频繁程度(频数)。对于散布区间很大的连续型数据,数据散布 区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 例 3-1 某班 52 名学生在一项拼写测验中的成绩如下,试编制频数表和观察频数分布情 况。 59 36 28 56 36 27 52 36 27 50 35 25 47 35 24 46 34 22 44 34 22 43 33 21 43 32 21 42 32 20 42 32 17 40 31 37 39 31 38 31 36 27 38 30 30 38 37 29 29 37 50 17 频数表的编制步骤:
(1)求极差:极差(range),又称为全距,即最大值与最小值之差,记作R。如本例R=59-17=42;(2)确定分组数和组距:根据研究目的和样本含量n确定分组数,一般不应少于5组,也不应多于15组。当样本容量小于125时,分为/n组比较合适。组数太少,数据过于集中:组数太多,数据过于分散。通常分为10~15个组。组距=极差/组数,为方便计,组距为极差的十分之一,再略加调整,一般取方便阅读和计算的数字。本例42/10=4.2~5:组距分组时,一定要遵循“不重不漏”的原则。“不重”是指一个数据只能出现在一组里:“不漏”是指每个数据都能分在某一组。(3)根据组距列出组段:每个组段的下限为L,上限为U,变量X值的归组统一定为L≤X<U,等于L的数值仍属于这组,等于U的数值属于下一组。起始组段和最后组段应分别包含全部变量值的最小值和最大值。如本例15~20~50~55~60;±±+(4)分组划记并统计频数:用划记法将所有数据归纳到各组段,得到各组段的频数,完成频数表。见表3-1。表 3-152名学生拼写测验中成绩的频数分布表频数,了分数组段相对频数(%)累积频数累积相对频数(%)(3)(1)(4)= (3) /N(5)=(3) +(6)=(5) / N2215~4.004.006820~11.0015.00725~1514.0029.001130~21.002650.00133935~25.0075.00640~11. 004586.0024745~4. 0090.0050~3506.0096.0055~6024.0052100.00频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。2.频数分布图为了更直观、更形象地表达一个频数分布的结构形态及特征,我们可进一步根据频数分布表,绘制出相应的频数分布图。如根据表3-1资料,以各段分数为横坐标,频数f为纵坐标,可绘制频数分布图(graphoffrequencydistribution),如图3-1。3
3 (1)求极差:极差(range),又称为全距,即最大值与最小值之差,记作 R。如本例 R =59 – 17 =42; (2)确定分组数和组距:根据研究目的和样本含量 n 确定分组数,一般不应少于 5 组, 也不应多于 15 组。当样本容量小于 125 时,分为 n 组比较合适。组数太少,数据过于集 中;组数太多,数据过于分散。通常分为 10~15 个组。组距=极差/组数,为方便计,组距 为极差的十分之一,再略加调整,一般取方便阅读和计算的数字。本例 42/10=4.2 ≈5 ; 组距分组时,一定要遵循“不重不漏”的原则。“不重”是指一个数据只能出现在一组 里;“不漏”是指每个数据都能分在某一组。 (3)根据组距列出组段:每个组段的下限为 L,上限为 U,变量 X 值的归组统一定为 L ≤X<U,等于 L 的数值仍属于这组,等于 U 的数值属于下一组。起始组段和最后组段应分别 包含全部变量值的最小值和最大值。如本例 15~ 20~ . 50~ 55~60; (4)分组划记并统计频数:用划记法将所有数据归纳到各组段,得到各组段的频数, 完成频数表。见表 3-1。 表 3-1 52 名学生拼写测验中成绩的频数分布表 分数组段 频数, f 相对频数(%) 累积频数 累积相对频数(%) (1) (3) (4)= (3)/N (5)=(3)↓ (6)=(5)/N 15~ 2 4.00 2 4.00 20~ 6 11.00 8 15.00 25~ 7 14.00 15 29.00 30~ 11 21.00 26 50.00 35~ 13 25.00 39 75.00 40~ 6 11.00 45 86.00 45~ 2 4.00 47 90.00 50~ 3 6.00 50 96.00 55~60 2 4.00 52 100.00 频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现 某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。 2. 频数分布图 为了更直观、更形象地表达一个频数分布的结构形态及特征,我们可 进一步根据频数分布表,绘制出相应的频数分布图。如根据表 3-1 资料,以各段分数为横坐 标,频数 f 为纵坐标,可绘制频数分布图(graph of frequency distribution),如图 3-1
次数1412108620(5)12172227323742475257测验分数图3-152名学生拼写测验中成绩的频数分布图除了直方图之外,频数分布有时用频数多边形来图示,频数多边图是利用闭合的折线构成多边形以反映次数变化情况的一种图示方法。其绘制法与直方图基本类似,不同之处在于:在每组中点垂线与该组次数相交处画点,连接各点便形成一多边形。上述图3-1也可绘制成频数多边图如下图3-2所示。次4414121086420(5)12172227323742475257分数图3-252名学生拼写测验成绩的频数多边图如上所示,当一列数据的个数不是很多时,所绘制的频数多边图常表现为不规则的多边形。从理论上说,当一列数据的个数足够大时,随着分组时组距的不断变小,绘制成的频数多边图会越来越光滑,若分为无数组时,就形成一条极其光滑的曲线,这种曲线在统计学上4
4 (5) 12 17 22 27 32 37 42 47 52 57 测验分数 14 1 2 1 0 8 6 4 2 0 次 数 f 图 3-1 52 名学生拼写测验中成绩的频数分布图 除了直方图之外,频数分布有时用频数多边形来图示,频数多边图是利用闭合的折线构 成多边形以反映次数变化情况的一种图示方法。其绘制法与直方图基本类似,不同之处在于: 在每组中点垂线与该组次数相交处画点,连接各点便形成一多边形。上述图 3-1 也可绘制成 频数多边图如下图 3-2 所示。 14 1 2 1 0 8 6 4 2 0 (5) 12 17 22 27 32 37 42 47 52 57 分数 次 数 图 3-2 52 名学生拼写测验成绩的频数多边图 如上所示,当一列数据的个数不是很多时,所绘制的频数多边图常表现为不规则的多边 形。从理论上说,当一列数据的个数足够大时,随着分组时组距的不断变小,绘制成的频数 多边图会越来越光滑,若分为无数组时,就形成一条极其光滑的曲线,这种曲线在统计学上
称为频数分布曲线,如人的总体智力分布就可抽象为一条正态曲线。总之,频数表和频数分布图在对资料的整理过程中,主要起到先期统计性描述作用,可以描述频数分布的类型是对称分布抑或是偏态分布:描述频数分布的特征,了解数据变异(离散)的范围和数据集中(平均)的组段;而且还便于发现一些特大或特小的可疑值,也有助于进一步做统计分析和处理。第二节集中趋势的描述在心理学研究实践中,当我们借助一定的测量工具对某一研究对象进行观测,得到有关这一研究对象某一方面属性的数量化表述即变量时,经过对数据的初步整理,对这些变量进行表列和图示,可以对其分布特征有一直观而形象的概要了解。但这显然远远不够,我们还常需对这批变量所蕴含的规律性做更进一步的推论和更精确的了解。为此,我们需要计算出一些有代表性的数据,对变量所蕴含的规律性作更简洁明了的数量化描述,对其频数分布的特征作更精确的定量描述。在实验、测量或调查中获得的大量观测数据,具有一种向数据中央某一点靠拢的趋势,这种趋势在统计学上称为集中趋势(centraltendency),它是数据分布的特征之一。统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平,但常因资料的不同而选取不同的指标进行描述。常用的平均数有:算术均数(均数)(mean),几何均数(geometricmean),中位数(median)与百分位数(percentile)等。一、算术均数1.算术均数的定义算术均数(arithmeticmean)是所有观测值(或变量值)的总和除以总个数所得的商,简称均数(mean),可用于描述一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。总体均数用μ表示,样本均数用表示。2.算术均数的计算方法:(1)定义式:即根据算术均数的定义直接用原始观测值进行计算而得。其公式为X_X+X,++x.-ZxNn(3-1)式中X为各观察值,n为样本含量,Z为求和的符号。例3-2某项研究在五年级学生总体中抽取30个样本,测得他们的某项能力考试分数如下60,71,63,58,50,75,64,73,72,64,52,65,67,76,72,70,58,50,80,51,79,81,77,69,67,61,48,50,54,55,用直接法计算他们的平均能力分数:解:根据3-1式X_ 60+71+552=64.430得出其平均能力分数为64.4。(2)加权法:在定义式中各个观察值的次数或系数均为1,即各个参与计算均数的观测5
5 称为频数分布曲线,如人的总体智力分布就可抽象为一条正态曲线。 总之,频数表和频数分布图在对资料的整理过程中,主要起到先期统计性描述作用,可 以描述频数分布的类型是对称分布抑或是偏态分布;描述频数分布的特征,了解数据变异(离 散)的范围和数据集中(平均)的组段;而且还便于发现一些特大或特小的可疑值,也有助 于进一步做统计分析和处理。 第二节 集中趋势的描述 在心理学研究实践中,当我们借助一定的测量工具对某一研究对象进行观测,得到有 关这一研究对象某一方面属性的数量化表述即变量时,经过对数据的初步整理,对这些变量 进行表列和图示,可以对其分布特征有一直观而形象的概要了解。但这显然远远不够,我们 还常需对这批变量所蕴含的规律性做更进一步的推论和更精确的了解。为此,我们需要计算 出一些有代表性的数据,对变量所蕴含的规律性作更简洁明了的数量化描述,对其频数分布 的特征作更精确的定量描述。 在实验、测量或调查中获得的大量观测数据,具有一种向数据中央某一点靠拢的趋势, 这种趋势在统计学上称为集中趋势(central tendency),它是数据分布的特征之一。统计 上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平,但常因 资料的不同而选取不同的指标进行描述。 常用的平均数有:算术均数(均数)(mean),几何均数(geometric mean),中位数 (median)与百分位数(percentile)等。 一、算 术 均 数 1. 算术均数的定义 算术均数(arithmetic mean)是所有观测值(或变量值)的总和 除以总个数所得的商,简称均数(mean),可用于描述一组呈对称分布的变量值在数量上的 平均水平或者说是集中位置的特征值。总体均数用μ表示,样本均数用 表示。 2. 算术均数的计算方法: (1)定义式:即根据算术均数的定义直接用原始观测值进行计算而得。其公式为 1 2 X X X X N n + + = = .+X n (3-1) 式中 X 为各观察值,n 为样本含量,∑为求和的符号。 例 3-2 某项研究在五年级学生总体中抽取 30 个样本,测得他们的某项能力考试分数如 下:60,71,63,58,50,75,64,73,72,64,52,65,67,76,72,70,58,50,80, 51,79,81,77,69,67,61,48,50,54,55,用直接法计算他们的平均能力分数: 解:根据 3-1 式 60 71 X 64.4 + + = = .+55 30 得出其平均能力分数为 64.4。 (2)加权法:在定义式中各个观察值的次数或系数均为 1,即各个参与计算均数的观测