设X是数值变量它在各个对象上的数据是一组实数,这些 数据可比较大小,能进行四则运算,其大小有明确的含意 实例1中的mph即是一个数值变量,它的数据表达了一位男 生或女生开车的速度。原始的数据很难使我们有什么感觉。 怎样才能感知数据背后的事实呢?我们知道,实轴上的点可 以代表实数,如果将这一列数画到实轴上去,我们会发现这 个点集在实轴上的分布会呈现出一些重要的特点,例如它们 都落到哪一个区间中,在实轴的哪些部份它们聚集得很密, 哪些地方点很稀少。为了将这些特征表达得一目了然,统计 学家发明了直方图,我们首先画出mph在男生和女生上的二 组数据的直方图,并利用它们得出一些推论 男生mph数据集的直方图: 直方图 10 接收 女生mph直方图
设 X 是数值变量它在各个对象上的数据是一组实数,这些 数据可比较大小,能进行四则运算,其大小有明确的含意。 实例 的分布会呈现出一些重要的特点,例如它们 的哪些部份它们聚集得很密, 1 中的 mph 即是一个数值变量,它的数据表达了一位男 生或女生开车的速度。原始的数据很难使我们有什么感觉。 怎样才能感知数据背后的事实呢?我们知道,实轴上的点可 以代表实数,如果将这一列数画到实轴上去,我们会发现这 个点集在实轴上 都落到哪一个区间中,在实轴 哪些地方点很稀少。为了将这些特征表达得一目了然,统计 学家发明了直方图,我们首先画出 mph 在男生和女生上的二 组数据的直方图,并利用它们得出一些推论。 男生 mph 数据集的直方图: 0 20 频率 10 接收 直方图 频率 女生 mph 直方图: 11
直方图 ** 接收 从图知大部份的男生的mph都大于100,而大部份的女生都 将mph控制在105以下。因此,男生更喜欢开快车 直方图虽然能直地描写一个数值变量的数据集的分布, 但并不精确。我们将用一组数字来描写它的分布,常用的方 法是, 五数综合法描写分布 设数值变量X的数据集是,{x1,x2,…,xn3,记 最小值=min{x1,x2,…,Xn},最大值=max{x1,x2,…,xn} 中位数M( median,M) 中位数M是数据集的中间点,。分布在它的左右两边的 数据的个数相等。寻找中位数的步骤是, 1将{x1,x2,…,Xn}按递增的方法排序。 2当n是奇数时,中位数就是排序后的最中间的数 3当n是偶数时,中位数就是排序后,最中间的两数平均数 中位数是数据集分布的中心,它不受最小值与最大值变 化的影响,是一个重要的参考值 四分位数Q1及Q3 1将 1,42 xn}按递增的方法排序后找出中位数M
0 20 40 频率 接收 直方图 频率 从图知大部份的男生的 mph 都大于 100,而大部份的女生都 下。因此,男生更喜欢开快车! 直方图虽然能直地描写一个数值变量的数据集的分布, 但并不精确。我们将用一组数字来描写它的分布,常用的方 法是, 五数综合法描写分布 设数值变量 X 的数据集是,ሼx , x ,ڮ,x ሽ,记 最小值ൌ minሼxଵ, xଶ,ڮ,x୬ሽ,最大值ൌ maxሼxଵ, xଶ,ڮ,x୬ሽ。 中位数 M( median,M ) 中位数 M 是数据集的中间点,。分布在它的左右两边的 数据的个数相等。寻找中位数的步骤是, 1 将ሼx , x ,ڮ,x ሽ按递增的方法排序。 2 当 n 是奇数时,中位数就是排序后的最中间的数。 3 当 后,最中间的两数平均数。 中位数是数据集分布的中心,它不受最小值与最大值变 化的影响,是一个重要的参考值。 ۿ及ۿ四分位数 增的方法排序后找出中位数 M。 将 mph 控制在 105 以 ଵ ଶ ୬ ଵ ଶ ୬ n 是偶数时,中位数就是排序 12 1 将ሼxଵ, xଶ,ڮ,x୬ሽ按递