统计描述-相关分析 数据科学导论 两个变量之间存在的呈线性趋势的关系称为线性相关或简单相关。 ·相关指标:相关系数(") 完全负相关 无相关 完全正相关 -1.0 -0.5 0 0.5 -1.0 负相关程度增加 正相关程度增加 完全正线性相关 完全负线性相关 正线性相关 负线性相关 非线性相关 无相关
数据科学理论与实践 统计描述-相关分析 数据科学导论 ▪ 两个变量之间存在的呈线性趋势的关系称为线性相关或简单相关。 ▪ 相关指标:相关系数(r) 完全负相关 无相关 完全正相关 -1.0 -0.5 0 0.5 -1.0 负相关程度增加 正相关程度增加 r y x y x y x y x 完全正线性相关 完全负线性相关 正线性相关 负线性相关 y x 非线性相关 y x 无相关
统计描述-统计表和统计图 数据科学导论 年龄组(岁) 死亡率(%) 死亡百分比(%) 起w 60≈ 19.61 16.60 65 23.64 17.51 70~ 50.28 19.44 75 76.05 20.94 80 115.45 25.51 统计表:三线表 统计图:直方图 100 40 20 1968 19091970 1971197219731974 h 图5-3某地1968-1974年结核病死亡率 统计图:线图 统计图:饼图 统计图:箱图
数据科学理论与实践 统计描述-统计表和统计图 数据科学导论 年龄组(岁) 死亡率(‰) 死亡百分比(%) 60~ 19.61 16.60 65~ 23.64 17.51 70~ 50.28 19.44 75~ 76.05 20.94 80~ 115.45 25.51 统计表:三线表 统计图:直方图 统计图:线图 统计图:饼图 统计图:箱图
常用统计方法 数据科学导论 ■统计推断:指由样本数据的特征推断总体特征的方法,包括参数估计和假设 检验。参数估计的重要性在于可以给出区间估计;假设检验的重点则是比较 参数的大小。 集中趋势分析 离散趋势分析 描述统计 相关分析 统计表 统计方法 统计图 参数估计 推断统计 假设检验
数据科学理论与实践 常用统计方法 数据科学导论 ▪ 统计推断:指由样本数据的特征推断总体特征的方法,包括参数估计和假设 检验。参数估计的重要性在于可以给出区间估计;假设检验的重点则是比较 参数的大小。 统计方法 描述统计 集中趋势分析 离散趋势分析 相关分析 统计表 统计图 推断统计 参数估计 假设检验
统计方法-推断统计 数据科学导论 点估计 参数估计 计算 估计 样本 估计 样本的统计量 总体的参数 置信区间 区间估计 推断 置信水平 两类错误 假设 4验证 计算 总体 总体的参数 样本的统计量 参数检验 假设检验 检验方法 非参数检验
数据科学理论与实践 统计方法-推断统计 数据科学导论 样本 总体 推断 参数估计 假设检验 计算 样本的统计量 估计 估计 总体的参数 假设 总体的参数 验证 计算 样本的统计量 点估计 区间估计 置信区间 置信水平 两类错误 检验方法 参数检验 非参数检验
推断统计-参数估计 数据科学导论 点估计 ·是使用单一的数值直接作为总体参数的估计值,如用用样本均值估计总计均值。 .区间估计(interval estimation) ·是指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。事先给定的概 率称为置信水平(置信度),计算得到的区间称为可信区间(confidence interval,CI)。 Lower Upper Confidence Confidence Point Estimate Limit Limit Width of confidence interval 置信水平:95%
数据科学理论与实践 推断统计-参数估计 数据科学导论 ▪ 点估计 • 是使用单一的数值直接作为总体参数的估计值,如用用样本均值估计总计均值。 ▪ 区间估计(interval estimation) • 是指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。事先给定的概 率称为置信水平(置信度),计算得到的区间称为可信区间(confidence interval,CI)。 置信水平:95%