统计学基本概念 数据科学导论 ·统计学 ·统计学是关于收集数据、分析数据和由数据得出结论的一组概念、原侧和方法。统计学的重要 作用在于能够透过偶然现象来探测其规律性,使研究结论具有科学性。 ■总体 ·根据研究目的确定的研究对象的全体称为总体(population),如,使用药物A的所有患者 。样本: ·总体的一部分称为样本(sample),如,临床采集到的使用药物A的一组患者 。参数 ·由总体计算的特征数叫参数(parameter)),如,使用A药物的全部患者的平均血压 ·统计量 ·由样本计算的特征数叫统计量(statistic),如,采集到的使用A药物的患者平均血压
数据科学理论与实践 统计学基本概念 数据科学导论 ▪ 统计学 • 统计学是关于收集数据、分析数据和由数据得出结论的一组概念、原则和方法。统计学的重要 作用在于能够透过偶然现象来探测其规律性,使研究结论具有科学性。 ▪ 总体 • 根据研究目的确定的研究对象的全体称为总体(population),如,使用药物A的所有患者 ▪ 样本: • 总体的一部分称为样本(sample),如,临床采集到的使用药物A的一组患者 ▪ 参数 • 由总体计算的特征数叫参数(parameter),如,使用A药物的全部患者的平均血压 ▪ 统计量 • 由样本计算的特征数叫统计量(statistic),如,采集到的使用A药物的患者平均血压
基本内容 数据科学导论 ·统计设计 ·主要包括实验分组、抽样方法、样本含量估计、数据管理与质量控制、拟使用的统计分析方法 等。统计设计能够提高研究效率,并使结果更加准确和可靠。 ·数据整理与核查 ·主要是指对数据质量进行检查,考虑数据分布及变量转换,检查异常值及数据是否符合特定的 统计分析方法要求等。 ·统计描述 ·描述及总结一组数据的重要特征,目的是使实验或观察得到的数据表达清楚并便于分析。统计 描述结果的表达方式主要是统计指标、统计表和统计图: 统计推断 ·指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。参数估计的重要性在于 可以给出区间估计;假设检验的重点则是比较参数的大小
数据科学理论与实践 基本内容 数据科学导论 ▪ 统计设计 • 主要包括实验分组、抽样方法、样本含量估计、数据管理与质量控制、拟使用的统计分析方法 等。统计设计能够提高研究效率,并使结果更加准确和可靠。 ▪ 数据整理与核查 • 主要是指对数据质量进行检查,考虑数据分布及变量转换,检查异常值及数据是否符合特定的 统计分析方法要求等。 ▪ 统计描述 • 描述及总结一组数据的重要特征,目的是使实验或观察得到的数据表达清楚并便于分析。统计 描述结果的表达方式主要是统计指标、统计表和统计图。 ▪ 统计推断 • 指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。参数估计的重要性在于 可以给出区间估计;假设检验的重点则是比较参数的大小
常用统计方法 数据科学导论 ·统计描述:描述及总结一组数据的重要特征,目的是使实验或观察得到的数 据表达清楚并便于分析。统计描述结果的表达方式主要是统计指标(集中趋 势分析,离散趋势分析,相关分析)、统计表和统计图。 集中趋势分析 离散趋势分析 统计描述 统计表 统计图 统计方法 相关分析 抽样分布 推断统计 参数估计 假设检验
数据科学理论与实践 常用统计方法 数据科学导论 ▪ 统计描述:描述及总结一组数据的重要特征,目的是使实验或观察得到的数 据表达清楚并便于分析。统计描述结果的表达方式主要是统计指标(集中趋 势分析,离散趋势分析,相关分析)、统计表和统计图。 统计方法 统计描述 集中趋势分析 离散趋势分析 统计表 统计图 相关分析 推断统计 抽样分布 参数估计 假设检验
统计描述-集中趋势 数据科学导论 ■描述一组观察值集中位置或平均水平的统计指标 。 常用统计量: ·平均值,几何均数,中位数,百分位数 0 1 图3
数据科学理论与实践 统计描述-集中趋势 数据科学导论 ▪ 描述一组观察值集中位置或平均水平的统计指标 ▪ 常用统计量: • 平均值,几何均数,中位数,百分位数 图3
统计描述-离散趋势 数据科学导论 离散趋势描述观察之期间的变异程度或偏离集中位置的程度。 常用统计量: ·极差,方差,标准差,四分位数间距,变异系数等 200 80 160 =0.5 140 四 万=1.0 80 1.5 0 第天 第2天 第天 第天 第5天 图4
数据科学理论与实践 统计描述-离散趋势 数据科学导论 ▪ 离散趋势描述观察之期间的变异程度或偏离集中位置的程度。 ▪ 常用统计量: • 极差,方差,标准差,四分位数间距,变异系数等