、基于散点图观察数据关联性 >3、补充说明—3D散点图 ◆命令 ◆图形—旧对话框—散点图 ◆设置 °3-D分布 。设置轴变量、Y轴变量、Z轴变量 ◆观察效果
二、基于散点图观察数据关联性 ➢ 3、补充说明——3D散点图 ◆命令 ◆图形——旧对话框——散点图 ◆设置 3-D分布 设置X轴变量、Y轴变量、Z轴变量 ◆观察效果
、数据的相关性分析 >1、数据相关性判定的基本概念 ◆基本概念 相关系数: 。是变量间相关程度的量化统计量,用r表示。相关系数没有 单位,其值在-1~+1之间。 正相关: 两变量变化方向相同相关系数为正 负相关: 两变量变化方向相反,相关系数为负。 零相关(不相关): 两变量相互独立,相关系数为0
三、数据的相关性分析 ➢ 1、数据相关性判定的基本概念 ◆基本概念 相关系数: 是变量间相关程度的量化统计量,用r表示。相关系数没有 单位,其值在-1~+1之间。 正相关: 两变量变化方向相同,相关系数为正。 负相关: 两变量变化方向相反,相关系数为负。 零相关(不相关): 两变量相互独立,相关系数为0
、数据的相关性分析 ◆存在的问题 相关系数有一明显的缺点 接近1的程度与样本数n有关: 当n较小时,相关系数波动较大,容易接近1 而n较大时,相关系数绝对值容易偏小。 因此判断相关仅凭相关系数是不够的。 个别序列中,奇异值会对相关系数产生较大的影响 ◆对相关性判定的补充说明—检验概率 。检验概率用于判定相关性存在的可能性,即概率。 P<=005,则表示存在相关性 P>0.05,表示不存在相关性。 相关系数可用于描述存在相关性的程度
三、数据的相关性分析 ◆存在的问题 相关系数有一明显的缺点: 接近1的程度与样本数n有关: 当n较小时,相关系数波动较大,容易接近1; 而n较大时,相关系数绝对值容易偏小。 因此判断相关仅凭相关系数是不够的。 个别序列中,奇异值会对相关系数产生较大的影响 ◆对相关性判定的补充说明——检验概率 检验概率用于判定相关性存在的可能性,即概率。 P<=0.05,则表示存在相关性 P>0.05,表示不存在相关性。 相关系数可用于描述存在相关性的程度
、数据的相关性分析 ◆强调说明: 数据之间存在相关性,只能说明两个数据列之间有一致(或 相反)的分布关系,不能说明二者存在因果关系。 。数据之间存在相关性,不能说明二者何为因、何为果。对于 二者的因果,需要借助数据分析的语义。 相关性 语文1 吾文 语文1 Pearson相关性 显蓍性(双側 139 139 语文2 Pearson相关性 909 星蓍性(双側 139 139 在01水平(双侧)上显著相关
三、数据的相关性分析 ◆强调说明: 数据之间存在相关性,只能说明两个数据列之间有一致(或 相反)的分布关系,不能说明二者存在因果关系。 数据之间存在相关性,不能说明二者何为因、何为果。对于 二者的因果,需要借助数据分析的语义
、数据的相关性分析 >2、四种基本的相关性分析技术 ◆(1) Pearson相关 。适应性 对定距数据或中高测度定序数据 。数据满足正态分布 基本思路 积差相关系数 。直接利用原始数据进行差积的计算,判断相关性水平
三、数据的相关性分析 ➢ 2、四种基本的相关性分析技术 ◆(1)Pearson相关 适应性 对定距数据或中高测度定序数据 数据满足正态分布 基本思路 积差相关系数 直接利用原始数据进行差积的计算,判断相关性水平