相关性分析
00 分钟
2023-9-12

皮尔逊(Person)相关系数:

皮尔逊相关系数是用来衡量两个变量之间线性关系的强度和方向的统计量。
适用情况:
  1. 变量之间的关系是线性的:皮尔森相关系数基于线性关系的假设,适用于线性关系较强的变量之间的相关分析。若变量之间的关系非线性,皮尔森相关系数可能无法准确反映它们之间的关系。
  1. 变量满足正态分布或近似正态分布:皮尔森相关系数的计算基于变量的正态分布或近似正态分布的假设。如果变量的分布不满足这一要求,可能会导致皮尔森相关系数的结果不准确。
  1. 变量是连续的:皮尔森相关系数适用于两个连续变量之间的相关分析,而不适用于分类变量或顺序变量之间的相关性。
  1. 变量之间的关系是线性且没有缺失值:皮尔森相关系数假设变量之间的关系是线性的,且需要两个变量都没有缺失值。如果变量之间的关系不是线性的,或者存在缺失值,可能会影响皮尔森相关系数的准确性。
 
notion image
 
notion image
样本皮尔逊相关系数:
notion image
 
notion image
皮尔逊相关性系数受异常值影响大。
notion image
 
notion image
先画散点图判断是否大致有线性相关关系,再决定是否计算Person相关系数。
 

斯皮尔曼秩相关系数

斯皮尔曼相关系数是一种非参数的相关性分析方法,用于衡量两个变量之间的单调关系的强度和方向。与皮尔逊相关系数不同,斯皮尔曼相关系数不要求变量满足正态分布的假设,也不要求变量之间的关系是线性的。
适用情况:
  1. 变量之间的关系是单调的:斯皮尔曼相关系数基于单调关系的假设,适用于变量之间的关系是单调的,无论是正向单调还是负向单调。它不限制关系的形式,可以捕捉到线性和非线性的单调关系。
  1. 变量不满足正态分布:斯皮尔曼相关系数不要求变量满足正态分布的假设,因此适用于非正态分布的数据。
  1. 变量是连续的或有序的:斯皮尔曼相关系数适用于连续变量或有序变量之间的相关分析。它可以用于衡量两个连续变量之间的关系,也可以用于衡量一个连续变量和一个有序变量之间的关系。
  1. 变量之间的关系是单调且没有缺失值:斯皮尔曼相关系数基于单调关系的假设,且需要两个变量都没有缺失值。如果变量之间的关系不是单调的,或者存在缺失值,可能会影响斯皮尔曼相关系数的准确性。
注:斯皮尔曼相关性系数对数据的异常值敏感度不是很强。斯皮尔曼相关性系数更常用于类别较少的定序数据。
notion image
对于定量数据与定序数据之间的相关性系数计算先将定量数据转化为定序数据。
 

肯德尔相关系数

肯德尔相关系数(Kendall's rank correlation coefficient)是一种非参数的相关性分析方法,用于衡量两个变量之间的顺序关系的一致性。它衡量的是两个变量之间的符号一致性,即变量的顺序排列是否一致,而不考虑具体的数值差异。
适用情况:
  1. 变量是有序的:肯德尔相关系数适用于有序变量之间的相关分析。它适用于衡量两个有序变量之间的顺序关系的一致性。
  1. 变量不满足正态分布:与斯皮尔曼相关系数类似,肯德尔相关系数也不需要变量满足正态分布的假设。
  1. 变量之间的关系是单调且没有缺失值:肯德尔相关系数基于顺序关系的一致性假设,且需要两个变量都没有缺失值。如果变量之间的关系不是单调的,或者存在缺失值,可能会影响肯德尔相关系数的准确性。
肯德尔相关系数适用于衡量两个有序变量之间的顺序关系的一致性,且不对变量的分布做要求。根据数据的特点和需求,可以选择使用肯德尔相关系数或其他相关性分析方法。
当数据样本比较小,而且存在并列排位(tied ranks,比如说小明的历史成绩和英语成绩排名都是第8名)时,肯德尔相关系数是比斯皮尔曼相关系数更合适的一个相关性衡量指标。
 
 
 
 
 
 
 
 
 

评论
Loading...