相关系数r的计算公式是什么?

2022-09-25 19:30:13 发布:网友投稿
热度:148

01

相干系数定义式为:若Y=a+bX,则有:令E(X) = μ,D(X) = σ,则E(Y) = bμ + a,D(Y) = bσ,E(XY) = E(aX + bX) = aμ + b(σ + μ),Cov(X,Y) = E(XY) − E(X)E(Y) = bσ。

相干系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研讨变量之间线性相干水平的量,一般用字母r表现。由于研讨对象的不同,相干系数有多种定义方法,较为常用的是皮尔逊相干系数。相干系数定义式为:若Y=a+bX,则有:令E(X) = μ,D(X) = σ,则E(Y) = bμ + a,D(Y) = bσ,E(XY) = E(aX + bX) = aμ + b(σ + μ),Cov(X,Y) = E(XY) − E(X)E(Y) = bσ。

相干表和相干图可反应两个变量之间的相互关系及其相干方向,但无法确实地表明两个变量之间相干的水平。相干系数是用以反应变量之间相干关系亲密水平的统计指标。相干系数是按积差办法盘算,同样以两变量与各自平均值的离差为基本,通过两个离差相乘来反应两变量之间相干水平;侧重研讨线性的单相干系数。须要解释的是,皮尔逊相干系数并不是唯一的相干系数,但是最常见的相干系数。

根据相干现象之间的不同特点,其统计指标的名称有所不同。如将反应两变量间线性相干关系的统计指标称为相干系数(相干系数的平方称为判定系数);将反应两变量间曲线相干关系的统计指标称为非线性相干系数、非线性判定系数;将反应多元线性相干关系的统计指标称为复相干系数、复判定系数等。

相干关系是一种非肯定性的关系,相干系数是研讨变量之间线性相干水平的量。须要指出的是,相干系数有一个显著的缺陷,即它接近于1的水平与数据组数n相干,这容易给人一种假象。因为,当n较小时,相干系数的波动较大,对有些样原形关系数的绝对值易接近于1﹔当n较大时,相干系数的绝对值容易偏小。特殊是当n=2时,相干系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相干系数较大就判定变量x与y之间有亲密的线性关系是不妥善的。

下一篇:生日是按农历还是阳历?
上一篇:霜降时节,邂逅最美的霜降诗词