did

自变量间存在线性相关关系

是出现了多重共线性,需要消除共线性问题。

在进行线性回归分析时,自变量即解释变量很容易出现共线性问题。当出现共线性问题时,可能导致回归系数的符号与实际情况完全相反,本应该显著的自变量不显著,本不显著的自变量却呈现出显著性;共线性问题

会导致数据研究出来严重偏差甚至完全相反的结论,因而需要解决此问题。


1 共线性出现的原因
多重共线性问题就是说一个解释变量的变化引起另一个解释变量地变化。如果各个自变量x之间有很强的线性关系,就无法固定其他变量了,就找不到x和y之间真实的关系了。
通俗地讲共线性是指,自变量X(解释变量)影响因变量Y(被解释变量)的时候,多个X之间本身就存在很强的相关关系,即X之间有着比较强的替代性,因而导致共线性问题。


2 多重共线性的检验
回归分析时,直接查看VIF值,如果全部小于10(严格是5),则说明模型没有多重共线性问题,模型构建良好;反之若VIF大于10说明模型构建较差。
也可以直接做相关分析,如果某两个自变量X(解释变量)的相关系数值

大于0.7,也有可能出现很强的共线性问题。


3 解决方法
共线性问题共有以下五种解决办法。

图片来源:SPSSAU

4 处理原则
1.多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施,如果VIF值大于10说明共线性很严重,这种情况需要处理,如果VIF值在5以下不需要处理,如果VIF介于5~10之间视情况而定。
2.严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。如影响系数符号

,重要的解释变量t值很低。要根据不同情况采取必要措施。
3.如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果。


5 案例分析
上述说明中,岭回归是处理共线性问题最优的解释办法。下面以一个案例来讲述岭回归的具体分析处理,数据分析工具为SPSSAU。

岭回归通过引入k个单位阵,使得回归系数可估计;单位阵引入会导致信息丢失,但同时可换来回归模型的合理估计。
针对岭回归:其研究步骤共为2步,分别是结合岭迹图

寻找最佳K值;输入K值进行回归建模
第一步:岭回归分析前需要结合岭迹图确认K值;K值的选择原则是各个自变量的标准化回归系数趋于稳定时的最小K值。K值越小则偏差越小,K值为0时则为普通线性OLS回归;SPSSAU提供K值智能建议,也可通过主观识别判断选择K值;
第二步:对于K值,其越小越好,通常建议小于1;确定好K值后,即可主动输入K值,得出岭回归模型估计。

  • 岭回归分析案例

1、背景
现测得胎儿身高、头围、体重和胎儿受精周龄数据,希望建立胎儿身高、头围、体重去和胎儿受精周龄间的回归模型。根据医学常识情况(同时结合普通线性最小二乘法OLS回归测量),发现三个自变量之间有着很强的共线性,VIF值高于200;因为很明显的可知,胎儿身高、体重之间肯定有着很强的正相关关系。因而此类数据有着很强的共线性,不能使用常见的最小二乘法OLS回归分析。需要使用岭回归模型


2、操作

图片来源:SPSSAU

使用SPSSAU进行岭回归研究时:首先不输入K值,则得到岭迹图用于判断最佳K值(SPSSAU也会智能建议最佳K值);得到最佳K值后,输入具体值,最终SPSSAU会输出模型结果。


3、SPSSAU 输出结果

图片来源:SPSSAU

岭迹图描述不同K值时,自变量进行岭回归时标准化回归系数的变化情况。如果说标准化回归系数

趋于稳定,此时对应的最小K值,即为最佳K值。此过程的判断带有一定的主观性,比如上图中,K值看上去选择为0.1,也或者0.05均可。建议以更小的K值作为标准(K值越小对于模型无偏性带来的影响越小);同时,可直接使用SPSSAU提供的建议最佳K值。


本案例中SPSSAU建议最佳K值为0.01,因而重新进行分析时输入0.01,得到最终岭回归模型

结果如下表:

图片来源:SPSSAU

4、文字分析
具体文字分析例子如下:
本次研究胎儿身高、头围、体重对于胎儿受精周龄数据的影响;使用线性回归分析时发现VIF值出现大于200,即存在着严重的共线性问题。因而使用性能更好的岭回归模型进行研究。岭回归模型研究共分为两步,第一步是通过岭迹图识别最佳K值;第二步是利用确定好的最佳K值进行建立模型,得到最终模型。使用SPSSAU进行研究时,SPSSAU建议使用最佳K值为0.01,而且对比岭迹图判断可知,K值从0.01逐步增大时,自变量的标准化回归系数趋于稳定,因而最终K值取为0.01,最终得到岭回归模型。
将身长(cm), 头围(cm), 体重(g)作为自变量,而将胎儿受精周龄作为因变量进行Ridge回归(岭回归)分析,K值取为0.010,模型R平方值为0.959,意味着身长(cm), 头围(cm), 体重(g)可以解释胎儿受精周龄的95.9%变化原因。对模型进行F检验时发现模型通过F检验(F=139.084,P <0.05),也即说明身长(cm), 头围(cm), 体重(g)中至少一项会对胎儿受精周龄产生影响关系。
模型公式为:胎儿受精周龄=9.994 + 0.430*身长(cm)-0.284*头围(cm) + 0.007*体重(g)。身长(cm)的回归系数值为0.430,P值为0.001,小于0.01,意味着身长(cm)会对胎儿受精周龄产生显著的正向影响关系。头围(cm)的回归系数值为-0.284,P值为0.076,大于0.05,意味着头围(cm)并不会对胎儿受精周龄产生影响关系。体重(g)的回归系数值为0.007,P值为0.000,小于0.01,意味着体重(g)会对胎儿受精周龄产生显著的正向影响关系。
总结分析可知:身长(cm), 体重(g)会对胎儿受精周龄产生显著的正向影响关系。但是头围(cm)并不会对胎儿受精周龄产生影响关系。
5、剖析
岭回归分析需要特别注意两点,分别是共线性判断和分析步骤。
是否呈现出共线性,一定需要有理有据,比如VIF值过高,也或者自变量之间的相关关系过高(比如大于0.6);如果数据并没有共线性,依旧建议使用普通线性最小二乘法

回归。
岭回归建模共分为两步,分别是寻找最佳K值和建模。岭迹图中,如果过了某点时趋于稳定,则该点对应的K值为最佳K值,以及K值是越小越好。


补充资料参考
因子分析:SPSSAU-SPSS因子分析
逐步回归:SPSSAU-逐步回归分析
相关分析:SPSSAU-SPSS相关分析
回归分析:SPSSAU-SPSS回归分析
岭回归:SPSSAU-岭回归分析
Lasso回归:SPSSAU-Lasso回归分析

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注