1.多重共線性的概念
所謂多重共線性(Multicollinearity)是指線性回歸模型中的解釋變量之間由於存在精確相關關係或高度相關關係而使模型估計失真或難以估計準確。一般來說,由於經濟數據的限制使得模型設計不當,導致設計矩陣中解釋變量間存在普遍的相關關係。
完全共線性的情況並不多見,一般出現的是在一定程度上的共線性,即近似共線性。2.多重共線性產生的原因
主要有3各方面:
(1)經濟變量相關的共同趨勢
(2)滯後變量的引入
(3)樣本資料的限制
3.多重共線性的影響
(1)完全共線性下參數估計量不存在
(2)近似共線性下OLS估計量非有效
多重共線性使參數估計值的方差增大,1/(1-r2)為方差膨脹因子(Variance Inflation Factor, VIF)
(3)參數估計量經濟含義不合理
(4)變量的顯著性檢驗失去意義,可能將重要的解釋變量排除在模型之外
(5)模型的預測功能失效。變大的方差容易使區間預測的“區間”變大,使預測失去意義。
需要注意:即使出現較高程度的多重共線性,OLS估計量仍具有線性性等良好的統計性質。但是OLS法在統計推斷上無法給出真正有用的信息。
4.實際操作中判斷共線性的方法
如圖,是對德國人口老齡化情況的分析,其中y是老齡化情況,線性回歸的x1、x2、x3分別為人均國內生產總值、出生率、每個醫生平均負擔人口數。
判斷方法1:特徵值,存在維度為3和4的值約等於0,說明存在比較嚴重的共線性。
判斷方法2:條件索引列第3第4列大於10,可以說明存在比較嚴重的共線性。
判斷方法3:比例方差內存在接近1的數(0.99),可以說明存在較嚴重的共線性。
5.多重共線性的解決方法
(1)排除引起共線性的變量
找出引起多重共線性的解釋變量,將它排除出去,以逐步回歸法得到最廣泛的應用。
(2)差分法
時間序列數據、線性模型:將原模型變換為差分模型。
(3)減小參數估計量的方差:嶺回歸法(Ridge Regression)。
|