統計学 において、多重共線性 (たじゅうきょうせんせい、英語 : Multicollinearity 、単に共線性とも略される)とは、重回帰モデル において、説明変数 の中に、相関係数 が高い組み合わせがあることをいう(例: 体重とBMI)。重回帰分析の際、説明変数を増やすほど決定係数 が高くなりやすいために、より多くの説明変数を入れ、多重共線性を起こす可能性がある[ 1] 。このような状況では、モデルやデータの小さな変化に応じて、重回帰の係数推定値が不規則に変化しうる。多重共線性は、少なくともサンプルデータセット内では、全体としてのモデルの予測力または信頼性を低下させず、個々の予測変数に関する計算にのみ影響を与える。つまり、共線性予測変数を持つ多変量回帰モデルは、予測変数の全体がどれだけよく結果変数 を予測するかを示すことができるが、個々の予測変数に関する有効な結果、またはどの予測変数が不要かに関しては有効な結果を与えないことも考えられる。
なお、最小二乗法(OLS)などの回帰分析の前提条件を説明する際、「多重共線性がない」という表現は、完全な多重共線性がないこと、すなわち予測変数間に正確な(非確率的な)線形関係がないことを意味する。このような場合、計画行列
X
{\displaystyle X}
はフルランク に満たないため、モーメント行列(能率行列) (英語版 )
X
T
X
{\displaystyle X^{\mathsf {T}}X}
は可逆行列 にならない。このような状況では、一般的な線形モデル
y
=
X
β β -->
+
ϵ ϵ -->
{\displaystyle y=X\beta +\epsilon }
や、 最小二乗法(OLS)による推定量
β β -->
^ ^ -->
O
L
S
=
(
X
T
X
)
− − -->
1
X
T
y
{\displaystyle {\hat {\beta }}_{OLS}=(X^{\mathsf {T}}X)^{-1}X^{\mathsf {T}}y}
が存在しないことになる。
いずれにしても、多重共線性は計画行列の特性であって、基礎となる統計モデルの特性ではない。
定義
共線性 とは、2つの説明変数の間に直線的な関連性があることである。2つの変数の間に正確な線形関係 がある場合、2つの変数は完全に共線性を持っている。例えば、
X
1
{\displaystyle X_{1}}
と
X
2
{\displaystyle X_{2}}
は、すべての観測値 i について次のようになるようなパラメータ
λ λ -->
0
{\displaystyle \lambda _{0}}
と
λ λ -->
1
{\displaystyle \lambda _{1}}
が存在する場合、完全に共線性を持っていると言える。
X
2
i
=
λ λ -->
0
+
λ λ -->
1
X
1
i
{\displaystyle X_{2i}=\lambda _{0}+\lambda _{1}X_{1i}}
多重共線性 とは、重回帰モデル において、2つ以上の説明変数が高い線形関係にある状況を指す。例えば、上の式のように、2つの独立変数の相関が 1 または -1 に等しい場合、完全な多重共線性があると言える。実際には、データセットで完全な多重共線性に直面することはほとんどない。より一般的には、2つ以上の独立変数の間に近似的な線形関係がある場合に、多重共線性の問題が発生する。
多重共線性の説明図
数学的には、ある変数の間に1つ以上の厳密な線形関係が存在する場合、その変数の集合は完全な多重共線性を持つ。例えば、次のような場合である。
λ λ -->
0
+
λ λ -->
1
X
1
i
+
λ λ -->
2
X
2
i
+
⋯ ⋯ -->
+
λ λ -->
k
X
k
i
=
0
{\displaystyle \lambda _{0}+\lambda _{1}X_{1i}+\lambda _{2}X_{2i}+\cdots +\lambda _{k}X_{ki}=0}
ここで、
λ λ -->
k
{\displaystyle \lambda _{k}}
は定数であり、
X
k
i
{\displaystyle X_{ki}}
は k番目の説明変数に関する i番目の観測値である。重回帰方程式
Y
i
=
β β -->
0
+
β β -->
1
X
1
i
+
⋯ ⋯ -->
+
β β -->
k
X
k
i
+
ε ε -->
i
{\displaystyle Y_{i}=\beta _{0}+\beta _{1}X_{1i}+\cdots +\beta _{k}X_{ki}+\varepsilon _{i}}
のパラメータの推定値を得ようとする過程を調べることで、多重共線性に起因する一つの問題を探ることができる。
最小二乗法(OLS) による推定では、行列
X
T
X
{\displaystyle X^{T}X}
の逆行列を求めることになる。
ここで
X
=
[
1
X
11
⋯ ⋯ -->
X
k
1
⋮ ⋮ -->
⋮ ⋮ -->
⋮ ⋮ -->
1
X
1
N
⋯ ⋯ -->
X
k
N
]
{\displaystyle X={\begin{bmatrix}1&X_{11}&\cdots &X_{k1}\\\vdots &\vdots &&\vdots \\1&X_{1N}&\cdots &X_{kN}\end{bmatrix}}}
は、N×(k+1) 行列で、N は観測値の数、k は説明変数の数である(N は k+1 以上であることが必要)。独立変数の間に厳密な線形関係(完全な多重共線性)がある場合、X の列の少なくとも1つは他の列の線形結合であり、したがって、X の(つまり XT X の)ランク は k+1 より小さくなり、行列 XT X は可逆ではない。
完全な多重共線性は、不要な情報を含む生のデータセットを扱う際によく見られる。しかし、いったん冗長性(重複や余分さ)を特定して除去しても、研究対象のシステムに固有である相関関係が原因で、近似的な多重共線性を持つ変数が残ることがしばしばある。このような場合には、上の式が成り立つ代わりに、誤差項
v
i
{\displaystyle v_{i}}
を加えた形で式が成り立つ。
λ λ -->
0
+
λ λ -->
1
X
1
i
+
λ λ -->
2
X
2
i
+
⋯ ⋯ -->
+
λ λ -->
k
X
k
i
+
v
i
=
0
{\displaystyle \lambda _{0}+\lambda _{1}X_{1i}+\lambda _{2}X_{2i}+\cdots +\lambda _{k}X_{ki}+v_{i}=0}
この場合、変数の間に正確な線形関係はないが、
v
i
{\displaystyle v_{i}}
の分散が
λ λ -->
{\displaystyle \lambda }
の値のいくつかのセットに対して小さい場合は、変数
X
j
{\displaystyle X_{j}}
はほぼ完全な多重共線性を持っている。この場合、行列 XT X は逆行列 を持つものの、悪条件 である。そのため、コンピュータのアルゴリズム が近似的な逆行列を計算できるかどうかは不明である。また、計算できたとしても、計算された逆行列は、データのわずかな変化(丸め誤差 やサンプルされたデータポイントのわずかな変化の影響が大きくなるため)に非常に敏感で、非常に不正確であったり、サンプルに依存したりする可能性がある。
検出方法
モデルに多重共線性が存在する可能性を示す指標には以下のものがある。
予測変数 を追加または削除したときの推定回帰係数の大きな変化
多重回帰において影響を受ける変数の回帰係数が有意ではないが、それらの係数がすべてゼロであるという複合仮説(結合仮説)が棄却される(F検定 を使用)。
多変量回帰で特定の説明変数 の係数が有意でなくても、その説明変数に対する被説明変数の単回帰 でその係数がゼロから有意に異なる場合、この状況は多変量回帰における多重共線性を示している。
多重共線性の正式な検出許容値または分散拡大係数 (VIF)を提案している著者もいる。
t
o
l
e
r
a
n
c
e
=
1
− − -->
R
j
2
,
V
I
F
=
1
t
o
l
e
r
a
n
c
e
{\displaystyle \mathrm {tolerance} =1-R_{j}^{2},\quad \mathrm {VIF} ={\frac {1}{\mathrm {tolerance} }}}
ここで、
R
j
2
{\displaystyle R_{j}^{2}}
は、説明変数 j を他のすべての説明変数に回帰したときの決定係数 である。公差が 0.20 または 0.10 未満、および/または VIF が 5 または 10 以上であれば、多重共線性の問題があることを示している[ 2] 。
Farrar–Glauber 検定 : [ 3] 変数が直交していることがわかれば、多重共線性はない。変数が直交していなければ、少なくともある程度の多重共線性が存在していることになる。 C. Robert Wichers は、Farrar-Glauber偏相関検定は、与えられた偏相関が異なる多重共線性パターンに対応する可能性があるという点で、効果がないと主張している[ 4] 。Farrar-Glauber検定は、他の研究者からも批判されている[ 5] [ 6] 。
条件数検定 : 行列における悪条件 の標準的な尺度が条件数である。これは、行列の逆行列が有限精度の数値(標準的なコンピュータの単精度浮動小数点数 や倍精度浮動小数点数 )では数値的に不安定であることを示すものである。 元の行列の小さな変化に対して、計算された逆行列がどの程度敏感に反応するかを示す。条件数は、最大の固有値 を設計行列 の最小の固有値で割った値の平方根を求めることで計算される。条件数が30以上の場合、その回帰は深刻な多重共線性を持つ可能性がある。多重共線性はさらに、高い条件数に関連する2つ以上の変数が説明される分散の割合が高い場合に存在する。この方法の利点は、どの変数が問題の原因となっているかを示せることである[ 7] 。
データ摂動処理 [ 8] 多重共線性は、データにランダムなノイズを加えて何度も回帰を繰り返し、係数がどれだけ変化するかを見ることで検出できる。
説明変数間の相関行列を作成すると、右辺の変数の組み合わせが多重共線性の問題を引き起こしている可能性を示すことができる。 相関値(非対角要素)が 0.4 以上であれば、多重共線性の問題があると解釈されることがある。しかしこの方法は非常に問題が多く、推奨されない。直感的に表現するなら、相関は二変数の関係を表すのに対し、共線性は多変数の現象である。
結果
高度な多重共線性の結果として、たとえ行列
X
⊤ ⊤ -->
X
{\displaystyle X^{\top }X}
が可逆行列であっても、コンピュータ・アルゴリズムで近似逆行列を得られないかもしれない。また、逆行列を得たとしても数値的には不正確かもしれない。しかし、正確な
X
⊤ ⊤ -->
X
{\displaystyle X^{\top }X}
行列がある場合でも、次のような結果が生じる。
多重共線性がある場合、他の変数をコントロールしながら、ある変数の従属変数
Y
{\displaystyle Y}
への影響を推定することは、予測変数が互いに無相関の場合よりも精度が低くなる傾向がある。回帰係数の通常の解釈は、他の変数を一定に保ったまま、独立変数
X
1
{\displaystyle X_{1}}
を 1単位変化させたときの効果の推定値を提供するというものである。与えられたデータセットにおいて、
X
1
{\displaystyle X_{1}}
が別の独立変数
X
2
{\displaystyle X_{2}}
と高い相関がある場合、
X
1
{\displaystyle X_{1}}
と
X
2
{\displaystyle X_{2}}
が特定の線形確率的関係を持つ観測値の組を持っている。
X
1
{\displaystyle X_{1}}
のすべての変化が
X
2
{\displaystyle X_{2}}
の変化と独立であるような観測値の組はないので、
X
1
{\displaystyle X_{1}}
の独立した変化の効果の不正確な推定値を持っていることになる。
ある意味、共線的な変数は、従属変数に関する同じ情報を含んでいる。名目上「異なる」測定値が実際に同じ現象を定量化している場合、それらは冗長であると言える。あるいは、変数に異なる名前が付けられ、おそらく異なる数値測定尺度を使用しているが、互いに高い相関がある場合、それらは冗長性を持つことになる。
多重共線性の特徴の一つに、影響を受ける係数の標準誤差 が大きくなる傾向がある。この場合、係数がゼロであるという仮説の検定では、説明変数の効果がないという誤った帰無仮説 を棄却できず、第二種の過誤 となることがある。
多重共線性の別の問題は、入力データの小さな変化がモデルの大きな変化につながり、パラメータ推定値の符号が変わることもあるということである[ 7] 。
このようなデータの冗長性の主な危険性は、回帰分析 モデルにおけるオーバーフィッティング である。最良の回帰モデルは、予測変数がそれぞれ従属(結果)変数と高い相関を持つが、せいぜい互いに最小の相関しか持たないものである。このようなモデルは、しばしば「低ノイズ」と呼ばれ、統計的にロバスト である(つまり、同じ統計的母集団から抽出された変数セットの多数のサンプルにわたって信頼性の高い予測を行う)。
基本的な仕様が正しい限り、多重共線性は実際には結果を歪めることはなく、関連する独立変数に大きな標準誤差 が生じるだけである。さらに重要なことは、回帰の通常の使用法は、モデルから係数を取り出して、それを他のデータに適用することである。多重共線性によって係数値の推定値が不正確になるため、結果として得られるサンプル外の予測値も不正確になる。また、新しいデータの多重共線性のパターンが、当てはめられたデータのパターンと異なる場合、このような外挿は予測に大きな誤差をもたらす可能性がある[ 9] 。
対策
例えば春夏秋冬などのダミー変数 をすべてのカテゴリーに入れ、回帰に定数項を入れることで、完璧な多重共線性が保証される。
データの独立したサブセットを使って推定し、その推定値をデータセット全体に適用するとどうなるか試してみる。 理論的には、小さいデータセットを使って推定した方が、多少高い分散が得られるはずだが、係数値の期待値は同じになるはずである。 当然、観測された係数値は変化するが、その変化の大きさを見てみる。
多重共線性があってもモデルをそのままにしておく。予測変数が回帰モデルの基になったデータと同じ多重共線性のパターンを新しいデータでも取ることができれば、多重共線性の存在は、適合したモデルを新しいデータに外挿する効率に影響しない[ 10] 。
変数の一つを削除する。説明変数を削除することで、有意な係数を持つモデルを作成することができる。しかし、変数を落としたために情報は失われる。関連する変数を省略すると、脱落した変数と相関のある残りの説明変数の係数推定値に偏りが生じてしまう。
より多くのデータを取得する。可能であれば、これが望ましい解決策である。より多くのデータがあれば、より正確なパラメータ推定値(より低い標準誤差)を生み出すことができる。これは、回帰係数の推定値の分散をサンプルサイズと多重共線性の度合いで表す分散拡大係数 の式からも分かる。
予測変数を平均化する。多項式 の項(
x
1
{\displaystyle x_{1}}
、
x
1
2
{\displaystyle x_{1}^{2}}
、
x
1
3
{\displaystyle x_{1}^{3}}
など)や交互作用 の項(
x
1
× × -->
x
2
{\displaystyle x_{1}\times x_{2}}
など)を生成すると、問題の変数が限られた範囲(例えば、[2,4])にある場合、多重共線性を引き起こすことがある。一般的には何の効果も得られないが、平均化はこの特殊な多重共線性を解消する[ 11] 。慎重に設計されたコンピュータプログラムを使用しない場合は、丸め などの計算上のステップから生じる問題を克服するのに有効である。
独立変数を標準化する。 これにより、条件指数 が 30 を超えた場合の誤判定を減らせる可能性がある。
また、ゲーム理論 のツールであるシャプレー値 を用いることで、モデルが多重共線性の影響を説明できることが示唆されている。 シャプレー値は、各予測変数に値を割り当て、重要性のすべての可能な組み合わせを評価する[ 12] 。
リッジ回帰 や主成分回帰 (英語版 ) 、部分的最小二乗回帰 などが使用できる。
相関関係にある説明因子が、同じ基礎的説明因子の異なるラグ値である場合、推定されるべき係数の相対的な値に一般的な構造を課すことで、分布ラグ (英語版 ) 手法を用いることができる。
実例
生存率分析
多重共線性は、生存率の分析 において深刻な問題を表す可能性がある。時間的に変化する共変量が研究の経過とともにその値を変化させうるからである。多重共線性の結果への影響を評価するために特別な手順が推奨される[ 13] 。
満期までの期間が異なる場合の金利
様々な場面で、満期までの期間が異なる複数の金利が、貨幣やその他の金融資産 の保有量や固定投資 の支出量など、何らかの経済的意思決定 に影響を与えているという仮説が立てられることがある。この場合、金利は一緒に動く傾向があるので、これらの様々な金利を含めると、一般的には多重共線性の問題が大きくなる。 実際、各金利が従属変数に対して個別の効果を持っている場合、その効果を分離することは非常に困難である。
発展・拡張
「横方向の共線性(英: lateral collinearity )」という概念は、従来の多重共線性の考え方を発展させたもので、説明変数と基準変数(すなわち被説明変数)の間の共線性も含んでおり、これらは互いにほぼ同じものを測定している可能性があるという意味である[ 14] 。
関連項目
脚注
^ 井上俊夫, 岩崎祐一, 加藤剛, 熊倉隆二『わかりやすい薬学系の統計学入門』小林賢, 佐古兼一 編(第9版)、講談社 、2020年、106頁。ISBN 978-4-06-156312-4 。
^ O’Brien, R. M. (2007). “A Caution Regarding Rules of Thumb for Variance Inflation Factors”. Quality & Quantity 41 (5): 673–690. doi :10.1007/s11135-006-9018-6 .
^ Farrar, Donald E.; Glauber, Robert R. (1967). “Multicollinearity in Regression Analysis: The Problem Revisited” . Review of Economics and Statistics 49 (1): 92–107. doi :10.2307/1937887 . hdl :1721.1/48530 . JSTOR 1937887 . https://doi.org/10.2307/1937887 .
^ Wichers, C. Robert (1975). “The Detection of Multicollinearity: A Comment”. Review of Economics and Statistics 57 (3): 366–368. doi :10.2307/1923926 . JSTOR 1923926 .
^ Kumar, T. Krishna (1975). “Multicollinearity in Regression Analysis”. Review of Economics and Statistics 57 (3): 365–366. doi :10.2307/1923925 . JSTOR 1923925 .
^ O'Hagan, John; McCabe, Brendan (1975). “Tests for the Severity of Multicolinearity in Regression Analysis: A Comment”. Review of Economics and Statistics 57 (3): 368–370. doi :10.2307/1923927 . JSTOR 1923927 .
^ a b Belsley, David (1991). Conditioning Diagnostics: Collinearity and Weak Data in Regression . New York: Wiley. ISBN 978-0-471-52889-0 . https://archive.org/details/conditioningdiag0000bels
^ R言語 用のパッケージがある。:“perturb: Tools for evaluating collinearity ”. R Project . 2015年7月18日 13:55閲覧。
^ Chatterjee, S.; Hadi, A. S.; Price, B. (2000). Regression Analysis by Example (Third ed.). John Wiley and Sons. ISBN 978-0-471-31946-7 . https://archive.org/details/regressionanalys0000chat_q4i3
^ Gujarati, Damodar (2009). “Multicollinearity: what happens if the regressors are correlated?” . Basic Econometrics (4th ed.). McGraw−Hill. pp. 363 . https://archive.org/details/basiceconometric05edguja
^ “12.6 - Reducing Structural Multicollinearity |。STAT 501 ”. newonlinecourses.science.psu.edu . 2019年3月16日 閲覧。
^ Lipovestky; Conklin (2001). “Analysis of Regression in Game Theory Approach”. Applied Stochastic Models in Business and Industry 17 (4): 319–330. doi :10.1002/asmb.446 .
^ 詳細な議論についてはこちら:Van Den Poel, D.; Larivière, B. (2004). “Customer attrition analysis for financial services using proportional hazard models”. European Journal of Operational Research 157 : 196–217. doi :10.1016/S0377-2217(03)00069-9 .
^ Kock, N.; Lynn, G. S. (2012). “Lateral collinearity and misleading results in variance-based SEM: An illustration and recommendations” . Journal of the Association for Information Systems 13 (7): 546–580. doi :10.17705/1jais.00302 . http://www.scriptwarp.com/warppls/pubs/Kock_Lynn_2012.pdf .
参考文献
Belsley, David A.; Kuh, Edwin; Welsch, Roy E. (1980). Regression Diagnostics: Identifying Influential Data and Sources of Collinearity . New York: Wiley. ISBN 978-0-471-05856-4
Goldberger, Arthur S. (1991). “Multicollinearity” . A Course in Econometrics . Cambridge: Harvard University Press. pp. 245–53. ISBN 0674175441 . https://books.google.com/books?id=mHmxNGKRlQsC&pg=PA245
Hill, R. Carter; Adkins, Lee C. (2001). “Collinearity”. In Baltagi, Badi H.. A Companion to Theoretical Econometrics . Blackwell. pp. 256–278. doi :10.1002/9780470996249.ch13 . ISBN 978-0-631-21254-6
Johnston, John (1972). Econometric Methods (Second ed.). New York: McGraw-Hill. pp. 159 –168. ISBN 0070326797 . https://archive.org/details/econometricmetho0000john_t7q9
Kmenta, Jan (1986). Elements of Econometrics (Second ed.). New York: Macmillan. pp. 430–442 . ISBN 978-0-02-365070-3 . https://archive.org/details/elementsofeconom0003kmen/page/430
Maddala, G. S.; Lahiri, Kajal (2009). Introduction to Econometrics (Fourth ed.). Chichester: Wiley. pp. 279–312. ISBN 978-0-470-01512-4
Tomaschek, Fabian; Hendrix, Peter; Baayen, R. Harald (2018). “Strategies for addressing collinearity in multivariate linguistic data”. Journal of Phonetics 71 : 249-267. ISSN 0095-4470 .
関連文献
Frisch, Ragnar. Statistical confluence analysis by means of complete regression systems . p. 75. OCLC 3198916
:変数モデルの多重方程式誤差の観点からの多重共線性の研究であり、多重共線性という語の最古の使用例。Ragnar Frischが初めて"multiple collinearity"を縮めてmulticollinearity(多重共線性)と呼んだ。
Stone, Richard; Rowe, D. A.; [et al.] (1954). The Measurement of Consumers' Expenditure and Behaviour in the United Kingdom, 1920-1938 . 1 . The University Press. p. 302. OCLC 349656
:上記の変数モデルへの関心が薄れたとき、多重共線性という用語は意味を変えて生き残った。今では、回帰モデルの設計行列のランクが不足していることを意味している。この変化は多重共線性の議論(p.302)に見ることができる。
外部リンク