ランダム効果モデル (らんだむこうかもでる、random effects model、変量効果モデル、分散成分モデル variance componets model とも)は、統計学 において、モデルパラメータが確率変数 である統計モデル 。これはマルチレベルモデル の一種であり、分析対象のデータが異なる階層から抽出され、その違いが階層に関連していると仮定する。
計量経済学 では、固定効果を仮定しない(個人効果を許容する)場合に、パネルデータ分析 に用いられる。ランダム効果モデルは、混合モデル の特殊なケースである。
「固定」効果は母集団平均を、「ランダム」効果は被験者固有の効果を指す(後者は一般的に未知の潜在変数 )[ 1] [ 2] [ 3] [ 4] 。
定性的説明
ランダム効果モデルは、異質性が時間の経過とともに一定であり、独立変数と相関していない場合に、観測されない異質性をコントロールするのに役立つ。この定数は、差分を取ることによって縦断的データから取り除くことができる[ 5] 。
個々の効果については、ランダム効果の仮定と固定効果の仮定という2つの仮定を立てることができる。ランダム効果の仮定とは、個々の観測されない異質性が独立変数と相関していない というものである。固定効果の仮定は、個々の効果が独立変数と相関しているというものである[ 5] 。
ランダム効果の仮定が成立するとき、変量効果推定量は固定効果モデルよりも効率的である。
簡単な例
m
{\displaystyle m}
個の大きな小学校を無作為に選び、各学校で同学年の
n
{\displaystyle n}
人の生徒を無作為に選び、標準的な適性検査を行った場合を考える。
i
{\displaystyle i}
番目の学校の
j
{\displaystyle j}
番目の生徒の得点を
Y
i
,
j
{\displaystyle Y_{i,j}}
とすると、次のようにモデル化できる。
Y
i
,
j
=
μ
+
U
i
+
W
i
,
j
{\displaystyle Y_{i,j}=\mu +U_{i}+W_{i,j}}
ここで、
μ
{\displaystyle \mu }
は母集団全体の平均テストスコア。
このモデルでは、
U
i
{\displaystyle U_{i}}
は学校固有のランダム効果 である。
これは、学校
i
{\displaystyle i}
の平均スコアと全国の平均スコアの差に相当する。
W
i
,
j
{\displaystyle W_{i,j}}
の項は、個人固有の変量効果である。
つまり、
i
{\displaystyle i}
番目の学校の平均からの
j
{\displaystyle j}
番目の生徒のスコアの偏差である。
モデルは、群間差に関する追加の説明変数を含めることによって拡張できる。例えば
Y
i
,
j
=
μ
+
β
1
S
e
x
i
,
j
+
β
2
P
a
r
e
n
t
s
E
d
u
c
i
,
j
+
U
i
+
W
i
,
j
{\displaystyle Y_{i,j}=\mu +\beta _{1}\,\mathrm {Sex} _{i,j}+\beta _{2}\,\mathrm {ParentsEduc} _{i,j}+U_{i}+W_{i,j}}
ここで、
S
e
x
i
,
j
{\displaystyle \mathrm {Sex} _{i,j}}
は男の子/女の子のダミー変数、
P
a
r
e
n
t
s
E
d
u
c
i
,
j
{\displaystyle \mathrm {ParentsEduc} _{i,j}}
は、例えば子供の親の平均教育レベルを示す。
性と親の教育に固定効果の項を導入しているため、これは混合モデル であって、純粋なランダム効果モデルではない。
分散の構成要素
Y
i
,
j
{\displaystyle Y_{i,j}}
の分散は、
U
i
{\displaystyle U_{i}}
の分散
τ
2
{\displaystyle \tau ^{2}}
および
W
i
,
j
{\displaystyle W_{i,j}}
の分散
σ
2
{\displaystyle \sigma ^{2}}
の和に等しい。
Y
¯
i
,
∙
=
1
n
∑
j
=
1
n
Y
i
,
j
{\displaystyle {\overline {Y}}_{i,\bullet }={\frac {1}{n}}\sum _{j=1}^{n}Y_{i,j}}
を
i
{\displaystyle i}
番目の学校におけるスコアのうち無作為標本に含まれるものの平均値とすると、
Y
¯
∙
,
∙
=
1
m
n
∑
i
=
1
m
∑
j
=
1
n
Y
i
j
{\displaystyle {\overline {Y}}_{\bullet ,\bullet }={\frac {1}{mn}}\sum _{i=1}^{m}\sum _{j=1}^{n}Y_{ij}}
が総平均となる。
S
S
W
=
∑
i
=
1
m
∑
j
=
1
n
(
Y
i
,
j
−
Y
¯
i
,
∙
)
2
{\displaystyle \mathrm {SSW} =\sum _{i=1}^{m}\sum _{j=1}^{n}(Y_{i,j}-{\overline {Y}}_{i,\bullet })^{2}\,}
S
S
B
=
n
∑
i
=
1
m
(
Y
¯
i
,
∙
−
Y
¯
∙
,
∙
)
2
{\displaystyle \mathrm {SSB} =n\sum _{i=1}^{m}({\overline {Y}}_{i,\bullet }-{\overline {Y}}_{\bullet ,\bullet })^{2}}
群内差の二乗和(squares due to differences within groups, SSW)および群間差の二乗和(squared due to differences between groups, SSB)は上記の通りであり、次の式が示される。
1
m
(
n
−
1
)
E
(
S
S
W
)
=
σ
2
{\displaystyle {\frac {1}{m(n-1)}}\mathbb {E} (\mathrm {SSW} )=\sigma ^{2}}
1
(
m
−
1
)
n
E
(
S
S
B
)
=
σ
2
n
+
τ
2
{\displaystyle {\frac {1}{(m-1)n}}\mathbb {E} (\mathrm {SSB} )={\frac {\sigma ^{2}}{n}}+\tau ^{2}}
これらの二乗平均期待値 expected mean squares は、分散成分
σ
2
{\displaystyle \sigma ^{2}}
および
τ
2
{\displaystyle \tau ^{2}}
の推定に用いることができる。
τ
2
{\displaystyle \tau ^{2}}
はクラス内相関係数 intraclass correlation coefficient とも呼ばれる。
不偏性
一般に、ランダム効果は効率的 efficient であり、前提となる仮定が満たされている場合には、固定効果よりも望ましい。学校の例でランダム効果モデルが機能するためには、学校固有の効果がモデルの他の共変量と無相関である必要がある。固定効果モデルおよびランダム効果モデルを順に試行し、Durbin–Wu–Hausman 検定が棄却された場合は、ランダム効果にはバイアスがあるので、固定効果モデルを用いるべきである。
応用例
実際に使われているランダム効果モデルとして、保険契約のBühlmannモデルや、小地域推定に使用されるFay-Herriotモデルなどがある。
関連項目
参考文献
脚注
^ Diggle, Peter J.; Heagerty, Patrick; Liang, Kung-Yee; Zeger, Scott L. (2002). Analysis of Longitudinal Data (2nd ed.). Oxford University Press. pp. 169 –171. ISBN 0-19-852484-6 . https://archive.org/details/analysislongitud00digg_730
^ Fitzmaurice, Garrett M.; Laird, Nan M.; Ware, James H. (2004). Applied Longitudinal Analysis . Hoboken: John Wiley & Sons. pp. 326–328. ISBN 0-471-21487-6
^ Laird, Nan M.; Ware, James H. (1982). “Random-Effects Models for Longitudinal Data”. Biometrics 38 (4): 963–974. doi :10.2307/2529876 . JSTOR 2529876 .
^ Gardiner, Joseph C.; Luo, Zhehui; Roman, Lee Anne (2009). “Fixed effects, random effects and GEE: What are the differences?”. Statistics in Medicine 28 (2): 221–239. doi :10.1002/sim.3478 . PMID 19012297 .
^ a b Wooldridge, Jeffrey (2010). Econometric analysis of cross section and panel data (2nd ed.). Cambridge, Mass.: MIT Press. pp. 252. ISBN 9780262232586 . OCLC 627701062
外部リンク