フィッシャーの正確確率検定(フィッシャーのせいかくかくりつけんてい、英: Fisher's exact test)は、標本の大きさが小さい場合に、2つのカテゴリーに分類されたデータの分析に用いられる統計学的検定法である[1][2][3]。フィッシャーの直接確率検定ともいう。名称は考案者ロナルド・フィッシャーに因む。
2 x 2分割表(2つの集団が2カテゴリーに分類されたデータを扱う場合、自由度は1)の2変数の間に統計学的に有意な関連があるかどうかを検討するのに用いられる。1 x 2分割表の場合もある。同じ状況で標本の大きさが大きい場合には統計量の標本分布が近似的にカイ二乗分布に等しくなるのでカイ二乗検定が用いられるが、標本の大きさが小さい(分割表のセルの期待値に10未満のものがある)場合や、表中の数値の偏りが大きい場合にはこの近似は不正確である。この場合には正確確率検定が文字通り正確である。標本の大きさが大きい場合や、数値の偏りが小さい場合(差がなさそうに見える場合)には計算が難しいが、このようなときはカイ二乗検定が利用可能である。
以下に、2 x 2分割表での分析例を示す:
男および女の集団を、現在ダイエットしている人としていない人に分ける。たぶん女のほうが男よりダイエット中の人の割合が多いだろうと仮説を立て、その割合に有意差がある(性別とダイエット中かどうかとに関連がある)かどうかを検定する。データは次の2 x 2分割表で表される:
|
男
|
女
|
全
|
ダイエット中
|
1 |
9 |
10
|
非ダイエット
|
11 |
3 |
14
|
合計
|
12 |
12 |
24
|
このデータは、全てのセルの期待値が10未満であるため、カイ二乗検定には向いていない。分割表を一般的な形に書き直す。各セルをa、b、c、d と表示し、各行・各列の小計をそれらの和で、また総計をn で表すと次のようになる:
|
男
|
女
|
全
|
ダイエット中
|
a |
b |
a+b
|
非ダイエット
|
c |
d |
c+d
|
合計
|
a+c |
b+d |
n
|
フィッシャーは、このような数値の組み合わせが得られる確率p が次のような超幾何分布で表されることを示した:
ここで記号! は階乗を表す。また、各小計および総計n を一定とすればb、c、d はいずれもa から求められるので、自由度は1である。
この式は、「母集団における男と女それぞれのダイエット中・非ダイエットの人数の割合は等しい」という帰無仮説の下で、この特定の数値の組み合わせが得られる正確な確率を与える。しかしこの確率は普通の仮説検定で有意差を表す「p値」とは違い、p値を求めるには(普通の検定と同じように)実際の観測データよりも極端な場合も含めて考えなければならない。フィッシャーは、そのためには小計が観測値と同じになるような場合だけを考慮すればよいことを示した。今の例では、その考慮に入れるべき場合は次の1つ(男はだれもダイエットしていない)だけである:
|
男
|
女
|
全
|
ダイエット中
|
0 |
10 |
10
|
非ダイエット
|
12 |
2 |
14
|
合計
|
12 |
12 |
24
|
観測データの有意性(つまり、帰無仮説が正しい場合に同じデータもしくはもっと極端なデータが得られる総確率)を計算するためには、これらの分割表全てから確率を求めてその総和をとる必要がある。上の例ではp値は0.0014である。
なお、以上はある一方に偏った場合だけを考慮する(女性のダイエット率の方が高いのかどうかを調べる)片側検定であるが、両方への偏りを考慮する(男性のダイエット率の方が高い場合もありうるとして考える)両側検定を行うためには、以上に示したのと反対向きに極端な場合の表も考慮する必要がある。多くの統計検定とは違い、両側検定でのp値は片側検定でのそれの2倍になるとは限らない。
正確確率検定の計算には時間がかかり、コンピュータを用いる場合でも注意が必要である。これは式が階乗を含み、また標本の大きさが大きくなると観測データより極端な場合の数が爆発的に増加してしまうからである。計算には市販の数表を使うこともできるが、現在は統計パッケージでの計算も可能である(ただし数値の偏りが小さい場合など計算できないこともある)。
脚注
関連項目
外部リンク