標本 (統計学)
統計学における標本(ひょうほん、英: sample)とは、母集団の部分集合を言う。推測統計学においては、標本と母集団は明確に区別される[注釈 1]。 概要母集団を完全に調査するのは不可能な場合、標本から母集団の特性を推定する必要がある。この標本抽出には作為抽出法と無作為抽出法の2つの抽出方法がある。統計学では無作為抽出法だけを議論するわけではない。無作為抽出法では、母集団のどの要素も等しい確率で標本に選ぶことが必要である。しかし、実際に母集団がわかっていない状態で、抽出した方法が無作為であることを保証できない。そのため、理想的には無作為抽出を仮定するものの、抽出方法の妥当性を確認する必要があり、統計学の対象を無作為抽出に限定することは不可能である。 また統計学的推定(標本から母集団の性質を推定する)を行うには、各標本に対し、それを選抜する確率を知る必要がある。このために様々な標本抽出法が開発されている。例えば異なる標本を選抜する確率がすべて同じならば、その抽出法を単純ランダム(無作為)抽出という。 日本工業規格では、標本(sample)を一つ以上の抽出単位からなる母集団の部分集合と定義している[1]。 母集団を表現する数値を母数というのに対し、標本を表現する数値を統計量という。統計量は標本から算出できる数値である。また統計量で特に母数を推定するために用いるものを推定量という。 形式的定義母集団分布を F とするとき、母集団から抽出された(無作為)標本 (random sample) とは分布 F に従う独立同分布確率変数列 x1, x2, ..., xn のことである。この確率変数列の長さn を標本のサイズ(サンプルサイズ)という。とりうる標本の全体が成す集合 Ω, 確率を定めうる集合の全体 M (⊂ 2^Ω), 分布を表す確率測度 P からなる確率空間 (Ω, M, P) を標本空間という。 例えば母集団の分布 F が母平均 E[X] = m, 母分散 V[X] = σ2 を持つならば、標本 x1, x2, ... は i を任意の番号として平均 E[xi] = m, 分散 V[xi] = σ2 を満たす。 標本から適当な操作を行って新たに作り出される確率変数を統計量と呼ぶ。統計量は(同じ量でも)標本の採り方に依存して定まり、一般に母集団の分布とは異なる分布に従う。統計量の従う分布を標本分布と呼ぶ。 例えば標本 x = (x1, x2, ..., xn) に対し、その平均 を取る操作を考えるとき、x の標本 x の取り方をさまざまに考えるものとして得られる確率変数は統計量である。この統計量は標本平均と呼ばれ、X などで表す。母集団の分布 F が母平均 E[X] = m, 母分散 V[X] = σ2 を持つならば、標本平均 X の従う標本分布について、平均 E[X] = m, 分散 V[X] = σ2/n を得る。 注釈出典
参考文献
関連項目 |