二項分類(にこうぶんるい、英: Binary classification)は、オブジェクトの集合を個々のオブジェクトがある特定の属性を持つかどうかで2種類にグループ分けする分類作業である。二値分類(にちぶんるい)、2クラス分類とも呼ばれ、多クラス分類において分類先のクラス数が2の場合と考えることができる。
概要
二項分類が一般に使われる分野としては、以下のものが挙げられる。
- 臨床検査で患者が特定の疾病に罹患しているか否かで分類する(分類属性は疾病)。
- 工場での品質管理。すなわち、ある製品が出荷できる品質か、それとも捨てるべきかの判断(分類属性は品質)。
- あるページや記事を検索結果に含めるか否か。(分類属性はその記事の関連性、例えばある単語が含まれているかどうか)
分類は統計学の学問分野であり、計算機科学でも研究されており、特にデータを自動的に分類する学習システムの研究がある(機械学習)。典型的な二項分類器としては、決定木、ベイジアンネットワーク、サポートベクターマシン、ニューラルネットワークなどがある。
分類は時には単純な作業となる場合もある。例えば青いボールと赤いボールが合計で100個あったとき、これを分類するのは色覚が正常な人間なら、非常に簡単である。しかし、臨床検査の場合などは分類は簡単ではなく、間違う場合もある。計算機科学での興味もそのような難しい分類の自動化にある。
仮説検定
従来からの仮説検定では、検定者は帰無仮説と対立仮説を立てることから始め、実験を行い、帰無仮説を棄却して対立仮説を採用できるかどうかを判断する。
結果が有意であれば、帰無仮説は棄却される。帰無仮説が実際には真であるのにこれを行うことを「偽陽性; false positive」または第一種過誤と呼ぶ。逆に帰無仮説が偽である場合は、「真陽性; true positive」と呼ぶ。
有意でない結果の場合、帰無仮説を棄却できない。帰無仮説が実際には偽であるのに棄却しない場合を「偽陰性; false negative」または第二種過誤と呼ぶ。逆に帰無仮説が真である場合は、「真陰性; true negative」と呼ぶ。
二項分類器の評価
臨床検査の性能を測る場合、感度や特異度といった概念がよく使われる。これらの概念は任意の二項分類器の評価に利用可能である。ある人々が疾病に罹患しているかを検査すると仮定する。その集団の一部の人は罹患しており、彼らの検査結果は陽性であった。彼らは「真陽性」である。罹患しているのに検査結果が陰性だった人もいる。彼らは「偽陰性」である。また、罹患していない人で陰性だった人もいる。彼らは「真陰性」である。最後に、一部の健康な人の検査結果が陽性だった場合、それは「偽陽性」である。従って、真陽性、偽陰性、真陰性、偽陽性の率を合計すると 100% となる。
感度とは、陽性と判定されるべき人数(個体数)のうち、実際に陽性と判定された人数の割合である。すなわち、(真陽性)/(真陽性 + 偽陰性) である。つまり、「患者を陽性と判定する確率」である。感度が高ければ、患者を見逃すケースが減る。あるいは、工場での品質管理で言えば、問題のある製品が市場に出回る確率が減る。
特異度とは、陰性と判定されるべき人数(個体数)のうち、実際に陰性と判定された人数の割合である。すなわち、(真陰性)/(真陰性 + 偽陽性) である。感度と同様、これは「患者でない者を陰性と判定する確率」である。特異度が高ければ、健康な人を患者としてしまうケースが減る。あるいは、工場での品質管理で言えば、問題のない製品を捨てることが減って、損失が減ることになる。
感度と特異度の関係や分類器の性能は、受信者操作特性曲線を使って視覚化、研究できる。
理論上、感度と特異度は独立しており、共に100%を達成することも可能である(人間が青のボールと赤のボールを分類する場合がそれである)。実際、何らかのトレードオフがあって、両方を100%にできないことが多い。その原因は、陰性か陽性かを判定する属性が、赤と青のような明らかなものでないことが多いためである。一般に属性は0と1のような分かり易い値ではなく、ある範囲を陽性または陰性と判定することが多い。例えば、肥満度を調べるボディマス指数が典型的な例である。感度を高くしたい場合、しきい値を低く設定すれば、なるべく多くの人を肥満と判定する。つまり、真陽性の率が増え、偽陰性の率が減る。従って、感度は良くなる。ただし欠点として、偽陽性の率も高くなるため、正常な人が肥満と判定される確率が高くなり、結果として特異度が悪くなる。
感度と特異度に加えて、二項分類試験の性能の尺度として陽性予測値と陰性予測値がある。こちらの方が直観的に分かりやすい。陽性予測値は「ある人の検査結果が陽性だったとき、実際に罹患している確率」である。計算式は(真陽性)/(真陽性 + 偽陽性)となる。つまり、陽性となった結果のうち、真陽性が占める割合である。陰性予測値も同様に計算できる。
ただし、これらの違いを認識しておく必要がある。感度と特異度は、検査結果の陽性と陰性の割合には依存しないという意味で、個体群から独立している。実際、検査の感度を求めるのに必要なのは、実際には陽性と判定されるべきケースだけである。しかし、予測値の方は個体群に依存している。
例として、99% の感度と 99% の特異度の臨床検査があるとする。健康な1000人と罹患している1000人の合計2000人に対してこの検査を行う。検査結果は真陽性と真陰性がそれぞれ990人で、偽陽性と偽陰性がそれぞれ10人となるはずである。この場合の陽性予測値と陰性予測値は 99% となり、非常にわかりやすい。
しかし、2000人のうち罹患しているのが100人だった場合、真陽性が99人、偽陰性が1人、真陰性が1881人、偽陽性が19人となる。つまり、陽性と判定されるのは 99+19人で、このうち真陽性なのは 99人だけである。従って、陽性と言われた人が本当に罹患している確率は 84% でしかない。一方、陰性と言われた人は安心してよい。陰性といわれて実際には罹患している確率は(この場合)0.05% しかない。
参考
感度,特異度,陽性的中率,陰性的中率については,以下の表を参考にされたい.
関連項目