2 つの標本の分散(不偏分散) が異なっているとき、その違いが偶然に生じうる程度のものであるか、あるいは偶然に生ずるとはいえない程度のものであるかはどのように判断すべきか?
分散比
分散の比較はその値で行ってもいいが、統計学では2 つの分散の比の大きさ、分散比
を利用する。ポイントは「1 つの母集団から抽出された2 つの標本の分散比はどのように分布するか」、すなわち分散比F は偶然によってどのような分布となるかという点にある。
分布
同じ母集団から2 つの標本を抽出した場合、その標本間の分散比
は
分布に従う。
分布は、分散比を計算するときに分子にした標本の自由度、分母にした標本の自由度という2 つの情報によって決定される。分子の自由度は第一自由度、分母の自由度は第二自由度と呼ばれることが多い。
分布表
多くの統計学の教科書に付録として付いている
分布表は、「それ以上の分散比が出現する確率が○○%となる
の値」が2つの自由度の組み合わせと対応させてまとめてある。○○の部分は5や1(片側検定用) のほか、2.5 や0.5(両側検定用) の場合もある。
分布表には片側の
値しか書いてない片側検定も両側検定もF 値は1 つしか書いていない。これは2つの標本の分散のうち小さいものを分母に、大きいものを分子にとると約束すると、
値は必ず1より大きくなるためである。
分子分母を勝手に入れ替えてもいいの?
例えば第一自由度2、第二自由度1の
分布での上側5% 点(=それ以上の
値が出現する確率が5%となる点) は200である。これの分母分子を入れ替え、第一自由度1、第二自由度2の下側5%点(=それ以下の
値が出現する確率が5%となる点) を計算すると、0.005、つまり1/200 となる。つまり、
が200 以上となる確率と、
が1/200 以下となる確率は等しく、分散の大きい方を分母にして「
値がより大きくなる確率」に注目しようが、分散の小さいほうを分母にして「
値がより小さくなる確率」に注目しようが結果は変わらないということである。
分布表なんか引いた覚えがないんだけど?
現在ではコンピュータを用いてF 分布の密度関数は簡単に計算できる。つまり、第一自由度、第二自由度、
値の3 つの情報を与えれば、「その
値より大きな
値が出る確率はいくらなのか?」という情報が即座に得られる。「その
値より小さな
値が出る確率はいくらなのか?」についても同様である。よって、現在ならば
分布を引く必要はおろか、大きな分散を分母に持ってくるといった細工すら不要となっている。
計算例:A社、B社の分散比較
A社の分散:500
B社の分散:116.6
A社の自由度:4
B社の自由度:3
ここから2 種類のF 値が計算できる。
(
,
はそれぞれA 社とB 社の不偏分散)
ここから2 種類の「確率」が計算できる。
第一自由度4、第二自由度3 の
分布で、4.29 より小さい
値が出る確率。
ここで1-0.87=0.13 は「4.29より大きい
値が出る確率」を意味する。
第一自由度3、第二自由度2 の
分布で、0.23 より小さい
値が出る確率。
ここで2 つの「確率」が意味するものは同じである。すなわち、「観測された
値より“離れた”F値が観測される確率が0.13 である」ということである。
最終更新:2008年08月19日 13:14