1. 誤った観察が身近にしばしばあるという話

独立性・相関といった話題の導入部分です。

以下レジメ

誤った調査から誤った結論を導き出すことは、日常の身近な観察の場合にしばしばみられる。

予防注射の効果

ある地区の保健所が、200人の住民について調査したところ、その中の80人が冬の間に流感*にかかったことがわかった。その80人のうち、予防注射を受けていたものは40人で、受けていなかったものも40人であった。受けたものも受けなかったものも同数であるということから、予防注射の効果はないと考えてよいか？
　　　　*流感：流行性感冒(インフルエンザ)

独立性の検定

流感にかかった人、かからなかった人双方について、予防注射の有無を調べると表55のようなデータが得られた。

	流感にかかった	流感にかからなかった	計
予防注射を受けた	40	100	40
予防注射を受けなかった	40	20	60
計	80	120	200

55. 独立性の検定(実際のデータ)

このような表は分割表と呼ばれ、この場合、流感のかかり方と注射の有無が各々2つのクラスにわけられているので、特に2×2の分割表と呼ぶこともある。
分割表をみると、流感にかかった人のうち、予防注射を受けた人と、受けない人が同数であっても、注射の効果が無いとはいえないことがわかる。

注射の効果があるということは、注射の有無と流感のかかりかたに関係があるということと同じである(＝注射と流感は独立ではない)。また、注射の効果がないということは、注射の有無と流感のかかり方が無関係だということである(＝注射と流感は独立である)。
したがって、注射の効果を確かめることは、注射と流感が独立かどうかを確かめることになる。つまり「注射と流感は独立である」という帰無仮説を立て、この仮説が捨てられるかどうかを検定すればよい。仮説が捨てられれば、注射の効果を認めることになる。この検定法を独立性の検定、または分割法による検定と呼ぶ。

独立性検定の考え方

「注射と流感は独立である」という帰無架設を立て、この仮説が正しいとすると、住民200人の調査の結果、どのようなデータが期待されるだろうか。
表55を見ると、流感にかかった人は200人中80人で、かからなかった人は120人である。そこで、予防注射の効果がない、つまり帰無仮説が正しいとすると、注射を受けた人も受けない人も同様に、この割合で流感にかかることが期待できる。
注射を受けた人は140人である。そこで、注射を受けて流感にかかった人の人数(期待度数)は、次のようになる。

$140\times\frac{80}{200}=56$ 人

また、注射を受けて流感にかからなかった人の人数は、

$140\times\frac{120}{200}=84$ 人

となる。一方、注射を受けずに流感にかかった人数は、

$60\times\frac{80}{200}=24$ 人

注射を受けなくて流感にかからなかった人数は、

$60\times\frac{120}{200}=36$ 人

であることが期待され、表56のような期待度数の表を得ることができる。

	流感にかかった	流感にかからなかった	計
予防注射を受けた	56	84	140
予防注射を受けなかった	24	36	60
計	80	120	200

56．独立性の検定(期待度数)

もし予防注射の効果が完全であるとすれば、注射を受けて流感にかかった人の数は0になるであろうから、表58のようになるはずである。

	流感にかかった	流感にかからなかった	計
予防注射を受けた	0	140	140
予防注射を受けなかった	40	20	60
計	40	160	200

58．注射の効果が完全なとき

この3つの表を比べると、注射の効果が大きければ大きいほど、表56に示した期待度数からの外れ方が大きくなることがわかる。
つまり、この外れ方の大きさによって、注射の効果を判定すればよいことになる。そのためには、まず、はずれ方の測度を作らねばならない。表55と表56から食い違いの測度を計算すると、

                 (期待値-実測値)^2
食い違いの測度＝ -----------------　の総和
                     期待値

$=\frac{(56-40)^2}{56}+\frac{(84-100)^2}{84}+\frac{(24-40)^2}{24}+\frac{(36-20)^2}{36}$

$=25.54$

という値が得られる。
この値は、仮説が正しいときには $\chi^2$ 分布する。そして、仮説が正しくないときほどその値が大きくなるという性質をもっているのであるから、 $\chi^2$ 分布での5%点の $\chi^2$ の値よりも大きな値を得たときには、仮説を捨てることにする。ただし、 $\chi^2$ 分布は自由度によって形が変わる。このときの自由度は以下のようになる。

(流感のクラスの数-1)×(注射のクラスの数-1)
=(2-1)(2-1)
=1

そこで、 $\chi^2$ 分布表を見て、自由度1の1%点を探すと6.63が得られる。このデータから計算した食い違いの測度は25.40であった。したがって、このように大きな $\chi^2$ の値が得られることは、仮説が正しいとすると1%以下の確率でしか起こらないことがわかる。よって、「注射と流感は独立である」という帰無仮説を捨て、注射の効果を認めることになる。

試料数が少なすぎるとき

$\chi^2$ の分布は連続な分布である。そのため、試料数が少ないときに $\chi^2$ 分布による独立性の検定を行うことは適当でない。しかし、流感にかかった人の数といったような度数から計算した食い違いの速度はもともと不連続な分布をするが、資料数をどんどん多くしていくと、連続な $\chi^2$ 分布に近づいていくので、 $\chi^2$ 分布による独立性の検定を適用することができる(ただし、この場合は近似的に $\chi^2$ 分布を用いていることにすぎない)。

直接法による検定

試料が少ないときに、考えられるすべての組み合わせを数え上げて確率を計算する方法を直接法と呼ぶ。

＜例＞トンコロリという物質が豚に対して有毒かどうかを確かめるため、「トンコロリと豚の生死は独立である」という帰無仮説を立て、直接法による独立性の鑑定を行う。

○4匹の豚を使った場合
2匹の豚には普通の飼料を、残りの2匹にはトンコロリを混ぜた飼料を与える実験を行い、その結果をまとめると表59のようになった。

	死	生
トンコロリを与えた	2	0
トンコロリを与えなかった	0	2

59. トンコロリの実験

次に、この実験から得られる結果のすべてを分割表にまとめると表60のようになる。

60. 4匹の豚を使う実験から得られる結果のすべての場合
(aとbの豚にはトンコロリを与え、cとdには与えない)

考えられる結果は全部で6通りある。仮説が正しいとすると、これらは全て同じ確率で出現するはずである。
表59のようなデータは6通りのうち1通りの起こり方しかないため、偶然に出現する確率は1/6である。この確率は16.7%であって、5%より大きいため、仮説を捨てることはできない。つまり、トンコロリを与えた2匹の豚が死んだことからは、トンコロリ以外の原因によって死んだという疑いが大きすぎるために、トンコロリの毒性を認められないということである。

○6匹の豚を使った場合
トンコロリを与えた3匹の豚が死に、与えなかった3匹の豚が生き残った場合の、実験から得られる結果のすべてをまとめると表61のようになった。