「2. 舌自慢を検定する話」の編集履歴(バックアップ)一覧はこちら

2. 舌自慢を検定する話」(2008/08/13 (水) 22:52:19) の最新版変更点

追加された行は緑色になります。

削除された行は赤色になります。

棄却検定という手法の中核をなす概念である、「帰無仮説」と「危険率」という2つのキーワードに関するお話です。 #contents() 以下レジメ ---- **1. 帰無仮説(null hypothesis) ***1) 帰無仮説の特質 一般に、仮説というものは、それを正しいものと仮定して利用するか、あるいは、仮説を証明しようという意図で設定されるものであるが、統計的仮説検定における帰無仮説は、捨てられる(棄却できる)かどうかを検定するために設定される。 つまり、「データが偏っているので2つの変数の間には関係がある」という積極的な仮説を立てるのではなく、「2つの変数の間には関係がないのでデータの偏りは偶然生じた」という仮説を立てる。そして、この帰無仮説を「データの偏りが偶然生じたといえる確率は無視できるほど低い」という論理で棄却することによって、進めていくのが仮説検定である(二重否定の論理)。 ***2) 帰無仮説の設定 どのような仮説でも帰無仮説にとることができるわけではなく、仮説検定を行うには、仮説として適用する事象が以下の条件を満たしている必要がある。 +厳密な仮説であること&br()仮説をもとに事象の起こる確率を計算しなければならないため、あいまいな仮説は帰無仮説になりえない。 +仮説として適用する事象が1つであること&br()捨てやすい仮説、捨てることに意味のある仮説をとる。 -なぜ二重否定という回りくどい論理を使うのか? ―実証主義と反証主義― > この考え方は、統計的な仮説検定法だけではなく、科学的な方法論一般の考え方でもある。素朴な実証主義 positivism がより洗練されたのが反証主義 falsificationism であり、[より正確にいうと、全称命題的な]科学的仮説は検証 verify できないが、反証 falsify はできる、と考える。実証主義は、実証可能性を科学的仮説の必要条件とするが、反証主義では、反証可能性を科学的仮説の必要条件とする。 > たとえば「黒いカラスが存在する」という「特称命題」は、黒いカラスを一匹見つければ証明できるが、「すべてのカラスは黒い」という「全称命題」を実証するためには、この世のすべてのカラスを観察して、全部が黒いことを示さなければならないので、事実上、不可能である。しかし、これを反証するためには、白いカラスを一匹見つけるだけでいい。 >([[明治大学 情報コミュニケーション学部 蛭川研究室>http://www.kisc.meiji.ac.jp/~hirukawa/indexJ.htm]]HP中の[[統計的仮説検定の考えかた>http://www.kisc.meiji.ac.jp/~hirukawa/randomevent/test1.htm]]より引用) **2. 危険率 ***1) 危険率の意味 仮説を証明するために計算した確率が1%であったとする。このとき、仮説を棄却した場合も、1%の確率で事象が起こる可能性があることには変わりない。つまり、1%という確率が小さいからといって仮説を捨てることにすると、仮説が正しいにもかかわらず仮説を捨ててしまう危険が1%はあるということを意味する。 ***2) 危険率の設定 危険率としてはふつう、5%か1%が用いられるが、これには数学的な必然性があるわけではなく、仮説を棄却するか否かを決定するためのルールにすぎない。そのため、帰無仮説を棄却しなかった場合に、危険率が6%であったか、50%であったかということを考慮する必要がある。そして、状況によっては実験をやり直したり追加したりする必要があるかどうかを考えなければならない。 また、危険率を何%にするかは、仮設が正しいにもかかわらず仮説を捨ててしまうという誤りを犯したときに、こうむる損害の重大さによって決定するべきである。 ***仮説検定の誤り 仮説検定は、ときには誤った結論が導かれることもある。統計学の仮説検定で起こり得るエラーには以下の3種類があり、危険率とは「第一種の過誤」が起こる確率のことである。危険率が高いほど第一種の過誤を犯す危険性は増す。 -第一種の過誤(Type Ⅰ error): データの差異が偶然なのに、偶然ではないと結論してしまう -第二種の過誤(Type Ⅱ error): データの差異が偶然ではないのに、偶然だと結論してしまう -第三種の過誤(Type Ⅲ error): 検定方法を選択する時点で間違えてしまう ***第一種の過誤と第二種の過誤のいずれに注意すべき? >第二種の誤りは、実験データに含まれる貴重な情報を見過ごしてしまうだけにとどまるが、むしろ注意しなければならないのは第一種の誤りで、なにもないところに関係妄想のように関係性を見いだしてしまうことになりかねない。第一種の誤りを冒す確率は設定した有意水準と同じで、有意水準の確率が高いほどその危険性は増す。たとえば、有意水準が5%、つまり二十分の一の場合、二十回に1回はこの誤りが起こる。この場合、無関係なはずの変数の組み合わせを手当たり次第に二十通り試せば1回ぐらいは5%で有意な結果が出てもおかしくないことになる。 >([[明治大学 情報コミュニケーション学部 蛭川研究室>http://www.kisc.meiji.ac.jp/~hirukawa/indexJ.htm]]HP中の[[統計的仮説検定の考えかた>http://www.kisc.meiji.ac.jp/~hirukawa/randomevent/test1.htm]]より引用) また、第一種の過誤を減らすと第二種の過誤が増える(あるいはその逆が起こる)という傾向がある。そのため、仮説検定では一般に、あらかじめ採用した十分小さい危険率に対し、検出力(対立仮説が正しいときに帰無仮説を採択する確率)をなるべく大きくするように棄却域を選ぶ方針がとられる(ネイマン・ピアソンの補題)。 ---- ***引用・参考文献 -[[明治大学 情報コミュニケーション学部 蛭川研究室>http://www.kisc.meiji.ac.jp/~hirukawa/indexJ.htm]]「[[統計的仮説検定の考えかた>http://www.kisc.meiji.ac.jp/~hirukawa/randomevent/test1.htm]]」 -Wikipedia項目「[[仮説検定>http://ja.wikipedia.org/wiki/%E4%BB%AE%E8%AA%AC%E6%A4%9C%E5%AE%9A]]」 -[[Keyword Project+Psychology>http://digitalword.seesaa.net/]]「[[統計学的な仮説検定(test)と帰無仮説・対立仮説>http://digitalword.seesaa.net/article/50885047.html]]」 ***そのほかの情報 議論の中で話題に上がった仮説検定の問題点を取り上げた論文 Johnson, Douglas H. 1999. The Insignificance of Statistical Significance Testing. Journal of Wildlife Management 63(3):763-772. Jamestown, ND: Northern Prairie Wildlife Research Center Home Page. http://www.npwrc.usgs.gov/resource/1999/statsig/statsig.htm (Version 16SEP99). ※HP404です。pdfはhttp://www.uvm.edu/~bbeckage/Teaching/DataAnalysis/AssignedPapers/Johnson1999.pdf ([[上記論文の日本語抄訳>http://takenaka-akio.cool.ne.jp/etc/stat_test/]]) ※編集者注:いわゆるベイジアンとよばれるベイズ統計学を扱い、推進する人々の、頻度主義(日本の大学で学ぶいわゆる「統計学」ですね)に対する考え方です。読めば読むほど頻度主義が駄目なんじゃないかと思えてきます。どうも欧米では研究者の半数がベイジアン(ホントかウソかしりません)だとかいう話で、活発に議論が交わされているようです。頻度主義とベイズ統計学はどちらがいいとか一概に言えるものではない(言えるのなら議論など起きません)ので、ほとんど頻度主義で通ってしまっている日本の現状はちょっと不健全なんじゃないかな、とか思ったりします。 ---- ※編集者追記 **カード合わせの問題 本文中に「カード合わせの問題」というものが出てきます。 長くなったので[[カード合わせの問題]]というページを作って移動させておきます。 これは次のような問題です。 +1~nまでの番号が書いてあるカードのセットがある(各番号はひとつのセットに1枚ずつしか入っていない) +2人の人間がこのセットをそれぞれ1つずつ持つ +それぞれセットの中から適当に選び出した1枚のカードを見せ合う +カードはセットに戻さず、再び1枚のカードを選び出し、見せ合う +最後の一枚まで3~4の試行を繰り返したとき、2人が一度も同じカードを引かない確率というのはカードのセットの総数にかかわらずおよそ1/3程度である ぱっと考えたくらいでは「カードが全て合わない確率が1/3」というのが納得しにくいですね。カードの総数が増えれば、一度くらい同じカードを引く確率が大きくなるのではないか、いやいや、カードが多くなれば同じカードを引く確率はものすごく小さくなるのではないか、そんな風に考えてしまいがちです。 この問題の具体的な回答は本文中では省略されています。「1700年代から研究されている」問題とのことで、ものすごく難しいのかもしれませんが可能な範囲で食いついていって見ましょう。 ***問題を解くにあたっての仮定 まず、カードはランダムに引くのですから、それぞれのカードを引く確率は同様であるとします。これは納得いくと思います。 次に、カードをランダムに引くのは1人だけとします。もう一人の引き方は固定します。つまり、一人の引き方は1から順に(1, 2, 3, 4, 5, ... ,n)であるとして、それに対してもう一人の引き方のあらゆるパターンを調べ、全てのカードが異なる確率を計算してしまうのです。もしもう一人のパターンを調べつくすことができたなら、一人目の並びをどのように変えたとしても、まったく同じ手順をそのパターンに適用すれば、まったく同じ確率が計算されるはずです。この問題では1人目の引き方は重要ではないのです。 ***確率の定義 では、「全てのカードが異なる確率」というもののカタチを確認しましょう。カードを引く確率は同様であるとしました。ですから、あらゆるカードの引き方も同様の確率で出現するわけです。こういった状況の下では「場合の数」の比がそのまま確率になります。つまり、全てのカードが異なる確率というのは、 全てのカードが異なる引き方 ---------------------------------- カードの引きかたの全てのパターン で計算できることになります。ここで、「全てのパターン」は簡単に計算できます。n枚のカードがあったとして、1枚目はn通りの選び方、2枚目はn-1通りの選び方、3枚目はn-2通りの選び方...n-1枚目は2通りの選び方、n枚目は1通りの選び方ができるわけですから、そのときの場合の数はこれらを全て掛け合わせたn!です。つまり 全てのカードが異なる引きかた ---------------------------- n! で確率が計算できるわけです。 ***「全てのカードが異なる引きかた」のパターン では、「全てのカードが異なる引きかた」のパターンがいったい何通りあるのかを計算する式を作りましょう。とりあえずこの式に適当な名前をつけましょう。 miss(n) ≡ カードがn枚のとき、「全てのカードが異なる引きかた」のパターンの数 miss()という関数にカードの枚数を与えたら、全てのカードが合わないパターンが何通りあるかが返ってくるというわけです。今はまだmiss()関数の実態はわかりません。これから決めるわけです。現時点ではロクな手がかりがありませんから、最初のいくつかを力業で決定していきましょう。 ***miss(0) カードが1枚も無い場合です。どうすべきか悩むところですが、カードが一枚もないということはカードが一致することはないということです。そしてカードが一致しない組み合わせがひとつだけある(=カードを出さない)のだと解釈します。よって、 $$\mathrm{miss}(0)=1$$ べつに0としてもいいのですが、どうやら1としておいたほうが後々役に立つっぽいのでこう定義しました。 ***miss(1) カードが1枚の場合です。カードを出せば必ず相手と一致します。なので、 $$\mathrm{miss}(1)=0$$ 減りましたね。 ***miss(2) ここからは表を作っていきます。 |一致|パターン|計算式| |2|1|省略| |0|1|省略| 注目してほしいのは「1枚だけ一致というパターンがない」ということです。当然です。1枚正解してしまえばもう一枚は必ず正解です。一般化して言えば、n枚のカードのうちn-1枚を決定すれば残りの一枚は決定するので、n枚の一致とn-1枚の一致は同一であるということです。まあなにはともあれ $$\mathrm{miss}(2)=1$$ 戻りましたね。 ***miss(3) さて、少し計算が入ってきます。 |一致|パターン|計算式| |3|1|略| |1|3|$$_3 \mathrm{C} _1\mathrm{miss(2)}$$| |0|2|$$3!-(1+3)$$| 一枚だけ一致する場合ですが、「一体どこでカードが一致するのか?」を考えないといけません。一人を固定しているわけですから、3枚のうちのどの1枚を選ぶのかを考えればいいわけです。よって組み合わせ記号を使って$$_3 \mathrm{C} _1$$によって計算できるわけです。この$$_n\mathrm{C}_r$$という記号の意味はいいと思いますが、後で使うので一応定義を確認しておきましょう。 $$_n\mathrm{C}_r=\frac{n!}{(n-r)!r!}$$ です。そして$$_3 \mathrm{C} _1$$にmiss(2)を掛けていますが、この意味は1枚が正解ということは残りの2枚は間違いでなければならないということです。 そうして1枚も合わない組み合わせの数というのは、全ての組み合わせから1枚以上一致する組み合わせを引いた数ですので上記のような計算式になるわけです。とりあえずこれで $$\mathrm{miss}(3)=2$$ 増えました。 ***miss(4) |一致|パターン|計算式| |4|1|略| |2|6|$$_4\mathrm{C}_2\mathrm{miss(2)}$$| |1|8|$$_4\mathrm{C}_1\mathrm{miss(3)}$$| |0|9|$$4!-(1+6+8)$$| さてそろそろパターンが見えてきました。 $$\mathrm{miss}(4)=9$$ もうひとつくらいやってみましょう。 ***miss(5) |一致|パターン|計算式| |5|1|略| |3|10|$$_5\mathrm{C}_3\mathrm{miss(2)}$$| |2|20|$$_5\mathrm{C}_2\mathrm{miss(3)}$$| |1|45|$$_5\mathrm{C}_1\mathrm{miss(4)}$$| |0|44|$$5!-(1+10+20+45)$$| $$\mathrm{miss}(5)=44$$ さて!ある種の法則が見えてきました!一般化しましょう! ***miss(n) $$
棄却検定という手法の中核をなす概念である、「帰無仮説」と「危険率」という2つのキーワードに関するお話です。 #contents() 以下レジメ ---- **1. 帰無仮説(null hypothesis) ***1) 帰無仮説の特質 一般に、仮説というものは、それを正しいものと仮定して利用するか、あるいは、仮説を証明しようという意図で設定されるものであるが、統計的仮説検定における帰無仮説は、捨てられる(棄却できる)かどうかを検定するために設定される。 つまり、「データが偏っているので2つの変数の間には関係がある」という積極的な仮説を立てるのではなく、「2つの変数の間には関係がないのでデータの偏りは偶然生じた」という仮説を立てる。そして、この帰無仮説を「データの偏りが偶然生じたといえる確率は無視できるほど低い」という論理で棄却することによって、進めていくのが仮説検定である(二重否定の論理)。 ***2) 帰無仮説の設定 どのような仮説でも帰無仮説にとることができるわけではなく、仮説検定を行うには、仮説として適用する事象が以下の条件を満たしている必要がある。 +厳密な仮説であること&br()仮説をもとに事象の起こる確率を計算しなければならないため、あいまいな仮説は帰無仮説になりえない。 +仮説として適用する事象が1つであること&br()捨てやすい仮説、捨てることに意味のある仮説をとる。 -なぜ二重否定という回りくどい論理を使うのか? ―実証主義と反証主義― > この考え方は、統計的な仮説検定法だけではなく、科学的な方法論一般の考え方でもある。素朴な実証主義 positivism がより洗練されたのが反証主義 falsificationism であり、[より正確にいうと、全称命題的な]科学的仮説は検証 verify できないが、反証 falsify はできる、と考える。実証主義は、実証可能性を科学的仮説の必要条件とするが、反証主義では、反証可能性を科学的仮説の必要条件とする。 > たとえば「黒いカラスが存在する」という「特称命題」は、黒いカラスを一匹見つければ証明できるが、「すべてのカラスは黒い」という「全称命題」を実証するためには、この世のすべてのカラスを観察して、全部が黒いことを示さなければならないので、事実上、不可能である。しかし、これを反証するためには、白いカラスを一匹見つけるだけでいい。 >([[明治大学 情報コミュニケーション学部 蛭川研究室>http://www.kisc.meiji.ac.jp/~hirukawa/indexJ.htm]]HP中の[[統計的仮説検定の考えかた>http://www.kisc.meiji.ac.jp/~hirukawa/randomevent/test1.htm]]より引用) **2. 危険率 ***1) 危険率の意味 仮説を証明するために計算した確率が1%であったとする。このとき、仮説を棄却した場合も、1%の確率で事象が起こる可能性があることには変わりない。つまり、1%という確率が小さいからといって仮説を捨てることにすると、仮説が正しいにもかかわらず仮説を捨ててしまう危険が1%はあるということを意味する。 ***2) 危険率の設定 危険率としてはふつう、5%か1%が用いられるが、これには数学的な必然性があるわけではなく、仮説を棄却するか否かを決定するためのルールにすぎない。そのため、帰無仮説を棄却しなかった場合に、危険率が6%であったか、50%であったかということを考慮する必要がある。そして、状況によっては実験をやり直したり追加したりする必要があるかどうかを考えなければならない。 また、危険率を何%にするかは、仮設が正しいにもかかわらず仮説を捨ててしまうという誤りを犯したときに、こうむる損害の重大さによって決定するべきである。 ***仮説検定の誤り 仮説検定は、ときには誤った結論が導かれることもある。統計学の仮説検定で起こり得るエラーには以下の3種類があり、危険率とは「第一種の過誤」が起こる確率のことである。危険率が高いほど第一種の過誤を犯す危険性は増す。 -第一種の過誤(Type Ⅰ error): データの差異が偶然なのに、偶然ではないと結論してしまう -第二種の過誤(Type Ⅱ error): データの差異が偶然ではないのに、偶然だと結論してしまう -第三種の過誤(Type Ⅲ error): 検定方法を選択する時点で間違えてしまう ***第一種の過誤と第二種の過誤のいずれに注意すべき? >第二種の誤りは、実験データに含まれる貴重な情報を見過ごしてしまうだけにとどまるが、むしろ注意しなければならないのは第一種の誤りで、なにもないところに関係妄想のように関係性を見いだしてしまうことになりかねない。第一種の誤りを冒す確率は設定した有意水準と同じで、有意水準の確率が高いほどその危険性は増す。たとえば、有意水準が5%、つまり二十分の一の場合、二十回に1回はこの誤りが起こる。この場合、無関係なはずの変数の組み合わせを手当たり次第に二十通り試せば1回ぐらいは5%で有意な結果が出てもおかしくないことになる。 >([[明治大学 情報コミュニケーション学部 蛭川研究室>http://www.kisc.meiji.ac.jp/~hirukawa/indexJ.htm]]HP中の[[統計的仮説検定の考えかた>http://www.kisc.meiji.ac.jp/~hirukawa/randomevent/test1.htm]]より引用) また、第一種の過誤を減らすと第二種の過誤が増える(あるいはその逆が起こる)という傾向がある。そのため、仮説検定では一般に、あらかじめ採用した十分小さい危険率に対し、検出力(対立仮説が正しいときに帰無仮説を採択する確率)をなるべく大きくするように棄却域を選ぶ方針がとられる(ネイマン・ピアソンの補題)。 ---- ***引用・参考文献 -[[明治大学 情報コミュニケーション学部 蛭川研究室>http://www.kisc.meiji.ac.jp/~hirukawa/indexJ.htm]]「[[統計的仮説検定の考えかた>http://www.kisc.meiji.ac.jp/~hirukawa/randomevent/test1.htm]]」 -Wikipedia項目「[[仮説検定>http://ja.wikipedia.org/wiki/%E4%BB%AE%E8%AA%AC%E6%A4%9C%E5%AE%9A]]」 -[[Keyword Project+Psychology>http://digitalword.seesaa.net/]]「[[統計学的な仮説検定(test)と帰無仮説・対立仮説>http://digitalword.seesaa.net/article/50885047.html]]」 ***そのほかの情報 議論の中で話題に上がった仮説検定の問題点を取り上げた論文 Johnson, Douglas H. 1999. The Insignificance of Statistical Significance Testing. Journal of Wildlife Management 63(3):763-772. Jamestown, ND: Northern Prairie Wildlife Research Center Home Page. http://www.npwrc.usgs.gov/resource/1999/statsig/statsig.htm (Version 16SEP99). ※HP404です。pdfはhttp://www.uvm.edu/~bbeckage/Teaching/DataAnalysis/AssignedPapers/Johnson1999.pdf ([[上記論文の日本語抄訳>http://takenaka-akio.cool.ne.jp/etc/stat_test/]]) ※編集者注:いわゆるベイジアンとよばれるベイズ統計学を扱い、推進する人々の、頻度主義(日本の大学で学ぶいわゆる「統計学」ですね)に対する考え方です。読めば読むほど頻度主義が駄目なんじゃないかと思えてきます。どうも欧米では研究者の半数がベイジアン(ホントかウソかしりません)だとかいう話で、活発に議論が交わされているようです。頻度主義とベイズ統計学はどちらがいいとか一概に言えるものではない(言えるのなら議論など起きません)ので、ほとんど頻度主義で通ってしまっている日本の現状はちょっと不健全なんじゃないかな、とか思ったりします。 ---- ※編集者追記 **カード合わせの問題 本文中に「カード合わせの問題」というものが出てきます。 長くなったので[[カード合わせの問題]]というページを作って移動させておきます。 ----

表示オプション

横に並べて表示:
変化行の前後のみ表示: