確率論の小話

7年前に2chで話題になった、確率に関する問題(早稲田の入試問題?)の解説にいいものが見当たらなかったので、自分なりにまとめてみる。

よく話題になる確率の問題を集めてみる

問) ジョーカーを除いたトランプ52枚の中から1枚のカードを抜き出し、 表を見ないで箱の中にしまった。 そして、残りのカードをよく切ってから3枚抜き出したところ、 3枚ともダイアであった。 このとき、箱の中のカードがダイヤである確率はいくらか。

現代の確率論について

そもそも現代の確率の考え方は、

  1. 無限に実験 (厳密には試行という) を重ねて、その結果から導出する頻度主義
  2. ある仮説をたて、その仮説が起こる確率を計算し、その後観測を行い、得られた観測結果から仮説の起こる確率を更新するベイズ主義

の2つが主流である

頻度主義からの考察

1の考え方と言うのは、(実際には不可能だが) 何度も試行を繰り返すことができることに対して確率を割り当てることであり、今回のトランプ問題も何度も試行を繰り返せるものだと考えれば、この頻度主義にそって確率を計算すればよい。

したがって、トランプのカードを取り出して箱に入れるという作業を何度も繰り返せば、総数52枚のカードから総数12枚あるダイヤのカードが取り出される確率に一致するため、13/52 = 1/4 という計算になる。(不安な方は、実際に実験してみればよい)

ベイズ主義からの考察

この問題の結果を大きく分けるのは、「3枚のダイヤが出た」というデータをどのように扱うかである。もしこのデータを考慮して確率を求めるなら、ベイズ主義が上手く当てはまる。

ベイズ主義による確率は以下の公式によって計算される。

p( H | D ) = p( H ) × p( D | H ) ÷ p( D )

  • H Hypothes : ある仮説
  • D Data : 観測データ

p( H | D )というのは、Dというデータを得られたときにHという仮説が起こる確率であり、今回は

  • H → 箱の中身はダイヤである
  • D → ダイヤを3枚引いた

と適応できる。ここで右辺の3つの項について解説すると

  • p( H ) → ダイヤを3枚引いたことは無視して、Hが起こる確率。(事前確率)
  • p( D | H ) → もし箱の中身はダイヤだったら、その後ダイヤを3枚引く確率はどのくらいとなるか 。(尤度)
  • p( D ) → どのような仮説を立てたかに関係なく、ダイヤを3枚引く確率。(正規化定数)

となる。実際にこの3項目を計算すると、

  • p( H ) 52枚のカードから13枚あるダイヤが取り出される確率なので1/4
  • p( D | H ) 箱の中身がダイヤなら、残り総数51枚のカードの中からダイヤが余り12枚中3枚取り出される確率は、(12 3) / (51 3) = 44/4165

ただし、(n m) = n! / { (n-m)! × m! } とする。

  • p( D ) 箱の中身に関係なく、ダイヤが3枚出る確率は、(13 3) / (52 3) = 11/850

長くなったが以上より、p( H | D ) = 1/4 × 44/4165 ÷ 11/850 = 10/49 となる( ≒ 0.20 < 1/4 )

つまり、「3枚もダイヤが出たため、箱にまでダイヤが入ってることは珍しいことになり、頻度主義の確率よりも低い確率と計算された。」と解釈できる。

ではどちらを採択すべきか

頻度主義は「実験 (試行)」を繰り返すことにより計算できるため、客観的に説明することができる。例えば今回の問題も、1000兆回くりかえせば必ず確率は1/4になるため、「ほら、4回中1回はダイヤになるでしょ?」と証明できるわけだ。

対するベイズ主義からの視点で考えると、今回はあくまで「ダイヤが3枚出てきた」という唯一の観測結果だけで考察しているため、今後実験を繰り返して確率が1/4だったといわれても関係ないのである。

まとめると、

  • 頻度主義は「客観的で証明可能」な確率を導き出し、
  • ベイズ主義は「主観的で現在所有しているデータのみで計算可能」な確率を導き出す。

今回の問題は、どちらの主義も採択可能なため、問題文中で非常に繊細な状況解説が必要となる。

例えば、「問題のような実験を繰り返しており、最終的にどのような確率になりうるか」といえば頻度主義を採択し、「カジノで有り金を全部かけてカードゲームをしている」のならばベイズ主義を採択すべきである。

個人的な意見

ここからはあくまで個人的な意見になるが、今回の問題は大学の入試試験で出題されたものであるため、以下のように大学の視点に立って主義選択をするのが大学生という身分として健全な思考なのかもしれない。

  • 国公立大学の入試 国民に公表できる客観的な考え方が望まれているため、頻度主義を利用する。

  • 私立大学の入試 私(ワタクシ)の視点、つまり主観的な考え方が望ましいため、ベイズ主義を採択する。

追記

では頻度主義とベイズ主義では違う確率になるのかというと、実は「最終的」には一致する。

今回は「ダイヤが3枚出た」というデータのみでベイズ確率を計算したため頻度主義とは異なる結果になったが、3枚のダイヤをもとに戻してもう一度3枚引いてみて、例えば「クラブが2枚、ハートが1枚出た」というデータが得られたならば、ベイズの公式にそって確率を更新し、このようにデータをとって確率を更新する作業をずっと繰り返せば、結果は1/4に収まるのである。

したがって頻度主義とベイズ主義での確率は「最終的」には一致するため、ベイズ確率は「頻度主義で行われるたくさんの試行の過程の中で、一時的に算出される確率」と考えるのが望ましい。つまり、頻度主義とベイズ主義は相反するものではなく、頻度主義を分けてみるとベイズ主義が隠れているといった解釈をするのが良いと思う。