誕生日パラドックスと復元抽出の怖さ
今回は久しぶりにarXivを探訪したので次の論文を紹介する。
Boaz Tsaban. Bernoulli Numbers and the Probability of a Birthday Surprise. arXiv:math/0304028v4 [math.NA] 17 May 2007.
タイトルにあるBirthday Surpriseとは、日本では誕生日のパラドックスと呼ばれており、学校や職場などのある集団において、同じ誕生日の人が「結構な確率で」少なくとも一組は存在することを主張する。一年365日という可能性に比べれば予想外に多いので、直観に反するように感じる。Wikipediaの記事に依れば23人以上集まれば50%以上の確率でダブりが出るそうだ。確率計算が直観に反する好例として中学とかの教科書に取り上げられることも多い。
用語
数学的に定式化しよう。元集合から個の元を取り出す(復元抽出)とき、少なくとも2つが同一である確率をと置く。これを直接立式するのは極めて困難だが、全てが異なる確率
を用いればとなり計算できる。ただしもも大きくなると物理的に難しくなるので、近似的に値を求めることができたら嬉しい。誕生日の例だと微妙だが、例えばあるインターネットサービスのパスワードが通りあったとして、人のアカウントのパスワードのどれかが「偶然」一致してしまう確率、と考えればその重要性は増すだろう。
因みに誕生日が重なる回数の期待値は簡単に求めることができる。確率変数を、番目に取り出した元と番目の元が一致するとき、異なるときを取るように定めれば、その期待値は
で計算できる。のときであれば期待値は以上となる。人クラスなら期待値はなので、二組程度はいることになる。(3人一致すると回数は3とカウントしていることに注意。)
論文で述べられている内容
は積の形なので、対数を取ってみる。に注意すれば、
となる。ここでと置き、これを評価してみよう。
補題 実数値関数は適度な領域で定義され、適度に滑らかとする。であるとき、
が成り立つ。
(証明)区間を考えれば、二階微分(傾きの変化率)が非負なので、におけるの接線は、常にグラフの下側を通る。そこで接線が為す台形の面積はに等しいため、
が成り立つ。
補題をに対して用いれば
を得る。ここでに対して
と計算できる。すると結局
となり、任意の精度で近似できる。この上限と下限をと置く。一般に奇数に対して
がのとき成り立つ。この条件はのときとなり満たされるので、このとき
となる。これを用いて近似的に求めることができる。
所感
論文に依れば極めて良い精度で計算できるそう。ただが大きくなると下の式は使えないので、対数を取る方法は芳しくない。この場合は、どちらかと言えば期待値を見た方が良いかもしれない。(別の基準になってしまうが。)
似たような話題として、プレゼント抽選会も割とパラドックスを感じやすいと気づいた。個のプレゼントを無作為に人に分配することを考える。一般にベルヌーイ試行を独立に複数回行う(復元抽出)と、当たりの個数は二項分布に従う。このサイトで確率0.01、試行回数100として計算すると、0個、1個、2個以上で大体3等分されることが分かる。(意味のある値に収束することを証明できる気がしないでもない。)つまり一個も当たらない人が結構いる一方で、二個も三個も当たる人が出てしまう。参加者の不満が募ったり、裏があるのではと勘繰ったりしてしまうことを避けるためにも、当選者を除く(非復元抽出)などしたほうが良いだろう。