arXiv探訪

興味の赴くままに数学するだけ

誕生日パラドックスと復元抽出の怖さ

今回は久しぶりにarXivを探訪したので次の論文を紹介する。

Boaz Tsaban. Bernoulli Numbers and the Probability of a Birthday Surprise. arXiv:math/0304028v4 [math.NA] 17 May 2007.

タイトルにあるBirthday Surpriseとは、日本では誕生日のパラドックスと呼ばれており、学校や職場などのある集団において、同じ誕生日の人が「結構な確率で」少なくとも一組は存在することを主張する。一年365日という可能性に比べれば予想外に多いので、直観に反するように感じる。Wikipediaの記事に依れば23人以上集まれば50%以上の確率でダブりが出るそうだ。確率計算が直観に反する好例として中学とかの教科書に取り上げられることも多い。

用語

数学的に定式化しよう。{ n }元集合から{ k }個の元を取り出す(復元抽出)とき、少なくとも2つが同一である確率を{ \beta_{n}^{k} }と置く。これを直接立式するのは極めて困難だが、全てが異なる確率

{ \displaystyle \pi_{n}^{k}=\left(1-\frac{1}{n}\right)\left(1-\frac{2}{n}\right)\dotsm\left(1-\frac{k-1}{n}\right) }

を用いれば{ \beta_{n}^{k}=1-\pi_{n}^{k} }となり計算できる。ただし{ n }{ k }も大きくなると物理的に難しくなるので、近似的に値を求めることができたら嬉しい。誕生日の例だと微妙だが、例えばあるインターネットサービスのパスワードが{ n=2^{64} }通りあったとして、{ k }人のアカウントのパスワードのどれかが「偶然」一致してしまう確率、と考えればその重要性は増すだろう。

因みに誕生日が重なる回数の期待値は簡単に求めることができる。確率変数{ X_{ij} }を、{ i }番目に取り出した元と{ j }番目の元が一致するとき{ 1 }、異なるとき{ 0 }を取るように定めれば、その期待値は

{ \displaystyle E(\sum_{i\neq j}X_{ij})=\sum_{i\neq j}E(X_{ij})=\sum_{i\neq j}\frac{1}{n}=\frac{k(k-1)}{2n} }

で計算できる。{ n=365 }のとき{ k\ge 28 }であれば期待値は{ 1 }以上となる。{ k=40 }人クラスなら期待値は{ 2.13\dotsb }なので、二組程度はいることになる。(3人一致すると回数は3とカウントしていることに注意。)

論文で述べられている内容

{ \pi_{n}^{k} }は積の形なので、対数を取ってみる。{ -\mathrm{log}(1-x)=\sum_{l=1}^{\infty}\frac{x^{l}}{l} }に注意すれば、

{ \displaystyle -\mathrm{log}\pi_{n}^{k}=-\sum_{j=1}^{k-1}\mathrm{log}\left(1-\frac{j}{n}\right)=\sum_{j=1}^{k-1}\sum_{l=1}^{\infty}\frac{\left(\frac{j}{n}\right)^{l}}{l}=\sum_{l=1}^{\infty}\frac{1}{ln^{l}}\sum_{j=1}^{k-1}j^{l} }

となる。ここで{ S_{k-1}^{l}:=\sum_{j=1}^{k-1}j^{l} }と置き、これを評価してみよう。

補題 実数値関数{ f\ge 0 }は適度な領域で定義され、適度に滑らかとする。{ f^{\prime\prime}\ge 0 }であるとき、

{ \displaystyle \sum_{i=1}^{k}f(i)\le\int_{0}^{k}f(x+\frac{1}{2})\mathrm{d}x }

が成り立つ。

(証明)区間{ \lbrack j, j+1 \rbrack }を考えれば、二階微分(傾きの変化率)が非負なので、{ x=j+\frac{1}{2} }における{ f(x+\frac{1}{2}) }の接線は、常にグラフの下側を通る。そこで接線が為す台形の面積は{ f(j+1) }に等しいため、

{ \displaystyle f(j+1)\le\int_{j}^{j+1}f(x+\frac{1}{2})\mathrm{d}x }

が成り立つ。{ \square }

補題{ x^{l} }に対して用いれば

{ \displaystyle \sum_{j=1}^{k-1}j^{l}\lt\int_{0}^{k-1}(x+\frac{1}{2})^{l}\mathrm{d}x\lt\frac{(k-\frac{1}{2})^{l+1}}{l+1} }

を得る。ここで{ N }に対して

{ \displaystyle \begin{align*} \sum_{l=N}^{\infty}\frac{S_{k-1}^{l}}{ln^{l}} &\lt \sum_{l=N}^{\infty}\frac{(k-\frac{1}{2})^{l+1}}{l(l+1)n^{l}}\lt\frac{k-\frac{1}{2}}{N(N+1)}\sum_{l=N}^{\infty}\left(\frac{k-\frac{1}{2}}{n}\right)^{l} \\ &=\frac{(k=\frac{1}{2})^{N+1}}{N(N+1)(1-\frac{k-\frac{1}{2}}{n})n^{N}}=:\epsilon_{n}^{k}(N) \end{align*} }

と計算できる。すると結局

{ \displaystyle \sum_{l=1}^{N-1}\frac{S_{k-1}^{l}}{ln^{l}}\lt -\mathrm{log}\pi_{n}^{k} \lt \sum_{l=1}^{N-1}\frac{S_{k-1}^{l}}{ln^{l}}+\epsilon_{n}^{k}(N) }

となり、任意の精度で近似できる。この上限と下限を{ u_{N}(k, n), l_{N}(k, n) }と置く。一般に奇数{ M }に対して

{ \displaystyle \sum_{m=0}^{M}\frac{(-x)^{m}}{m!}\lt e^{-x}\lt\sum_{m=0}^{M+1}\frac{(-x)^{m}}{m!} }

{ |x|\lt 1 }のとき成り立つ。この条件は{ k\lt\sqrt{n} }のとき{ |\mathrm{log}\pi_{n}^{k}|\lt 1 }となり満たされるので、このとき

{ \displaystyle -\sum_{m=1}^{M+1}\frac{(-l_{N}(k, n))^{m}}{m!}\lt\beta_{n}^{k}\lt -\sum_{m=1}^{M}\frac{(-u_{N}(k, n))^{m}}{m!} }

となる。これを用いて近似的に求めることができる。

所感

論文に依れば極めて良い精度で計算できるそう。ただ{ k }が大きくなると下の式は使えないので、対数を取る方法は芳しくない。この場合は、どちらかと言えば期待値を見た方が良いかもしれない。(別の基準になってしまうが。)

似たような話題として、プレゼント抽選会も割とパラドックスを感じやすいと気づいた。{ n }個のプレゼントを無作為に{ n }人に分配することを考える。一般にベルヌーイ試行を独立に複数回行う(復元抽出)と、当たりの個数は二項分布に従う。このサイトで確率0.01、試行回数100として計算すると、0個、1個、2個以上で大体3等分されることが分かる。(意味のある値に収束することを証明できる気がしないでもない。)つまり一個も当たらない人が結構いる一方で、二個も三個も当たる人が出てしまう。参加者の不満が募ったり、裏があるのではと勘繰ったりしてしまうことを避けるためにも、当選者を除く(非復元抽出)などしたほうが良いだろう。