arXiv探訪

興味の赴くままに数学するだけ

竹村彰通「現代数理統計学」の信頼区間の定義に対する疑問

前回の記事でコメントを頂き、竹村「現代数理統計学」(新装改訂版)を勧められた。竹村は、統計学の標準的な教科書として知られ、数式や説明が丁寧なことに定評がある。自分も通読してはいないものの、この部分に関しては異論の余地が無く良い本だと思う。

しかしその説明にはいくつかの疑問点がある。端的に述べるなら、確率変数という数学の話と、観測値(サンプル)という統計学の話が、同時に混同されて扱われている。

確率変数について

そもそも確率変数の定義に疑問がある。6ページに

確率的に変動する変数を確率変数とよぶ

とある。数学の話をすると確率変数はいくつかの演算操作が可能な数学的オブジェクトであって、確率変数{X}が明日になったら確率変数{Y}になるようなものではない。当然変数も変わらない。変数には代入という評価が存在し、確率変数には確率という評価が存在するだけである。

例えば確率論の実装の一つである測度論を用いると、実数上の確率変数とは、ルベーグ可測空間からボレル可測空間への可測写像のことである。可測性という性質を満たす写像なのだから、変動したり代入したりできるものではない。

可測空間に確率測度を加えることで確率空間が定まる。例えば正規分布や一様分布などの確率密度函数を、事象という名の可測集合上で積分することで、その事象の確率という値を得る。確率変数{X}が確率分布{P}に従うというのは、{X}に確率という名の評価を与えるということである。具体的には、{X}がある値域{B}に属する確率{P(X\in B)}を、{P(X^{-1}(B))}で定義する。よくある{P(X\le a)}というのは、{X}{(-\infty, a\rbrack}に属する確率のことに他ならない。

確率変数同士の和や積もまた確率変数である。従って{X_{1}, \dotsc, X_{n}}を確率変数としたとき、{ \overline{X}=\frac{1}{n}(X_{1}+\dotsb+X_{n})}もまた確率変数である。確率空間を一つ固定し、(良い)確率変数{X}と同分布な確率変数{X_{1}, \dotsc, X_{n}}が独立なとき、{\overline{X}}{X}の期待値{E\lbrack X \rbrack}に(何らかの意味で)収束する。これが有名な大数の法則である。

サンプルについて

統計学は、サンプルと確率変数の間に生成関係を置くところから始まる。生成は次の公理を満たす。

  • {x}は確率変数{X}により生成されたサンプルとする。このとき(良い)函数{f}に対し、{f(x)}は確率変数{f(X)}により生成されたサンプルである。

大数の法則統計学に応用すると次のようになる。{x_{1}, \dotsc, x_{n}}{X_{1}, \dotsc, X_{n}}により生成されたサンプルとする。このときサンプル平均{\overline{x}=\frac{1}{n}(x_{1}+\dotsb+x_{n})}は確率変数{\overline{X}}により生成されたサンプルであるから、{n}を大きくしたとき期待値{E\lbrack X \rbrack}に近いことが期待される。

このように数学の部分と統計学の部分をはっきり分けて記述するべきである。このことは竹村に限らず、世に出ているあらゆる統計学の教科書に対して言える。

信頼区間(信頼域)について

話を信頼区間に移そう。201ページに太字で書かれているので、以下の文が定義と考えられる。

観測値{X}に基づく{\mathbb{R}^{k}}の集合{S(X)\subset\mathbb{R}^{k}}が信頼係数{1-\alpha}の信頼域であるとは

{P_{\theta}(\theta\in S(X) )\ge 1-\alpha, \forall \theta\in\Theta }

となることをいう

第一に、{X}を観測値と言っているので、個々の値について信頼域が定まって、それは上の式を満たすのだと解釈できる。しかしそうすると左辺の解釈に躓く。{P_{\theta}}は91ページにあるように、考えている分布族の分布のことである。とすれば括弧の内側は何らかの事象を意味しなければならない。しかし{\theta\in S(X)}は一体何の事象を表しているのだろうか。{S(X)}{\theta}に依存しないユークリッド空間の部分集合のはずである。その部分集合に{\theta}が入るかどうかは真偽値になるから、好意的に解釈しても確率は0か1、だったら{S(X)}は全体集合でいい。

第二に、{X}を大文字の表記通り確率変数と解釈する。すると問題なのは{S(X)}{X}に依る集合であって、{X}の実現値に依る集合ではない、というのが普通の解釈になるということだ。また上と同様に{S(X)}は全体集合でいい。

第三に、統計モデルに関する(日常用語の)スキームを述べているのだと解釈する。つまり{X}は分布{P_{\theta}}に従うのだとして、信頼域はその統計モデルに依る。すると{\theta\in S(X)}{L(X)\le\theta\le U(X)}のような形になり、その確率を{P_{\theta}}で評価することができる。

第三の解釈が最も妥当であり、本書の中身もこの意味で展開されているが、非常に複雑怪奇な書き方をしているのは間違いない。更にいうと9.3節で、左辺は「確率と解釈することについて問題がある」と断言している。いやどこからどう見ても確率である。ただし統計モデル内の{X}に関する確率である。

ここに前回指摘した「信頼区間の説明が間違っている」という根拠がある。信頼区間を確率として解釈するのであれば、それはモデル内の確率であって、サンプルに関する確率ではない。100回サンプリングをして信頼区間を計算すれば95回は真の値を含むといった保証は少なくとも定義から自明に導かれるものではない。サンプルが統計モデル内の分布から生成されるのであれば、そういうことも起きるかもしれないが、母集団分布というのはそもそも分からないもののはずである。

信頼区間の定義について

コメントで言われたように、確かに「信頼区間の定義が不適切ではないか」と書くべきだったかもしれない。改めて定義を述べると、信頼区間はサンプル毎に計算され、得られたサンプルがごくありふれた事象である、という仮定の下で棄却されない統計モデルのパラメータ範囲であり、95%という数字はごくありふれ具合のことである。こちらの定義の方が簡潔で明確だしすっきりすると思うのだが、同じように考える人はいないのだろうか。

コメントよりマストドン(右上のリンク)の方が見る可能性が高いのでよろしく