2023年にもなって信頼区間の説明が間違いだらけな件について

タイトル通りなんですが、逆に自分が間違ってるのかと錯覚するくらいアレなんで解説を一本書いておきます。

簡単のため、最も簡単なケースとして正規分布モデルで母分散が既知の場合を扱います。

背景の数学

独立な確率変数 ${X_{1}, \dotsc, X_{N}}$ は正規分布 ${\text{normal}(\mu, \sigma^{2})}$ に従うとする。ここで ${\sigma^{2}}$ は既知の定数（シグマの二乗じゃなくてシグマツーという「一つの記号」）とし、 ${\mu}$ はパラメータとする。

このとき確率変数 ${\overline{X}:=\frac{1}{N}(X_{1}+\dotsb+X_{N})}$ は ${\text{normal}(\mu, \frac{\sigma^{2}}{N})}$ に従う。よってこれを標準化した

$\frac{\overline{X}-\mu}{\sqrt{\sigma^{2}/N}}$

は標準正規分布 ${\text{normal}(0, 1)}$ に従う。

信頼区間を求める

サンプル ${x_{1}, \dotsc, x_{N}}$ が与えられたとする。

仮定1. サンプル ${x_{j}}$ は確率変数 ${X_{j}}$ より生成された。（正規分布モデル）

サンプル平均 ${\overline{x}:=\frac{1}{N}(x_{1}+\dotsb+x_{N})}$ を計算すると、仮定1より

$\frac{\overline{x}-\mu}{\sqrt{\sigma^{2}/N}}$

は ${\text{normal}(0, 1)}$ より生成されたデータになる。

仮定2. 我々が認識する事象は、ごくありふれた事象である。（統計的推定の仮定）

たとえとして透明な水を張った桶に赤い水滴を一滴垂らしてみる。その場で留まる可能性は物理的にはあるが、常識的に考えて拡散して広がっていく。我々が認識する事象はレアなケースではなく、ごくありふれたものだと信じる。

そこで所与のデータが、ごくありふれた値、具体的に言うと ${\text{normal}(0, 1)}$ の内側95%（数値はなんでもいい）に入るような条件を考える。正規分布表とかで調べれば上下それぞれ2.5%をカットする範囲が ${\lbrack -a, a \rbrack}$ と求まる。

あとはサンプル平均を標準化したデータが、その範囲に収まるような ${\mu}$ の条件を求めればよい。つまり

$-a\le\frac{\overline{x}-\mu}{\sqrt{\sigma^{2}/N}}\le a$

を ${\mu}$ について解けば、これが信頼区間である。

パラメータ ${\mu}$ を固定するごとに、データが内側95%に入るか入らないか決まるから、前者となるような ${\mu}$ の範囲が信頼区間である。

一般論

他のケースも同様である。ある統計モデルに従う確率変数について、その統計量に関する理論を作る。所与のサンプルがその統計モデルに従うと仮定して、サンプルからその統計量を計算する。そして所与のデータによって信頼できる統計モデルの範囲を求める。これが信頼区間の一般論である。

上では ${\sigma^{2}}$ を既知としたが、別に未知として扱っても良い。その場合はパラメータが2つだから信頼区間ではなく信頼領域となる。パラメータが3つあれば信頼空間ということになる。

例えば統計モデルとして正規分布二つを重ねたものを使っても、二つのピークを統計量として、それをいい感じ求められる理論が作れるなら、信頼区間の理論を作れるはずである。

何が間違っているのか

実はwikipediaの定義

数学的モデルが～棄却されないパラメーターの範囲

は割と正しい（他の文は知らん）。正しいが、参照先になってる統計webの説明

母集団から標本を取ってきて、その平均から95%信頼区間を求める、という作業を100回やったときに、95回はその区間の中に母平均が含まれる

は正しくない。そもそも上で解説したように信頼区間は統計モデルのパラメータの範囲であって、母平均は一切関係ない。

tjo.hatenablog.com

この記事は読んでないが、記事で引用されてる教科書にも似たような記述が見られる。つまり教科書でさえ信頼区間の説明はだいたい間違ってると思って差し支えない。

まとめ

信頼区間は、サンプルに適合するモデルに関する一条件に過ぎず、所与のサンプルがそのモデル上でごくありふれた値であるような、モデル空間を定める指標の一つである。

95%という数値は、所与のサンプルが統計モデル内でどれくらいレアなケースであっても許容するかを述べた確度である。99%にすれば当然信頼区間も広がるため、許容される統計モデルの空間が広くなっていく。ブルアカで言えばガチャで天井まで一回も星3が出なくても「まぁアロナなら仕方ない」くらいに思えるってこと。

信頼区間のアイディア自体はとてもシンプルで、科学的で、数学も高校生レベルの計算で済む分かりやすいもの。それを余計な説明、というか数式にないことを書いて逆に理解に苦しむ説明になってる場合があるので注意して欲しい。