信頼区間シミュレーション

統計シミュレーター

信頼区間シミュレーション

このシミュレーションの目的

統計学における「信頼区間」の正しい解釈を理解するためのツールです。一般的な誤解である「95%信頼区間には真の値が95%の確率で含まれる」という考えがなぜ間違っているのか、視覚的に確認できます。

よくある誤解

「95%信頼区間とは、母集団の真の平均値がその区間内に95%の確率で含まれる範囲である」

正しい解釈

「同じ母集団から何度もサンプルを抽出して95%信頼区間を計算すると、それらの区間の約95%が母集団の真の平均値を含む」

シミュレーション設定

母集団分布の種類

サンプルサイズ: {{ sampleSize }}

5 200

サンプルサイズが大きいほど、推定の精度が上がり、信頼区間は狭くなります。

信頼水準: {{ confidenceLevel }}%

70% 99%

信頼水準が高いほど、より多くのシミュレーション試行で真の値を捕捉できますが、その代わりに信頼区間は広くなります。

シミュレーション回数: {{ numTrials }}

10 100

母集団情報

真の平均値: {{ trueMean.toFixed(2) }}

標準偏差: {{ trueSD.toFixed(2) }}

分布の形状: {{ getDistributionName() }}

シミュレーション結果

真の値を含む回数

真の値を含まない回数

真の値を含む割合: {{ coverageRate.toFixed(1) }}%

期待される割合: {{ confidenceLevel }}%

平均信頼区間幅: {{ averageWidth.toFixed(2) }}

{{ coverageRate.toFixed(1) }}%

信頼区間の視覚化

このグラフは、{{ numTrials }}回のサンプリングを行い、それぞれの試行で計算された信頼区間を示しています。

緑の線真の平均値を含む信頼区間
赤の線真の平均値を含まない信頼区間
点線真の平均値 ({{ trueMean.toFixed(2) }})

{{ confidenceLevel }}%信頼水準では、理論上は{{ confidenceLevel }}%の信頼区間が真の平均値を含むはずです。実際には{{ coverageRate.toFixed(1) }}%の区間が真の値を含んでいます。

サンプルサイズの影響

サンプルサイズが増えると信頼区間の幅は狭くなります。これは、多くのデータがあるほど、より正確な推定ができるためです。

信頼水準の影響

信頼水準が高いほど、真の値を含む区間の割合は増えますが、その代わりに信頼区間の幅は広くなります。

シミュレーションの各設定の意味

母集団分布の種類: データが従う確率分布のタイプを選択できます。現実世界のデータは様々な分布形状を持つため、分布の違いが信頼区間の性質にどう影響するかを確認できます。
- 正規分布: 左右対称の釣鐘型の分布。多くの自然現象や測定誤差がこの分布に従います。
- 一様分布: すべての値が等しい確率で出現する分布。ランダムな数値の生成などに使われます。
- 指数分布: 時間や距離に関するデータ (待ち時間、機器の寿命など) によく見られる分布。
- 歪んだ分布: 右側に長い裾を持つ非対称の分布。所得、資産価値などのデータにみられます。
サンプルサイズ: 各試行で母集団からランダムに抽出するデータの数。サンプルサイズが大きいほど推定精度が上がり、信頼区間は狭くなりますが、実際の調査では時間やコストの制約があります。
信頼水準: 信頼区間の信頼度を表すパーセンテージ。高い信頼水準 (例: 99%) を選ぶと、より多くの信頼区間が真の値を含みますが、区間は広くなるというトレードオフがあります。
シミュレーション回数: 独立したサンプリングと信頼区間計算を何回実行するか。回数を増やすと、理論上の信頼水準に近い結果が得られやすくなります。

このシミュレータでの信頼区間の計算方法

サンプル統計量の計算: ランダムに抽出したサンプルから、サンプル平均(x̄)とサンプル標準偏差(s)を計算します。
標準誤差の計算: 標準誤差 SE = s ÷ √n (nはサンプルサイズ)
臨界値の決定:
- サンプルサイズが小さい場合(n ≤ 30): t分布のパーセント点を使用 (t_{α/2, n-1})
- サンプルサイズが大きい場合(n > 30): 標準正規分布のパーセント点を使用 (z_α/2)
信頼区間の計算: x̄ ± (臨界値 × 標準誤差)

重要: 中心極限定理により、サンプルサイズが十分大きければ、元の母集団分布に関わらず、サンプル平均の分布は正規分布に近似します。そのため、サンプルサイズが大きい場合、母集団が正規分布でなくても信頼区間の計算は有効です。サンプルサイズが小さい場合は、t分布を使用することで、分布の不確実性を考慮しています。