2021年10月3日
夕方より一人実家に戻る。移動中に久しぶりに ossan.fm を聞いて(podcastはだいたい一人の移動中に聞くため、最近はめっきり聞けてなかった)、150. コミュニティの架橋の nagayama さんの昔話に記憶がフラッシュバックする。2000年頃のインターネット史はおっさんホイホイな話題だなぁ。あの頃の会社は好きなことを自由にやれた時代で、20代をそんな場所で過ごせて楽しかったなぁ。
実家ではおみやげに持っていった妻のお菓子が毎度ながら大好評。甥姪は食べ物をすごく美味しそうに食べるので、見ていて微笑ましい。
今日の基本統計学は8.3の区間推定−平均値まで。標本から母集団の平均を信頼区間を区切って推定するというもので、教科書では標本数4(母集団の偏差5)の50標本に対して95%信頼区間に含まれるとあって、そんな標本数が少なくても母集団の平均値推定できるのかーと思って自分でもやってみる。
日本人男性の20歳以上の平均身長は168.0、偏差は7.1らしいのでこの値を使って、np.random.randn() で標準正規分布乱数を取得し、適当な値を作って作り4標本数の50標本を作り、標本数が小さいためt分布を使い信頼区間95%として母集団平均が含まれている確率を見ると、92.86%。標本数を4から20に変えると94.21%。そこまで信頼区間に合致しないなぁ、なにか計算が間違っているのか、たまたま乱数の引きが悪いのか…。ちなみに標本数100で100000標本なら94.986%とほぼ95%に合致する。
なお用語が紛らわしくて文章を書いていて混乱してしまった。サンプルサイズ(= 標本の大きさ、サンプル数、標本数)、サンプル(= 標本)。