スポンサーリンク

【確率統計】ヨビノリさんから推定・検定を学ぼう

数学

新型コロナウィルスでいろんなデータが出ていますが、
そのように言える根拠は何でしょうか?
果たしてどれくらい信憑性があるものなのでしょうか?

調査結果やデータというのは
主張を裏付ける説得材料として利用されます。
しかし、なかには、

ちょっとそれは無理がないかな…

というものや

かなりいい加減な調査方法で提示されたものがあります。

このような状況が生まれるのは
私も含めて、統計学について「無知」であるからです。

別の言い方をすると、データの読み取り方を知らない。
だから、もっともらしい人の意見に流されてしまうのです。
もちろんその方が信頼のおける人なら、
信じてもいいのかもしれませんが、
人間は誰でも間違いを起こしますし、
未来のことはだれにもわかりません。

悪意ではないとはいえ、
発言したことをそのまま鵜呑みにしてしまうのは
余りにも無防備ではないでしょうか?

こちらの記事では統計学の基礎である、
推定・検定について学ぶことができる動画教材を紹介します。

こちらのヨビノリさんのYouTube動画の
補完情報としてまとめました。

スポンサーリンク
  1. ヨビノリさんとは
  2. 推定・検定の用語
    1. 用語の解説
    2. テーマ
    3. 前提条件
  3. 母集団の母平均をピンポイントで推定
    1. テーマ
    2. 標本平均による平均の点推定
    3. 不偏分散による分散の点推定
    4. 推定量に望む性質
      1. 母数と推定量の関係
        1. 一致性
        2. 不偏性
      2. 不偏分散を利用する理由
  4. 区間推定:母分散が既知な場合
    1. テーマ
    2. 一個の標本で母平均を区間推定する
      1. 前提条件
      2. 標本数1つで区間推定する
      3. 複数個の標本から母平均を区間推定する
    3. まとめ
  5. 区間推定:母分散も未知な場合
    1. テーマ
    2. 復習(確率変数の標準化)
    3. 確率変数Tを定義
    4. t分布で推定してみる
    5. まとめ
  6. 区間推定:母集団分布が未知の場合
    1. テーマ
    2. 区間推定するポイント
      1. 標本をたくさん集める
      2. 母集団の分散を「標本の不偏分散」で代用する
    3. 実際に区間推定をする
  7. 母比率の推定
    1. 母比率、標本比率とは
    2. テーマ
    3. 区間推定をする
    4. 例題を解いてみよう
    5. 実用例
  8. 母分散の推定
    1. 母分散を推定したいケース
    2. χ二乗分布の気持ち
    3. 実際に推定してみる
  9. 母平均の検定
    1. 統計的検定とは
      1. 使う数学的手法
      2. 使う論証手法
    2. 例題①
      1. 問題
      2. 解答
      3. 注意点
    3. 検定のまとめ
    4. 例題② t検定
      1. 問題
      2. 解答
  10. ウェルチの検定
    1. ウェルチの検定(差の検定)
    2. 等分散を仮定する場合
    3. 例題(等分散の場合)
    4. 等分散を仮定しない場合
    5. 例題(等分散を仮定しない場合)
  11. 動物園デートで気になる女の子を確実に落とせる雑学シリーズ
    1. コンドル(タカ目コンドル科)
    2. ツキノワグマ(食肉目クマ科クマ属)
    3. ペンギン(鳥綱ペンギン目)
    4. カグー(ジャノメドリ目カグー科)
    5. フサオマキザル(オマキザル科オマキザル属)
    6. アカエリマキキツネザル(キツネザル科)
    7. キリン(キリン科キリン属)
    8. ダチョウ(ダチョウ目ダチョウ科ダチョウ属)
    9. ライオン(食肉目ネコ科ヒョウ属)
  12. まとめ
    1. 再生リストはこちら

ヨビノリさんとは

下記の記事で紹介しています

推定・検定の用語

【大学数学】推定・検定入門①(母集団と標本)/全9講【確率統計】

この動画を見ると

  • 推定、検定で使用される用語
  • 推定、検定をするときの前提条件

が分かります。

用語の解説

母集団:調査する対象全体

$$母集団の平均を母平均:\mu$$

$$母集団の分散を母分散:\sigma^2$$

一個一個のデータのことを標本といいます。

$$標本:X_1,X_2 \dots X_n$$

テーマ

取り出した標本から母集団がどんな集団かを推定したい。
これは統計的推測と呼ばれる
(統計的推測には統計的推定と仮説検定がある。)

前提条件

母集団が十分大きい場合を想定。
(大きすぎて全部を調べられないから
一部のデータだけで母集団の姿を想像したい)

標本の取り出し方は無作為に抽出する必要があります。
偏りがあると知りたい母集団の平均と分散からかけ離れてしまいます。

母集団分布は正規分布と仮定して話を進めます。
なぜなら正規分布は最もポピュラーで数学的な性質も扱いやすいから。

$$X_1,X_2 \dots X_n$$

大文字は確率変数を表す。

$$x_1,x_2 \dots x_n$$

小文字は具体的な数値、観測値、実現値を表す。

母集団の母平均をピンポイントで推定

【大学数学】推定・検定入門②(点推定)/全9講【確率統計】

テーマ

母集団の

$$母平均:\mu=?\\
母分散\sigma^2=?$$

をピンポイントで知りたい

つまり母分散は分かっているけど
母平均が分からないので推定したい

標本平均による平均の点推定

ピンポイント予想、一つの値を当てたい。
これを点推定という。

取り出したサンプル(標本)の平均値を
標本平均という。

$$標本平均:\overline{X} = \frac{X_1+ \dots + X_n}{n}$$

標本平均も確率変数となる。
(各Xは特定の値ではなくある確率で決まる変数であり、
それの和も確率で決まる変数となるから)

不偏分散による分散の点推定

$$標本分散:S^2 = \frac{(X_1-\overline{X})^2+ \dots + (X_n – \overline{X})^2}{n}$$

標本分散も確率変数となる。

標本分散は点推定には適していない。

標本分散の代わりに不偏分散を用いる。

$$不偏分散:U^2 = \frac{(X_1-\overline{X})^2+ \dots + (X_n – \overline{X})^2}{n-1}$$

不偏分散のほうが点推定には適している

不偏分散の方が分母の値が小さくなるので
不偏分散>標本分散となる。

推定量に望む性質

$$(\theta:母数,\hat{\theta}:推定量)$$

推定したい真の値θを母数という。
母数を標本から推定した値を推定量という。

母数と推定量の関係

一致性

$$nが大きくなれば\hat{\theta}が\thetaに限りなく近づく$$

数式で表現すると下記のようになる。(確率収束)
$$\forall \epsilon に対し \lim_{n\to \infty}P(|\hat{\theta}-\theta|\gt \epsilon ) = 0$$

不偏性

$$\hat{\theta}の期待値が\thetaになる$$
$$E[\hat{\theta}]= \theta$$

不偏分散を利用する理由

Q:なぜ標本分散ではなく、不偏分散を使うのか?
A:標本分散では、真の分散を過小評価してしまうから。

実際に標本分散を計算すると
$$E[S^2]=\sigma^2 -\frac{1}{n}\sigma^2$$

となる。一方、不偏分散を計算すると
$$E[U^2]=\sigma^2$$
となる。

過小評価の直観的理由としては
「標本平均」との偏差で計算しているので
標本分散が真の分散よりも小さくなってしまう。

$$標本分散:S^2 = \frac{(X_1-\overline{X})^2+ \dots + (X_n – \overline{X})^2}{n}$$

区間推定:母分散が既知な場合

【大学数学】推定・検定入門③(区間推定:分散が既知な場合)/全9講【確率統計】

テーマ

母分散は分かっているけど
母平均が分からないので、
母集団から標本をとり、
(ピンポイントではなく)
幅を持たせた推定をしたい。

この幅を持たせた推定を区間推定という

一個の標本で母平均を区間推定する

身体測定を例にして説明する。

前提条件

母集団は正規分布と仮定し、
$$母分散が\sigma^2 = 6^2のとき$$
$$母平均は\mu を推定したい$$

ここで信頼度95%でμを推定する

標本数1つで区間推定する

ここでは標本を1つだけ取り出して
そこから母平均を区間推定する。

今回の標本値は165㎝であった。

信頼度95%とすると、
母平均μは次の値の範囲に含まれる
$$-1.96\sigma \le \mu \le 1.96\sigma$$

よって標本平均Xは信頼度95%で次の範囲に含まれる
$$X – 1.96\sigma \le \mu \le X + 1.96\sigma$$
これを式変形すると
$$\mu – 1.96\sigma \le X \le \mu + 1.96\sigma$$

なぜこの区間になるのか
というのは正規分布の特徴から判明している。
詳細に知りたい場合は、
図解 統計学超入門を読むと理解できる

$$\sigma = 6, X=165を代入すると$$
$$153.24 \le \mu \le 176.76$$

これは信頼度95%の信頼区間となる

この信頼区間の意味を言い換えると

算出される信頼区間のうち95%が母平均を含む

ということは
5%の確率で、母平均(真の平均値)を含まない区間を
推定するリスクも孕んでいることにも留意したい。

複数個の標本から母平均を区間推定する

今度は複数個の標本を取り出し
そこから母平均を区間推定する。

標本を
$$X_1 \dots X_n$$
とし、
標本平均を
$$\overline{X}=\frac{X_1+ \dots + X_n}{n}$$
とする。

このとき

$$標本平均\overline{X}は、平均\mu、分散\frac{\sigma^2}{n}の正規分布に従う$$

標本数が大きくなるほど分散が小さくなる。
→平均が突出した分布になる

身体測定の例に戻る

信頼度95%でμを推定する

標本値は165㎝,170,163,171,161,162,180,158,164であった。
まずはこの標本平均を求める

$$\overline{X} = \frac{165+170+163+171+161+162+180+158+164}{9}$$

これを区間推定すると、

$$\mu -1.96\frac{\sigma}{\sqrt{n}} \le \overline{X} \le \mu + 1.96\frac{\sigma}{\sqrt{n}}$$

よって

$$\overline{X} -1.96\frac{\sigma}{\sqrt{n}} \le \mu \le \overline{X} + 1.96\frac{\sigma}{\sqrt{n}}$$

$$\sigma = 6 , n=9,\overline{X}= 166を代入$$

$$162.62 \le \mu \le 169.92$$
となる。
これが母平均の信頼度95%の信頼区間となる。

標本数が1個の時
$$153.24 \le \mu \le 176.76$$
標本数が9個の時
$$162.62 \le \mu \le 169.92$$

標本数を増やすことで
信頼区間の幅が狭まっていることが分かります。
それだけ推定の精度が上がります。

まとめ

一般に、正規母集団に対する信頼度αの信頼区間は

$$\overline{X} – k\frac{\sigma}{\sqrt{n}} \le \mu \le \overline{X} + k\frac{\sigma}{\sqrt{n}}$$

となる。ここでkは標準正規分布の両側100(1-α)%点である。

$$\mu = 0 ,\sigma^2 =1$$となる正規分布を
標準正規分布という。

標準正規分布については
数学的な解析はされており
αの値によって対応するkの値がいくつになるかは
判明している。

$$\alpha =0.95 \to k=1.96$$

こちらも前述した
図解 統計学超入門に記載されている。

区間推定:母分散も未知な場合

【大学数学】推定・検定入門④(区間推定:分散が未知な場合)/全9講【確率統計】

テーマ

母集団の母分散も不明な状態で
母集団から標本をとり
母平均を区間推定したい。

復習(確率変数の標準化)

確率変数Zを
$$Z=\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}$$
とする。

確率変数の標準化
$$E[aX+b]=aE[X]+b$$
$$V[aX+b]=a^2V[X]$$

$$標本平均\overline{X}は、平均\mu、分散\frac{\sigma^2}{n}の正規分布に従う$$

これらの性質を用いて、
確率変数Zの平均と分散を求めると

Zは平均0、分散1になる。
つまり、Zは標準正規分布になる。

信頼度95%となるZの範囲を求める。

$$-1.96 \le \frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \le 1.96$$

μの範囲に式変形すると

$$\overline{X}-1.96\frac{\sigma}{\sqrt{n}} \le \mu \le \overline{X}+1.96\frac{\sigma}{\sqrt{n}} $$

信頼度95%の信頼区間がわかる。
しかし母分散σが不明の時は
信頼区間が求められない。

確率変数Tを定義

母分散σが分からない場合、どうするか考える
母分散σの代わりに不偏分散Uを使って
確率変数Tを下記のように定義する。

$$T=\frac{\overline{X}-\mu}{\frac{U}{\sqrt{n}}}$$

TはZのσ部分をUに置き換えた式である。
実は確率変数Tは正規部分ではなく
自由度n-1のt分布に従うことが分かっている。

$$平均\mu、分散\sigma^2 の正規分布に従う\\
独立な確率変数X_1,X_2,\dots ,X_nがあるとする。このとき\\
T=\frac{\overline{X}-\mu}{\frac{U}{\sqrt{n}}}は自由度n-1 のt分布に従う$$

t分布の特徴

  • 左右対称
  • 正規分布をつぶした形
  • nが大きくなると正規分布に近づく

t分布で推定してみる

雑誌のページ数で推定する。

母集団は正規分布と仮定
$$\sigma^2 =?のとき$$
$$信頼度95%で\mu=?を推定したい$$

標本値は94,99,86,101であった。

標本数n=4より自由度3のt分布に従う。
t分布の信頼度95%の信頼区間となるのは下記の範囲となる。

$$-3.18 \le \frac{\overline{X}-\mu}{\frac{U}{\sqrt{n}}} \le 3.18$$

これをμの範囲になるように式変形する。

$$\overline{X}-3.18\frac{U}{\sqrt{n}} \le \mu \le \overline{X}+3.18\frac{U}{\sqrt{n}} $$

$$\overline{x}=\frac{94+99+86+101}{4}=95$$
$$u^2=\frac{(94-95)^2+(99-95)^2+(86-95)^2+(101-95)^2}{4-1}$$
$$u^2 \simeq 44.67 \to u \simeq 6.68$$

不偏分散u、標本数n、標本平均xを代入すると

$$84.4 \le \mu \le 105.6$$

まとめ

一般に、正規母集団に対する信頼度αの信頼区間は

$$\overline{X} – k\frac{U}{\sqrt{n}} \le \mu \le \overline{X} + k\frac{U}{\sqrt{n}}$$

となる。ここでkは自由度n-1のt分布の両側100(1-α)%点である。

母分散が分かっている時は
t分布よりはシャープに区間推定できるが
母分散が不明なときは
区間推定の幅が広がってしまう。

区間推定:母集団分布が未知の場合

【大学数学】推定・検定入門⑤(区間推定:母集団分布が未知な場合)/全9講【確率統計】

テーマ

母集団の
母平均、母分散が未知で
さらに分布も未知の場合を考える

このときの母平均を区間推定したい

区間推定するポイント

区間推定するときのポイントは2つ

  • 標本をたくさん集める
  • 母集団の分散を「標本の不偏分散」で代用する

標本をたくさん集める

標本をたくさん集める理由は
中心極限定理を活用するため。

中心極限定理

$$平均\mu、分散\sigma^2の母集団から抽出した標本の大きさnが\\
十分大きいとき、標本平均\overline{X}は近似的に\\
平均\mu、分散\frac{\sigma^2}{n}の正規分布に従う$$

母集団の分布が正規分布に従うのではなく、
「標本平均の分布」が正規分布に従う
ということに注意する。
母集団の分布はどんなものであっても
中心極限定理が成り立つ。

$$標本数nが十分大きくなれば、標本平均\overline{X}は近似的に正規分布に従う$$

標本をたくさんとる理由はここにある。

よって信頼度95%で区間推定すると

$$\overline{X}-1.96\frac{\sigma}{\sqrt{n}} \le \mu \le \overline{X}+1.96\frac{\sigma}{\sqrt{n}}$$

母集団の分散を「標本の不偏分散」で代用する

母分散σが未知なので、不偏分散Uで置き換える
(標本数nが十分に大きいので不偏分散Uはσに近づく)

$$\overline{X}-1.96\frac{U}{\sqrt{n}} \le \mu \le \overline{X}+1.96\frac{U}{\sqrt{n}} $$

これを信頼度95%の信頼区間とする。

実際に区間推定をする

例:あるYouTuberの再生数Xの平均値を求めたい。
大きさ100の標本を取り出したところ、
$$\overline{X}=25000,u^2=5000^2$$
であった。平均再生数μを信頼度95%で推定せよ

$$25000-1.96\frac{5000}{\sqrt{100}} \le \mu \le 25000-1.96\frac{5000}{\sqrt{100}} $$

計算すると

$$24020 \le \mu \le 25900 $$

中心極限定理の解説動画もあります。

【確率統計】中心極限定理の気持ち【特別講義】

母比率の推定

【大学数学】推定・検定入門⑥(母比率の推定)/全9講【確率統計】

母比率、標本比率とは

ある母集団に
キノコは好きですか?
という質問にYESかNOで答える。
その時のYESまたはNOの割合を「母比率」という。

母比率pの母集団から
標本をいくつか取る。
このときの標本の中で
質問に該当する比率を「標本比率」という

テーマ

母比率pが未知の母集団から
標本をいくつか取っていく。
標本比率Rのとき、
母比率pを推定したい。

母比率pの95%信頼区間を求める

区間推定をする

標本である確率変数Xの値を
次のように割り当てる。

$$X_i =\begin{cases}
1(質問に該当) \\
0(質問に非該当)
\end{cases}$$

$$各X_i(i=1,2,\dots ,n)はベルヌーイ分布に従う\\
(平均:p,分散:p(1-p))$$

このとき、標本平均そのものが標本比率Rになる

$$\overline{X}=\frac{X_1 + \dots + X_n}{n}=R$$

nが十分に大きいとき、中心極限定理より

$$標本平均\overline{X}は、平均p、分散\frac{p(1-p)}{n}の正規分布に従う$$

信頼度95%で区間推定すると、

$$p-1.96\sqrt{\frac{p(1-p)}{n}} \le \overline{X} \le p+1.96\sqrt{\frac{p(1-p)}{n}} $$

標本平均と標本比率が等しいので

$$p-1.96\sqrt{\frac{p(1-p)}{n}} \le R \le p+1.96\sqrt{\frac{p(1-p)}{n}} $$

これを式変形して

$$R-1.96\sqrt{\frac{p(1-p)}{n}} \le p \le R+1.96\sqrt{\frac{p(1-p)}{n}} $$

となる。

nが十分大きいから
大数の法則より標本平均は母平均に収束する。
よって、
$$\sqrt{\frac{p(1-p)}{n}} を\sqrt{\frac{R(1-R)}{n}} に置き換える$$

よって、母比率pは次の区間に推定できる。

$$R-1.96\sqrt{\frac{R(1-R)}{n}} \le p \le R+1.96\sqrt{\frac{R(1-R)}{n}} $$

これが信頼度95%の信頼区間となる。

例題を解いてみよう

ヨビノリの認知率を調べるために
無作為に選んだ理系大学生400人に
「このチャンネルを知っているか」
と聞いたところ、320人が「知っている」と答えた。
全国の理系大学生への認知率pを
信頼度95%で推定せよ。

$$R-1.96\sqrt{\frac{R(1-R)}{n}} \le p \le R+1.96\sqrt{\frac{R(1-R)}{n}} $$

これにR=0.8、n=400を代入する

$$0.8-1.96\sqrt{\frac{0.8 \times 0.2)}{400}} \le p \le 0.8+1.96\sqrt{\frac{0.8 \times 0.2)}{400}} $$

$$ 0.7608 \le p \le 0.8392$$

この範囲が95%の信頼区間となる。

実用例

視聴率や、出口調査が
母比率の推定に該当します。

ここを理解することで
どのような仕組みで推定しているのかが
わかってきます。

母分散の推定

【大学数学】推定・検定入門⑦(母分散の推定)/全9講【確率統計】

テーマ

母集団の分布が正規分布で
母分散、母平均がともに未知なときに
母分散σを推定したい。

母分散を推定したいケース

工場などの製造ラインで出来上がった商品の
内容量を調べて分散がある範囲で収まることを知りたい

分散が大きいということは
出来上がった商品の内容量に
大きなばらつきがあることを示してしまうので
商品として出荷できない
ということがわかる。

χ二乗分布の気持ち

標本から作られる分散の分布の情報が必要となる。
そこで次の定理を用いる。

$$分散\sigma^2の正規分布に従う\\
独立な確率変数X_1,X_2,\dots ,X_nがあるとする。\\
このとき\\
T=\frac{(n-1)U^2}{\sigma^2}\\
は自由度n-1の\chi^2分布に従う$$

結局は不偏分散Uが
自由度n-1のχ二乗分布に従うことを意味する。

χ二乗分布の特徴は下記の通り

  • 左右非対称
  • 自由度によって大きいく形状が異なる

$$T=(\frac{X_1-\overline{X}}{\sigma})^2+ (\frac{X_2-\overline{X}}{\sigma})^2 + \dots + (\frac{X_n-\overline{X}}{\sigma})^2\\
=\frac{n-1}{\sigma^2} \times  \frac{(X_1-\overline{X})^2 + \dots + (X_n-\overline{X})^2}{n-1}\\
=\frac{(n-1)U^2}{\sigma^2}$$

各標本の平均からのずれ具合を積み重ねていったのが
確率変数Tの意味となる。

なぜχ二乗分布のピークがTの値が
小さい位置にきているのはなぜか?

自由度が小さいというのは
標本数が少ないということになる
Tの和の項数が少なくなるので
分散が小さくなりピークが手前側にくることになる。

自由度が大きくなると
項数が増えるので、
Tの和の項数が増え、
Tの値の取りえる範囲が広くなる。
よって分散が大きくなる。

実際に推定してみる

工場で生産されたお菓子の重さを推定する。

母集団を正規分布と仮定し、
母平均も母分散も不明である。
標本をいくつか取り出し母分散を推定したい

$$標本数n=10,\overline{X}=9.90,U^2=0.250とする。$$

自由度9(=n-1)のχ二乗分布を考える。

下側2.5%点は2.70
上側2.5%点は19.0
となる。

$$2.70 \le T \le 19.0$$
$$2.70 \le \frac{(n-1)U^2}{\sigma^2} \le 19.0$$
$$\frac{(n-1)U^2}{19.0} \le \sigma^2 \le \frac{(n-1)U^2}{2.70}$$
代入すると

$$0.118 \le \sigma^2 \le 0.833$$

これが信頼度95%の信頼区間となる。

母平均の検定

【大学数学】推定・検定入門⑧(母平均の検定)/全9講【確率統計】

統計的検定とは

母集団に関する仮説を
標本から得た情報に基づき検証すること

使う数学的手法

推定の時と同じ

使う論証手法

確率論の特有な方法で論証していく

例題①

問題

あるメーカーが「この製品の平均内容量は150mlです」と主張している。
しかし、最近この量が減ったのではないかと疑っている。
そこでこの製品100個を無作為に抽出して調べてみたところ、
その平均は148.5mlであった。
このことから「平均内容量は減った」といえるのか。
内容量の分布は母分散8.0^2(ml^2)の正規分布として
有意水準5%で検定せよ。

解答

帰無仮説H_0:平均内容量に変化なし
μ=150
↑相手の主張

対立仮説H_1:平均内容量は減った
μ<150
↑自分の主張

帰無仮説と対立仮説を設定することから検定は始まる。

まず、帰無仮説H_0を認める。
その上で標本平均の分布を調べる。

中心極限定理より
$$平均150ml、分散\frac{8.0^2}{100}の正規分布となる$$

下位5%点より下が棄却域となる。
下位5%点は148.7mlであった。
標本平均が148.5mlより棄却域に含まれるので
H_0は棄却され、H_1が採択される。

注意点

同じ帰無仮説でも、
対立仮説の取り方で逆の結果が
得られることがある。

例えは対立仮説を
平均内容量は変化した
μ≠150
とする。

その時、棄却域が
上位2.5%点(148.4)より外、
下位2.5%点(151.6)より外、
の範囲が棄却域になる。

148.5は棄却域外になるので
H_0は受容される。

検定のまとめ

検定の流れは次の通り

  1. 帰無仮説H_0と対立仮説H_1を設定
  2. H_0のもとで対象となる統計量の分布を調べる
  3. 有意水準を決め、2の分布において
    H_1に有利となる棄却域を設定
  4. 標本を抽出し統計量が棄却域にあるかを調べ
    棄却域にあればH_0を棄却する

また有意水準は危険率とも呼ばれる。

例題② t検定

問題

ある県において10年前の20代男性の平均身長は171.4㎝であった。
近年の栄養状態を考えると、この数値は増えているのでは
と思い、9人を無作為に抽出したところ、
その平均は172.8㎝であり、不偏分散は2.0^2 cm^2であった。
このことから「平均身長は増えた」といえるか。
身長は正規分布に従うと仮定し、有意水準5%で検定せよ。

解答

$$帰無仮説H_0:\mu=171.4\\
対立仮説H_1 \gt 171.4$$

$$T=\frac{\overline{X}-\mu}{\frac{U}{\sqrt{n}}}$$
は自由度n-1に従うので
自由度8のt分布を考える。

上位5%点(1.86)より外側が棄却域となる。

標本から得られた値を求めると

$$t= \frac{172.8-171.4}{\frac{2.0}{\sqrt{9}}} = 2.1$$

棄却域に含まれるので、H_0は棄却される。

ウェルチの検定

【大学数学】推定・検定入門⑨(ウェルチの検定)/全9講【確率統計】

ウェルチの検定(差の検定)

2つの母集団からとってきた
標本の標本平均に差があった
→「母平均に差がある」といえるか?(差の検定)

例えば

  • 20代と30代の所得の差
  • 薬Aと薬Bが効くまでの日数

というものがある。

等分散を仮定する場合

次の定理を使う

同じ母平均と母分散をもつ2つの正規母集団A,Bから
それぞれ大きさn_A,n_Bの標本を抽出したとする。
このとき$$T=\frac{\overline{X_A}-\overline{X_B}}{\sqrt{(\frac{1}{n_A}+\frac{1}{n_B})\frac{(n_A-1)U_A^2+(n_B-1)U_B^2}{n_A+n_B-2}}}$$Tは自由度n_A+n_B-2のt分布に従う

例題(等分散の場合)

A県、B県の数学のテストを行った。
A県、B県の母集団はともに正規分布に従い、等分散とする。

A県については
$$n_A=40,\overline{x_A}=63,u_A^2 = 5^2$$

B県については
$$n_B=60,\overline{x_B}=58,u_B^2 = 10^2$$

このとき「A県の高校生は
B県の高校生よりも優秀である」といえるか?
有意水準1%で検定せよ。

まずは帰無仮説と対立仮説は
$$H_0:u_A=u_B,H_1:u_A>u_B$$
となる。

確率変数Tの分布は自由度98のt分布に従う。

$$t=\frac{\overline{x_A}-\overline{x_B}}{\sqrt{(\frac{1}{n_A}+\frac{1}{n_B})\frac{(n_A-1)U_A^2+(n_B-1)U_B^2}{n_A+n_B-2}}}$$

上位1%点(2.37)より外側が棄却域となる。
tの値は2.92となるので、棄却域に含まれる。
よってH_0は棄却される。

つまりA県はB県よりも優秀であると言える。

等分散を仮定しない場合

次の定理を使う

同じ母平均と母分散をもつ2つの正規母集団A,Bから
それぞれ大きさn_A,n_Bの標本を抽出したとする。
このとき$$T=\frac{\overline{X_A}-\overline{X_B}}{\sqrt{\frac{U_A^2}{n_A} + \frac{U_B^2}{n_B}}}$$Tは自由度νのt分布に近似的に従う。ここでνは$$\frac{(\frac{U_A^2}{n_A} + \frac{U_B^2}{n_B})^2}{\frac{(\frac{U_A}{n_A})^2}{n_A-1} + \frac{(\frac{U_B}{n_B})^2}{n_B-1}}$$に最も近い整数である。

例題(等分散を仮定しない場合)

先ほどの例題に等分散の過程を外す

A県、B県の数学のテストを行った。
A県、B県の母集団はともに正規分布に従う。

A県については
$$n_A=40,\overline{x_A}=63,u_A^2 = 5^2$$

B県については
$$n_B=60,\overline{x_B}=58,u_B^2 = 10^2$$

このとき「A県の高校生は
B県の高校生よりも優秀である」といえるか?
有意水準1%で検定せよ。

まずは帰無仮説と対立仮説は
$$H_0:u_A=u_B,H_1:u_A>u_B$$
となる。

自由度νを計算する

$$\frac{(\frac{U_A^2}{n_A} + \frac{U_B^2}{n_B})^2}{\frac{(\frac{U_A}{n_A})^2}{n_A-1} + \frac{(\frac{U_B}{n_B})^2}{n_B-1}}=91.97$$

自由度92のt分布に従う。

上位1%点(2.63)より外側で棄却域となる。

よって値を求めると

$$t=\frac{\overline{x_A}-\overline{x_B}}{\sqrt{\frac{U_A^2}{n_A} + \frac{U_B^2}{n_B}}}=3.30$$

棄却域に含まれるので、
H_0は棄却される。

つまりA県の方がB県よりも優秀であると言える。

動物園デートで気になる女の子を確実に落とせる雑学シリーズ

この推定検定入門動画では
動画の冒頭にネタとして

動物園デートで気になる女の子を確実に落とせる雑学

を紹介していますので
それもまとめました。

コンドル(タカ目コンドル科)

  • 死体を食べること
  • 頭が汚れないように毛が生えていない

ツキノワグマ(食肉目クマ科クマ属)

主食は山菜。

ペンギン(鳥綱ペンギン目)

フンボルトペンギンは
実は寒さに弱い
北海道の動物園で飼育されている
フンボルトペンギンは冬はストーブで耐え忍ぶ

カグー(ジャノメドリ目カグー科)

外敵がいなくなり飛ぶ能力を失う

フサオマキザル(オマキザル科オマキザル属)

高い知能を持っている
クルミを割って食べることができる

アカエリマキキツネザル(キツネザル科)

外敵を見つけると大きな奇声を上げる

キリン(キリン科キリン属)

生まれたときから180㎝ぐらいの身長がある

ダチョウ(ダチョウ目ダチョウ科ダチョウ属)

現存する鳥類の中で最大の鳥。
走りが速く、時速70㎞にも達する。
野うさぎが時速72㎞で走ることができるので
一番ではない。

ライオン(食肉目ネコ科ヒョウ属)

肉食のライオンですが、
草食動物の内臓を食べることで
食物繊維を間接的に摂取している。

まとめ

今回はヨビノリさんの動画教材をもとに
検定推定の教材を補完場としてまとめました。

確率変数の分布や範囲を決めることができれば
理論はそれほど難しいわけではありません。
極端な話、数値を代入するだけです。

複雑な計算は電卓やExcelに任せればいいので
私たちにも信頼区間を求めたり、
検定をすることができます。

再生リストはこちら

【大学数学】推定・検定入門②(点推定)/全9講【確率統計】
タイトルとURLをコピーしました