まず、データの集まりを分析するときに
色んな特徴を割り出していきます。
一番有名な特徴として使われるのが「平均」です。
この値だけでは特徴を表し切ることができなくて、
もう一つ別の特徴を表す値を定義します。
それが「分散」であり「標準偏差」です。
この記事では分散と標準偏差を勉強していきましょう

どうしても気になる場合は
フォームから
「優しく」ご指摘いただければ
助かります。
参考・引用文献
下記の資料を中心に執筆しています。
各所で引用元を記すべきですが
煩雑になるのを防ぐため
こちらでまとめて明示いたします。
書籍
- 統計学入門 (基礎統計学Ⅰ)
- 統計学入門 (新経済学ライブラリ)
詳しくはこちらの記事で紹介しています。
動画
- 予備校のノリで学ぶ「大学の数学・物理」
- ヒキミChannel-高卒が大学数学を独学してみた-
- 10分で単位が取れる、理系科目のサクっと講義
- 塾講師オザワのていねいな授業
詳しくはこちらの記事で紹介しています。
分散、標準偏差の定義
平均と分散の定義
平均というのはデータを全部足して、個数で割った値です。
$$\overline{x} = \frac{a_1+ \dots + a_n}{n} = \frac{1}{n}\sum_{k=1}^{n}a_k$$
この値だけでは特徴を表し切ることができなくて、
もう一つ別の特徴を表す値を定義します。
それが「分散」です。
$$S^2 = \frac{(a_1-\overline{x})^2 + \dots +(a_n-\overline{x})^2 }{n} \\
= \frac{1}{n}\sum_{k=1}^{n}(a_k-\overline{x})^2$$
各データと平均の差を2乗し、それを足し合わせて、個数で割った値です。
これは何をしめしているかというと、
データの散らばり具合です。
平均値が同じでも、データが平均値に密集している場合もあれば
大きい値から小さい値まで幅広く散らばっている場合もあります。
その散らばり具合をあらわす目安になるものはないだろうかと、
(おそらく)考えて定義されたのが分散です。
標準偏差とは
各データが平均に近ければ値も小さくなります。
データの値が平均値よりも大きい場合いと小さい場合で符号が変わるので、
どちらでも正になるように2乗しています。
2乗しているので長さや重さなどの単位も2乗されているので
平均と同じ単位にそろえるために分散の正の平方根をとったのが
「標準偏差」とよばれます。
標準偏差の値自体が、特別な意味があるわけではなく、
項の数値が大きければデータが散らばっていますよ、
小さければデータが集まっていますよ、
という目安を表しているに過ぎないのです。
分散、標準偏差の値自体はただの目安
例えば身長のデータを調べていて、
平均身長が170㎝で
標準偏差が5㎝だったとします。
165~175cmにデータが収まっている
ということにはならないので注意してください
込み入った話をすると、分布(データの散らばり方の分類)が
正規分布しているというのが分かっていれば、
175cmだったら上位〇%の位置にいるよ
165cmだったら上位〇%の位置にいるよ
というのが分かったりします。
ただしどのような分布になるかとか分からないと、
ただの散らばりぐらいの目安を表しているだけです。
新聞やニュースで、平均は伝えられますが、
標準偏差や分散まで紹介されることはありません。
世間一般に標準偏差や分散が理解できれば、
より統計データについて深い理解が進みます。
平均や標準偏差を理解すれば偏差値の値の意味も理解できるようになります。
分散を求める大事な公式
これは覚えておきましょう。
データの2乗の平均から、
データの平均の2乗を引いたものが
分散になります。
この公式はよく使われますので、
覚えておきましょう。
統計学講義に戻る
統計学のおすすめ本

コメント
[…] […]
[…] 分散・標準偏差 […]
[…] 分散・標準偏差 […]