改訂しました
9.18 平均値をなぜ使うのか・統計への理解をしておこう
[問いかけ]
・平均値で語ろうとするのはなぜなのだろう
・平均値でなければどんな指標があるのだろう
・平均値を正しく使うにはどうすれば良いのか
○ 簡単に手に入る統計値
Excelでのデータ処理が簡単にできるようになり、一般的な統計値が計算式を入れるだけで値を取得できるようになりました。例えば、Excelの計算式は、
平均値 Average
最大値 Max
最小値 Min
標準偏差 StdDev
サンプル数 Count
で計算できます。
統計という言葉は、なんとなく分析していますという安心感を与えてくれます。
一般的な社員意識調査の報告書でも平均値を中心として報告がされ、受け取る方も何も疑問に思わずに受け入れます。
その結果、平均値が低い、あるいは高いと言うことを判断基準にして施策を展開しようとします。
しかし、こうした姿勢には疑問も感じます。
こうしたアンケート結果を解析していたときに、以下のような指摘をされたことがあります。
- 100のデータがあれば100のデータの意味がある。代表値として平均値を使うことで多くの情報が失われる。そこに思いをはせなければならない
- 平均値は母集団が正規分布となっていることが前提になる。そうでない母集団の平均値をとっても意味は無い
特に、正規分布とそれに関わる考え方を理解をしていないと、そもそも平均値とはということが理解できない。こうした理解を無視して平均値の議論をすることに危惧している。
○ 平均値が意味を持つための条件
データが統計的に処理できる前提条件として、「中心極限定理」というものがあります。
どんな説明かというと、下記のようになります。
平均がμ、標準偏差がある有限の値σという母集団から標本を作製するとき、標本平均Xの標本分布は標本変数nが大きくなるにつれて、平均μ、標準偏差σ/√nの正規分布に近づく
「ビジネス統計学 上」ダイアモンド社より
正規分布とは何かを直感的に理解しようとすると以下のようなグラフが提示されることが多いです。
簡単に言えば、平均を中心として左右に一定の規則で提言して行くと言うことです。
こうしたことを言うためには、十分なサンプル数が必要です。
同書では標本変数が十分大きいというのは「一般に、30個以上の要素からなる標本は、中心極限定理を適用できるほど十分に大きいと考えられる」とされています。
したがって、サンプル数が少ないとそもそも上記の定理が適用できないので注意が必要です。
階層別に集計するときに注意が必要なのは、特定の回答者だけ選別することでサンプル数が少なくなることです。
もう一点注意が必要です。
5段階評価のアンケートの分布では、こうしたきれいな図は描けません。
つまり、中心極限定理がつかえたとしても、正規分布と言えるのかどうかがわからないと言うことです。例として、1から5の回答がすべて均等の平均値3.0と3しか回答のない3.0を比較して意味があるのかと言うことに帰着します。
平均値だけで判断しないことも求められます。
[閑話休題] 大数の法則
中心極限定理の別名に「大数の法則」というものがあります。よく使う説明として以下の言い方を使うことがあります。
「繰り返し試行する事象は、その本来として持っている確率に近くなる」
これはどういうことかと言えば、例えばコイントスがあります。
これはコインをトスしてして裏表を出して行くとき、一回の試行では裏か表かで0%、100%となりますが、100回も繰り返していれば、ほぼほぼ半々になると言うことです。
同様にサイコロなどもあげることがあります。
を事例であげるとわかりやすいだろう。
Leave a Reply
コメントを投稿するにはログインしてください。