R勉強会 第2回

Rによるやさしい統計学

Rによるやさしい統計学

今回は第1章「Rと統計学」および第2章「1つの変数の記述統計」。
この勉強会の最大の目的は、「とりあえず一通りやってみる」ことであり、細かい理解は求めていないのだが(それについてはこの本が終わってから考える)、ちょっとずつ、補足的な解説をブログでやっていこうかと。
特に第2章でやる、代表値(平均値、最頻値、中央値)と散布度(平均偏差、分散、標準偏差)、およびそれらを用いた各データの特徴づけ(偏差、標準得点(z得点、偏差値))については、前に解説したことがあるので、それを読んでもらえればよいかと思う。
http://d.hatena.ne.jp/takemita/20081017/p2


データというのは、それ自体が抽象的なものだ。たとえば政治的問題についての意見というのは、各人おそらくものすごく複雑な形で(多くの場合、曖昧かつ条件依存的な形で)持っているはずだが、調査票ではそれが「そう思う」「あまりそう思わない」〜「全くそう思わない」みたいな乱暴な区分けをされる。この区分けに入らない細かい部分は、すべて捨象されるわけだ。他方で、そうやって抽象しないと、多人数(たとえば日本全体)における意見の分布を知ることはできない。そういう意味で、抽象することによってはじめて、我々は分布を知ることができる。
・・・ああ、だめだな、力が入りすぎていて、継続可能性に疑問が出てきたw
言いたいのは、代表値や散布度というのは、そうやって得られた抽象的な分布からの、さらなる抽象化だということ。分布の形を知るのに一番いいのはヒストグラムを描いてみることだが、いちいちめんどくさいし、口頭では言えないし、他の分布と比較するときに、「ほら二つの図を見較べてみて下さい。どうですか。違うでしょ?」みたいなことしか言えない。そこで分布を、たった一つの数字で表現してしまおうというのが基本的な発想。

代表値にしても散布度にしても、一つの数字で表すぞ、という意気込みは同じだが、実はその数字の性質がちょっと違う。代表値は位置だが、散布度は量なのだ。
平均値というのは、ヒストグラムの横軸上の、ある一点のことである。それに対して、標準偏差というのは、同じ横軸上の、ある一定の幅のことである。たとえば身長の分布のデータであれば、平均値も標準偏差も、単位はcmだ。ところが、平均値がある身長(仮設的につくられた平均人の身長)=横軸上の一点であるのに対して、標準偏差というのは誰かの身長ではなくて、ある身長差=横軸上の幅である。この点忘れないことが重要。

分散とか標準偏差の計算方法を、いわゆる「公式」で覚えるのは馬鹿のすること。

呪文のように覚えるのであれば、もっと意味がわかるように、分散とは「平均からの偏差の二乗の平均」で、標準偏差とは「分散の平方根」というふうにすべき。なんで平方根をとるのかについては、単位が、身長の分布の分散ならcm2、体重の分布の分散ならkg2というふうに、二乗されてしまっているので、それを戻してるんだ、と考えればいい。これも前に解説した。
http://d.hatena.ne.jp/takemita/20081017/p2
だから、分散のイメージだけあれば、公式なんか覚えなくても構わない。二乗するのはマイナスを消すため、と目的論的に考えてもいいが、図形的なイメージも持っておくと面白いかも。図はめんどくさいので描かないが、各自、自分で描いてみるとわかりやすいだろう。
平均値がわかったら、自分の値との間の差を考える。これが「平均からの偏差」であって、横軸上の「幅」=線分だ。次に、この線分を、90度立ててみる。そうすると、偏差を一辺の長さとする正方形ができる。この正方形の面積が、「平均からの偏差の二乗」である。
この正方形は、各データについて一つずつ作ることができる。誰もが一つ、正方形を持っているのだ! じゃあ、みんなの正方形の平均はどんなかな、ということになって、そうやってできる平均的な正方形の面積が、分散であり、この平均的正方形の一辺の長さが、標準偏差である。



ということで今回の補足はこんなとこで。