R勉強会 第3回 相関係数のわかりやすい解釈

Rによるやさしい統計学

Rによるやさしい統計学

この本は、勉強会の教科書として使っているだけで、以下の話が書いてあるわけではありません。

相関係数ってあるじゃないですかあ。公式で書くとあれですよねあれ。

でもこれじゃあ、 とか とか とか、なんのことかわからんですよね。そこでドン。

ああ、これで、各ケースの値 , を代入していけばいいだけになりましたね。めでたしめでたし。ああ、光が・・・広がっていく・・・(byカミーユ・ビダン



ちなみに、上の数式はこうやって書きます。
r_{xy}=\frac{\displaystyle{\frac{1}{n}\sum_{i=1}^{n}\left(x_{i}-\frac{1}{n}\sum_{i=1}^{n}x_{i}\right)\left(y_{i}-\frac{1}{n}\sum_{i=1}^{n}y_{i}\right)}}{\displaystyle{\sqrt{\frac{1}{n}\sum_{i=1}^{n}\left(x_{i}-\frac{1}{n}\sum_{i=1}^{n}x_{i}\right)^{2}}\sqrt{\frac{1}{n}\sum_{i=1}^{n}\left(y_{i}-\frac{1}{n}\sum_{i=1}^{n}y_{i}\right)^{2}}}}}
俺なにやってんだろ・・・という気分になってきました。

気を取り直して、言葉で理解しましょう。相関係数とは、「共分散を標準偏差の積で割ったもの」です。分子の が共分散で、分母の がそれぞれ標準偏差ですね。標準偏差についてはすでに解説したので、まずは共分散とは何かを理解しましょう。

標準偏差についてはこちら↓
http://d.hatena.ne.jp/takemita/20081017/p2
http://d.hatena.ne.jp/takemita/20091127/p2

共分散についても、式をやみくもに覚えるのではなく、言葉で覚えた方がましではあります。つまり「平均からの偏差の積の平均」と。変数が一つのときの分散が「平均からの偏差の二乗の平均」だったのに対して、変数が二つになったので「二乗」が「積」になっています。まあとりあえずこれで、計算には困らない、っと。



でも、図形で理解した方がはるかにわかりやすいです。そのために、まずは散布図を書いてみましょう。これは、『Rによるやさしい統計学』の57頁の図3.1と同じものです。横軸、縦軸ともに、単位は「点」です(テストなので)。
一見して、統計テスト1の点数が高いほど、統計テスト2の点数も高いという感じですよね。この二つの変数の間には、強い正の相関がありそうです。というか、あるのは見たらわかりますよね。この「見たらわかる」というのはすごく大事なことで、だから図示するのもすごく大事なことです。

とはいえ、ここでは数値で(も)表してみるというのが目標ですので、先に進みましょう。共分散とは「平均からの偏差の積の平均」でしたので、点数の平均をまず知らないといけません。それぞれについて、Rで平均点を計算してみたら、統計テスト1は7点、統計テスト2は10点でした。それを書きこんでみます。
図形的にも、強い正の相関がありそうなことが、よりわかりやすくなりました。平均点のところで線を引いてみることで、全体が上下左右に四分割されます。プロットされている点(=人)が、右上と左下に多く、左上と右下は少ないですね。もし、左上と右下にもっと人がいたら、相関はないかなあという感じになってきますし、左上と右下に多くて、右上と左下に少なかったら、強い負の相関があることになりそうですよね。とかとか、そんなことをいろいろ妄想しておきましょう。

えーと、共分散というのは「平均からの偏差の積の平均」でしたね(そろそろ覚えたでしょうか)。上で、平均(点)については図に書いたので、こんどは「平均(点)からの偏差」を描き込んでみましょう。
右上の領域の、点数の組が(10点,15点)の人に注目です。平均点の組が(7点,10点)ですから、この人は「平均点からの偏差」の組が、(+3点,+5点)ですね。優秀です。38-39頁の表2.1には名前も載っています。この人は多村さん(男)ですね。よくがんばりました。
右下の領域の、(8点,7点)の人はどうでしょうか。表によると斉藤さん(女)です。この人の偏差は(+1点,-3点)ですね。統計テスト2のときはぼうっとしてたんでしょうか。ちょっと心配です。
左下の領域の(3点,3点)の人はどうでしょう。松田さん(男)です。偏差は(-4点,-7点)です。これはちょっとやばいですね。どうしましょう。
今後の指導はともかく、図を見ればわかるように、各人の「平均からの偏差」は、上で書いた平均値の縦横二つの軸に、プロットされた点(=人)から垂直に下した線分の長さ、ということになります。長さ、といっても、単位は「点数」ですけど。また、上下左右のどの領域にいるかで、この長さに正負の符号が付きます。右上なら(+,+)、左上なら(−,+)、左下なら(−,−)、右下なら(+,−)です。

共分散というのはっ!「平均からの偏差の積の平均」でしたっ!! ・・・くどいですね、すいません。上で各人についての「平均からの偏差」までいきましたので、次は「平均からの偏差の積」です。
上の図ですでにお気づきのように、各人について、平均点の縦横の軸と、そこに下ろした垂線によって、長方形が描けていますよね。「平均からの偏差」というのは要するにこの長方形の縦横の長さのことです。その積ということは・・・縦×横=面積! そう、「平均からの偏差の積」とは各人について描かれた長方形の面積のことなのです。
というわけで長方形を塗りつぶしてみました。左下の松田さんのが、なんか塗り方雑ですが、MSのペイントが悪いんで私のせいじゃありません。
で、長方形を見てみると、平均点の軸の中心から離れているほどでかいですね。この例だと、そういう人は右上と左下にしかいません。右下とか左上には小さい長方形の人しかいないのです。となると、この長方形の大きさ=面積が、相関関係の大きさを測るためのデータになりそうだという感じはしてきますよね。
もう一点、上でも述べたとおり、平均点より下の人は、偏差がマイナスになります。ということは「偏差の積」=長方形の面積は、偏差の正負が二つの変数の間で同じ人はプラスですが、違う人はマイナスになるということです。図形でいうと、右上と左下の人は面積がプラスになり、右下と左上の人は面積がマイナスになります。図では、面積がプラスになる長方形を黄色で、マイナスになる長方形を青色で塗りつぶしてみました。面積がマイナスになる、っていうのが変な言い方だと思う人は、面積にマイナスがつく、と言ってもいいです。

さあ、ようやくたどり着きました。共分散は、そう、「平均からの偏差の積の平均」です。平均からの偏差の積が、各人の長方形の(正負つきの)面積だったわけですから、要するに共分散というのは、その人たちの中での、平均的な長方形(の面積)だということになります。もちろん、右下と左上の長方形はマイナスが付いているのを忘れないように。
つまり、

{(右上と左下の長方形の面積の和)−(右下と左上の長方形の面積の和)}÷人数

これが共分散です。ということは、大きな長方形が右上と左下にばかりあって右下と左上には小さいのばかり(強い正の相関がある)なら、共分散の数字は大きく出るでしょう。もし、右下とか左上にも大きな長方形が結構あれば(無相関であれば)、プラマイで打ち消し合って、0に近くなるでしょう。大きいのが右下と左上にたくさんあって、右上と左下にはあまりなければ(強い負の相関があれば)、引き算の結果がマイナスになって、マイナスの方に大きな数字が出るでしょう。
という感じで、平均的な長方形の面積、というふうに定義される共分散の値の大小によって、相関の強さを判断することができそうです。
この統計テストの例について、Rで共分散を計算してみると、+7.55でした。これが面積です。単位は、点数×点数なので、+7.55点2といったところでしょうか。
正方形と違って、長方形は面積が決まっても縦横の長さが一つには決まりません。でもまあ、適当に、

(+2点)×(+3.775点)= +7.55点2

ということで、統計テスト1の偏差が+2点、統計テスト2の偏差が+3.775点ということにしてみました。つまり、(平均点が(7点,10点)でしたから)統計テスト1で9点、統計テスト2で13.775点とった人の長方形ですね。こんな中途半端な点の人はいませんけどね。平均的な長方形の持ち主として虚構的につくりあげるわけです。まあ、というわけで、それを図に描いてみました。

とはいえ、どこに描くかはもうどうでもいいことです。この長方形を切り取って、持ち歩いても構いません。面積(と正負の符号)さえ一定なら、縦横の長さを変えても構いません。いずれにしても、この長方形の面積(に正負どちらかの符号をつけたもの)が、共分散なんです。

ちょっと長くなりすぎたので、続きは明日以降に。
続きというのは、この面積を、それぞれの標準偏差で1回ずつ割ってやって、相関係数を出す、ということが何をしていることになるのか、という話です。

追記

続き書きました。
http://d.hatena.ne.jp/takemita/20091206/p2