相関係数

直線回帰などを行った際に出てくる "r" という数の話です。
最近の表計算ソフトや統計ソフトなら、あまり苦労せずに計算してくれます。

相関係数の2乗が1近いと、回帰直線(曲線)の近くに、観察された点があるという程度の理解なら、厳密には間違っていても、感覚的にはわかりやすい訳です。また、実際に、このような感覚でとらえていて、仕事で困ることは少ないと思います。

ところが、計算式をみると、とても複雑に見えますし、さらに、点が増えると、とても手計算は、とっても、難しいです。

計算式は、下記のようにベクトルを使って覚えると、忘れずに済みます。

つまり、観測点 (x1,y1), (x2, y2), ...(xn, yn)に対して、ベクトルxy
x= (x1, x2, x3, ..., xn),  y= (y1, y2, y3, ..., yn) 
と定義した際に、
mx = (x1+x2+...+xn)/n  (つまり x1からxnの平均)
mx = (y1+y2+...+yn)/n (つまり y1からynの平均)
として、
x'= (x1-mx, x2-mx, x3-mx, ..., xn-mx),
y'= (y1-my, y2-my, y3-my, ..., yn-my)
と、します (つまり観測点を(mx,my)を原点とするように平行移動)。
このとき、ベクトルx', y' のなす角をθとすると、
r=cosθ
と、覚えるのが、高校までの数学しかわからない私には覚えやすいのです。上記のベクトルの内積を使うと、x'・y'=|x'||y'|cosθ という関係を使えば、
r = cosθ = x'・y'/|x'||y'|
と、覚えやすい式になります。
上記を wikipedia では、十数行で書いてあります。

ちなみに、すべての点が直線上にある、つまり、y'=cx' (cは任意の定数)という式が成り立つときには、
r=c/|c|
と、なり、cが正なら1、cが負なら-1になります。

では、極めて一般的に遭遇する観測結果のように、「直線上に観測点が載らないとき」は、どう考えるのか?

しばらく、この問題で退屈をする必要はなさそうです。


B! LINE