散布図(Scatter plot)を書けば2つの変数の間に相関があるかどうかはビジュアル的にはわかる。


左のほうが相関が強いのはすぐに分かるができれば定量的に評価できるようにしたい。そんなときは相関係数を出せばいい。
共分散
相関係数を求めるためにはまず 共分散(Covariance)を求める。データの大きさが \(n\) で2つの変数のデータを \( (x_1, y_1), (x_2, y_2),...,(x_n, y_n) \)と表すと以下のように計算できる。
\( s_{xy} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) \)
※ \( s_{xy} \): 共分散 \( \bar{x} \): xの平均 \( \bar{y} \): yの平均
各項(Σの右側)は観測値からその平均を引いたもの(偏差)の掛け算になっている。なので各項の符号は \(x\) と \(y\) の偏差が両方符号が同じ場合にプラスに、異なる場合にマイナスとなる。下の図で言えば右上と左下の場合プラスに左上と右下がマイナスになるので、それぞれ正の相関や負の相関があることがなんとなくイメージできる。

相関係数
共分散は単位によって大きさが変わるので両方の標準偏差で割ることで -1 から 1 の間の値になる。これを相関係数(correlation coefficient)と呼ぶ。
相関係数 \( r_{xy} = \frac{s_{xy}}{s_{x} s_{y}} \)
※ \( s_{xy} \): 共分散 \(s_{x}\): xの標準偏差 \(s_{y}\): yの標準偏差
なんで標準偏差で割ると -1 から 1 の間になるのかは これ とかが参考になりそうだけど理解に時間がかかりそうなのでまたの機会にする。