「相関係数の幾何的解釈」の編集履歴(バックアップ)一覧はこちら

相関係数の幾何的解釈」(2008/09/07 (日) 00:13:28) の最新版変更点

追加された行は緑色になります。

削除された行は赤色になります。

ここでは、通常「ピアソンの積率相関係数」と呼ばれるものについて解説します。 #contents() *相関係数の定義 **正の相関、負の相関 身長と体重、気温と湿度、葉面積と果実重量...などといった、「2組の数値がセットになったデータ」があったとしましょう。抽象的なもので説明をするために、2組の数値を文字を使って次のように表すことにします。 $$x = x_1, x_2, x_3, ... , x_n$$ $$y = y_1, y_2, y_3, ... , y_n$$ ここで、$$x_1$$と$$y_1$$、$$x_2$$と$$y_2$$、...、$$x_n$$と$$y_n$$がそれぞれ1つのセットになっています。 この2つの数値間に「相関係数」と呼ばれる値を計算することができます。相関係数は-1~1までの値をとり、1に近ければ「正の相関」、0に近ければ「相関なし」、-1に近ければ「負の相関」であるといわれます。相関が正であるというのは、$$x$$の値が増えれば$$y$$の値が増加するということを意味し、相関が負であるというのは$$x$$の値が増加すると$$y$$の値が減少するということを意味し、両者に相関がないというのは$$x$$の値を増やしたとき$$y$$の値が増加するか減少するか分からない(散らばる)ということを意味します。 2つのデータ間の関係を述べるのに都合のいい値であることが分かると思います。 **相関係数の計算 相関係数は次のようなものであると解説される場合があります。 >2つのデータの共分散をそれぞれのデータの標準偏差の積で割ったもの ここで共分散というのはそれぞれのデータの偏差の積を自由度で割ったものです。つまり、$$\bar{x}, \bar{y}$$をそれぞれのデータの平均値として、(標本)共分散は次のように表現できます。 $$\frac{\sum_{i=1}^n(x-\bar{x})(y-\bar{y})}{n-1}$$ 共分散を$$S_{xy}$$、$$x$$の分散を$$S_x$$、$$y$$の分散を$$S_y$$とすれば、相関係数$$r$$は次の計算により求められます。 $$r=\frac{S_{xy}}{\sqrt{S_x}\times\sqrt{S_y}}$$ 和の記号$$\sum$$を使ってきちんと書けば次の形となります。 $$r=\frac{\sum_{i=1}^n(x-\bar{x})(y-\bar{y})}{\sqrt{\sum_{i=1}^n(x-\bar{x})^2}\times\sqrt{\sum_{i=1}^n(y-\bar{y})^2}}$$ 自由度$$n-1$$をが分子分母双方に存在している(分母は平方根の二乗で分子に等しい)ため、キャンセルされていることに注意してください。 要するにこの計算によって相関係数が出てくるのですが、結局この値が何を意味しているのか、といったことが分かりにくいと思います。そこで、この相関係数という値に幾何的な解釈を加えましょう。 **相関係数の幾何的解釈 まず、この式に注目します。 $$r=\frac{\sum_{i=1}^n(x-\bar{x})(y-\bar{y})}{\sqrt{\sum_{i=1}^n(x-\bar{x})^2}\times\sqrt{\sum_{i=1}^n(y-\bar{y})^2}}$$ 分母の方が分かりやすいと思うので分母に注目しましょう。 $$\sqrt{\sum_{i=1}^n(x-\bar{x})^2}\times\sqrt{\sum_{i=1}^n(y-\bar{y})^2}$$ これはそれぞれの値(偏差)を二乗したものの総和を計算し、その平方根をとったものの積となっています。 「二乗して和を計算して平方根」といえば三平方の定理(ピタゴラスの定理)ですね。三平方の定理によれば、2次元空間上で原点から点$$(x, y)$$までの「長さ」は次のように計算できます。 $$\sqrt{x^2 + y^2}$$ 同様に3次元ならば $$\sqrt{x^2 + y^2 + z^2}$$ このノリで$$n$$次元ならば $$\sqrt{\sum_{i=1}^n x_i^2}$$ となるわけです(実際にはこの値が本当に$$n$$次元空間の「長さ」として適当なのかを評価して証明する必要があります)。これを先ほどの値と比べると、相関係数の分母は「データ$$x$$と$$y$$の偏差の長さ」の積だったことが分かります。次元数はデータの個数分あることになりますから、図にすることはできませんが、$$x$$と$$y$$の偏差がそれぞれ「長さ」を持った1本の直線を作っているイメージをしてください。また、「$$x$$の偏差」「$$y$$の偏差」を1つのベクトルとして捕らえていることにも注意してください。 長さは絶対値の記号をつかって次のように表すことがよくあります。 $$|x|$$ というわけで、相関係数の分母を次のように書き直しましょう。 $$\sqrt{\sum_{i=1}^n(x-\bar{x})^2}\times\sqrt{\sum_{i=1}^n(y-\bar{y})^2}=|x-\bar{x}||y-\bar{y}|$$ 次に分子に注目します。 $$\sum_{i=1}^n(x-\bar{x})(y-\bar{y})$$ それぞれのデータの積の総和です。答えから言ってしまうとこれは内積です。 内積とは2つのベクトル間に定義される量で、2通りの表し方があります。$$X$$、$$Y$$をそれぞれベクトルとしますと、まず一つの定義は $$(X, Y) = X' Y = (X_1Y_1)+(X_2Y_2)+...+(X_nY_n) = \sum_{i=1}^n(X_iY_i)$$ いろいろな書き方をしてみましたが、要するにそれぞれの成分の積の総和です。相関係数の分子まんまです。 もう一つの定義が重要です。 $$(X,Y)=|X||Y|\cos\theta$$ ベクトルが2本あればその間には角$$\theta$$があります。そのcosineと2本のベクトルの長さをかけたものが内積だということです。計算される値はどちらも同じになります。 さて、この定義を相関係数の式に入れてみましょう。 $$r=\frac{\sum_{i=1}^n(x-\bar{x})(y-\bar{y})}{\sqrt{\sum_{i=1}^n(x-\bar{x})^2}\times\sqrt{\sum_{i=1}^n(y-\bar{y})^2}}=\frac{( (x-\bar{x}),(y-\bar{y}) )}{|x-\bar{x}||y-\bar{y}|}=\frac{|x-\bar{x}||y-\bar{y}|\cos\theta}{|x-\bar{x}||y-\bar{y}|}=\cos\theta$$ っというわけで相関係数の正体が分かりました。 $$\cos\theta$$です。相関係数が-1~1の値をとるのも当たり前の話でしたね。ここで$$\theta$$というのは「$$x$$の偏差」と「$$y$$の偏差」という2本のベクトルが交わる角度です。 cosineというのは角度が0ならば1に、$$\pi$$(180°)ならば-1に、$$\frac{\pi}{2}$$(90°)ならば0になります。つまり、相関係数1というのは「2本の偏差ベクトルが同じ方向を向いている」ことを意味し、相関係数-1というのは「2本の偏差ベクトルが反対の方向を向いている」ことを意味し、相関係数0というのは「2本の偏差ベクトルが直角に交わっている」ことを意味するのです。「直角に交わっている」ことを特に「直行している」などといいます。
ここでは、通常「ピアソンの積率相関係数」と呼ばれるものについて解説します。 #contents() *相関係数の定義 **正の相関、負の相関 身長と体重、気温と湿度、葉面積と果実重量...などといった、「2組の数値がセットになったデータ」があったとしましょう。抽象的なもので説明をするために、2組の数値を文字を使って次のように表すことにします。 $$x = x_1, x_2, x_3, ... , x_n$$ $$y = y_1, y_2, y_3, ... , y_n$$ ここで、$$x_1$$と$$y_1$$、$$x_2$$と$$y_2$$、...、$$x_n$$と$$y_n$$がそれぞれ1つのセットになっています。 この2つの数値間に「相関係数」と呼ばれる値を計算することができます。相関係数は-1~1までの値をとり、1に近ければ「正の相関」、0に近ければ「相関なし」、-1に近ければ「負の相関」であるといわれます。相関が正であるというのは、$$x$$の値が増えれば$$y$$の値が増加するということを意味し、相関が負であるというのは$$x$$の値が増加すると$$y$$の値が減少するということを意味し、両者に相関がないというのは$$x$$の値を増やしたとき$$y$$の値が増加するか減少するか分からない(散らばる)ということを意味します。 2つのデータ間の関係を述べるのに都合のいい値であることが分かると思います。 **相関係数の計算 相関係数は次のようなものであると解説される場合があります。 >2つのデータの共分散をそれぞれのデータの標準偏差の積で割ったもの ここで共分散というのはそれぞれのデータの偏差の積を自由度で割ったものです。つまり、$$\bar{x}, \bar{y}$$をそれぞれのデータの平均値として、(標本)共分散は次のように表現できます。 $$\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n-1}$$ 共分散を$$S_{xy}$$、$$x$$の分散を$$S_x$$、$$y$$の分散を$$S_y$$とすれば、相関係数$$r$$は次の計算により求められます。 $$r=\frac{S_{xy}}{\sqrt{S_x}\times\sqrt{S_y}}$$ 和の記号$$\sum$$を使ってきちんと書けば次の形となります。 $$r=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\times\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}}$$ 自由度$$n-1$$をが分子分母双方に存在している(分母は平方根の二乗で分子に等しい)ため、キャンセルされていることに注意してください。 要するにこの計算によって相関係数が出てくるのですが、結局この値が何を意味しているのか、といったことが分かりにくいと思います。そこで、この相関係数という値に幾何的な解釈を加えましょう。 **相関係数の幾何的解釈 まず、この式に注目します。 $$r=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\times\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}}$$ 分母の方が分かりやすいと思うので分母に注目しましょう。 $$\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\times\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}$$ これはそれぞれの値(偏差)を二乗したものの総和を計算し、その平方根をとったものの積となっています。 「二乗して和を計算して平方根」といえば三平方の定理(ピタゴラスの定理)ですね。三平方の定理によれば、2次元空間上で原点から点$$(x, y)$$までの「長さ」は次のように計算できます。 $$\sqrt{x^2 + y^2}$$ 同様に3次元ならば $$\sqrt{x^2 + y^2 + z^2}$$ このノリで$$n$$次元ならば $$\sqrt{\sum_{i=1}^n x_i^2}$$ となるわけです(実際にはこの値が本当に$$n$$次元空間の「長さ」として適当なのかを評価して証明する必要があります)。これを先ほどの値と比べると、相関係数の分母は「データ$$x$$と$$y$$の偏差の長さ」の積だったことが分かります。次元数はデータの個数分あることになりますから、図にすることはできませんが、$$x$$と$$y$$の偏差がそれぞれ「長さ」を持った1本の直線を作っているイメージをしてください。また、「$$x$$の偏差」「$$y$$の偏差」を1つのベクトルとして捕らえていることにも注意してください。 長さは絶対値の記号をつかって次のように表すことがよくあります。 $$|x|$$ というわけで、相関係数の分母を次のように書き直しましょう。 $$\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\times\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}=|x-\bar{x}||y-\bar{y}|$$ 次に分子に注目します。 $$\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})$$ それぞれのデータの積の総和です。答えから言ってしまうとこれは内積です。 内積とは2つのベクトル間に定義される量で、2通りの表し方があります。$$X$$、$$Y$$をそれぞれベクトルとしますと、まず一つの定義は $$(X, Y) = X' Y = (X_1Y_1)+(X_2Y_2)+...+(X_nY_n) = \sum_{i=1}^n(X_iY_i)$$ いろいろな書き方をしてみましたが、要するにそれぞれの成分の積の総和です。相関係数の分子まんまです。 もう一つの定義が重要です。 $$(X,Y)=|X||Y|\cos\theta$$ ベクトルが2本あればその間には角$$\theta$$があります。そのcosineと2本のベクトルの長さをかけたものが内積だということです。計算される値はどちらも同じになります。 さて、この定義を相関係数の式に入れてみましょう。 $$r=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\times\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}}=\frac{( (x_i-\bar{x}),(y_i-\bar{y}) )}{|x-\bar{x}||y_i-\bar{y}|}=\frac{|x-\bar{x}||y-\bar{y}|\cos\theta}{|x-\bar{x}||y-\bar{y}|}=\cos\theta$$ っというわけで相関係数の正体が分かりました。 $$\cos\theta$$です。相関係数が-1~1の値をとるのも当たり前の話でしたね。ここで$$\theta$$というのは「$$x$$の偏差」と「$$y$$の偏差」という2本のベクトルが交わる角度です。 cosineというのは角度が0ならば1に、$$\pi$$(180°)ならば-1に、$$\frac{\pi}{2}$$(90°)ならば0になります。つまり、相関係数1というのは「2本の偏差ベクトルが同じ方向を向いている」ことを意味し、相関係数-1というのは「2本の偏差ベクトルが反対の方向を向いている」ことを意味し、相関係数0というのは「2本の偏差ベクトルが直角に交わっている」ことを意味するのです。「直角に交わっている」ことを特に「直行している」などといいます。

表示オプション

横に並べて表示:
変化行の前後のみ表示: