回帰直線
2つの連続型変数が一組となったデータ(ex. 身長と体重、国語の成績と数学の成績、温度と湿度など)があるとします。このようなデータは散布図によって図示するのが最も適しているでしょう。例えばここに適当に作ったxとyという2組のデータを用いて散布図を描いて見ましょう。
x <- c(1, 3, 4, 5, 7, 2, 8, 9, 10, 6)
y <- c(0, 4, 3, 7, 3, 4, 7, 9, 12, 8)
plot(x, y, pch=16)
xとyの間に何らかの関係を見て取るかもしれません。もしもxの関数としてyを予測することが出来たならば大変に有用なことでしょう。つまり、ここでわれわれの目的は次の関係式を得ることにあります。
という関数をどのようなものとするかがポイントですが、ここではとりあえずa、bという2つの定数を含む一次式としておきましょう。
一次式ですから、全てのデータポイントを通ることは出来ません(一般に、n個のデータポイントを全て通るためには、多項式の場合n-1次の関数が必要です)。ですから、
の値はあくまで予測できるだけです。
の予測値である、という意味をこめて
という記号(yハットと読みます)を使うことにします。現時点でわれわれの目的は次の式に含まれる定数a、bを「適切に」決定することです。
これを回帰式と呼びます。(特にこれは一次式による線形回帰です)
「適切に」決定するのはひとまずおいておいて、まずは「適当に」決めてみましょう。パッと見切片は0っぽいですし、傾きは1っぽいでしょう。というわけで適当に決定した回帰式はこうです。
最初の散布図に重ねて書いてみましょう。どうでしょう。私の勘も捨てたものではないです。まあとにかくこのように最初におおまかな見当をつけておくのは大切なことです。
ところでお気づきでしょうが、これと似たような回帰式はいくらでも引けるわけです。aやbをほんの1%、あるいはそれ以下変更しただけの回帰式と、今予想している回帰式のどちらがいいのかということは、どのように判断できるでしょうか。
判断には基準が必要です。「良い」回帰式というのは、それにより引かれる直線とデータポイントの距離が非常に狭いようなものでしょう。「距離」は最短距離を採用してもいいのですが、計算の簡単のためにy軸方向の距離としましょう。つまり、
と
の差ということになります。わかりやすいようにグラフに示してみましょう。回帰式はさっきの適当回帰式です。
回帰直線から垂直に伸びているのが「距離」です。普通これを残差や誤差と呼びますから、以降は残差という呼び方で統一します。また、特定の
に対応する残差を
と表現します(
)。この残差が最も小さいような直線が最も「適切な」直線でしょう。つまり
の総和を最小にすればいいのですが、そのままだと+と-が混在しますから全てを+に統一するために適当な変換が必要です。絶対値をとるというのは一つの手ですが、絶対値を含む式は計算が難しいので値を二乗することで値を+にしましょう。ここでのわれわれの目的は次の式を最小とすることにあります。
の添え字は省略しましたが全てのデータの和です。
最終更新:2008年10月21日 22:48