一般化線形モデル

独立変数 X および従属変数 Y が与えられたとき、変数 Y が正規分布に従うならば、変数 X で変数 Y を説明する回帰モデルは \( \mathbf{Y} = \boldsymbol{\beta}\mathbf{X} \) の式で書き表せる。これを図示すると、下図のようになる。つまり、変数 Y の平均は、変数 X に応じて増減し、かつ、変数 Y の分散は変数 X によらず常に一定である。このとき、Y = aX + b となる回帰直線を計算できれば、X が与えられるといつでも Y を計算することができる。また、Y の分散は X の値によらず常に一定であるから、Y が存在する区間なども簡単に求めることができる。下図の赤線は回帰直線を表し、水色線は信頼区間を表し、緑色線は予測区間を表す。

一般線形モデルは Y=Xb で表すことができ、両者には線形関係が見られる。

従属変数 Y が正規分布に従わないとき、\( \mathbf{Y} = \boldsymbol{\beta}\mathbf{X} \) で回帰分析を行うと不正確な結果が得らる。例えば、Y がポアソン分布を従うとき、そのまま正規分布と仮定して解析しすると、次のようになる。

ポアソン分布に従う確率変数をそのまま単回帰すると、間違った結果が得られる。

ここで、Y のスケールをみると 0 から 400 ぐらいの値が存在する。とくに X が大きいのとき、Y の値も大きく、Y のばらつきも大きいように見える。ここで、変数 Y に対して常用対数化を行って、Y のスケールを小さくしてから、回帰分析を行ってみる。すると、下図のような結果が得られ、より適した結果がとなったことがわかる。

ポアソン分布に従う確率変数を対数化してから回帰すると、より適した結果が得られる。

つまり、従属変数 Y が正規分布に従わないとき、Y に対して何らかの変換を行うことで、あだかも正規分布であるように解析を行うことができるようになる。Y がポアソン分布に従うときは、対数変換が有効であることがわかった。変数の変換を考慮すると、ポアソン分布に従う変数を回帰したいときは、次の式で回帰することができる。

\[ log(\mathbf{E[Y]}) = \boldsymbol{\beta}\mathbf{X} \]

対数化以外の関数も考えられるので、関数 G を用いて、上のモデルを下式のように書き表すことができる。この関数 G をリンク関数あるいは連結関数とよぶ。

\[ G(\mathbf{E[Y]}) = \boldsymbol{\beta}\mathbf{X} \]

また、上式の右辺は線形予測子ともよばれ η で表すことが多い。上式を崩して書くと以下のようになる。これが一般化線形モデルといわれている。つまり、一般化線形モデルは、本来は真の従属変数 Y の値を、独立変数 X の線型結合によってモデル化を行いたいが、Y の値をそのままではモデル化ができないので、Y の値を変換してからモデルを試みている。

\[ E[Y] = \mu \] \[ G(\mu) = \eta \] \[ \eta= \boldsymbol{\beta}\mathbf{X} \]

References

  1. Müller M. Generalized Linear Models. 2004. PDF
  2. 一般線形モデル Wikipedia
  3. 山村. 一般線形モデル. 2013. PDF