一般化線形モデル(GLM)は、誤差構造(error structure)、線形予測子(linear predictor)、およびリンク関数(link function)の 3 つの要素によって構成されている。
誤差構造
誤差構造は、従属変数が従う確率分布のことをいう。例えば、従属変数が身長ならば、その誤差構造は正規分布であり、従属変数が種子数を数えたカウントデータならば、その誤差構造はポアソン分布である。このように、一般化線形モデルを構築するとき、どのような誤差構造を選ぶのかを、従属変数の性質に応じて決める必要がる。
一般化線形モデルで用いる誤差構造は、指数型分布族と呼ばれている。指数型分布族の密度関数・確率質量は、f(x;θ)=exp(η(θ)T(x)−A(θ)+B(x)) の形で表せる。正規分布、指数分布、ガンマ分布、ポアソン分布、二項分布など、生物統計学でよく目にするほとんどの確率分布が、指数型分布族となる。
線形予測子
線形予測子は、パラメーター β とデザイン行列 x の積で表される。
x はデザイン行列と呼ばれ、確率変数とモデルのパラメーター間の関係を制御する。例えば、以下の Y = xβ におけるデザイン行列 x において、確率変数は Y1 は β1 と β2 の2 つのパラメーターに影響されるが、Y2 は β2 のみに影響されることを意味する。
デザイン行列は 0 または 1 のように因子で構成されることも、1.2 や 2.3 などのようにパラメーターの加重として構成されることもできる。デザイン行列を因子とするか、加重とするかは解析するデータの特徴に合わせて決める必要がある。また、同じデータに対して、どんな結果を期待したいかによってもデザイン行列の作り方が異なってくる。従って、実験などを行う前に、どんな結果を期待しているのかを予め決定した上で実験を行うべきである。
リンク関数
従属変数が正規分布に従わないとき、E[Y] = Xβ の式でモデル化すると、正確さが失われる。そこで、従属変数をある関数 G で変換してから、モデル化することで、モデルの正確さが向上する。すなわち、G(E[Y]) = Xβ。その関数 G はリンク関数と呼ばれている。一般に、誤差構造が決まれば、リンク関数も自動的に決まることが多い。
誤差構造 | リンク関数 |
正規分布 | \[g(\mu) = \mu\] |
指数分布 | \[g(\mu) = -\mu\] |
ポアソン分布 | \[ g(\mu) = log\mu \] |
二項分布 | \[ g(\mu) = log\frac{\mu}{1-\mu} \] |