二項反応モデル | 死亡率などの 2 値データをモデリングする方法

従属変数が 2 つの値をしか取らない 2 値データは一般にロジスティック回帰やプロビット回帰などを用いて解析を行う場合が多い。2 値データが観測できる実験として以下に例を示した。

マウスに薬剤 A を投与する実験において、投与量 X に応じてマウスの死亡率がどのように変化するかを解析したい場合。
心臓疾患による死亡率を各年齢ごとに調査し、年齢によって死亡率がどのように変換するか解析したい場合。
飲酒量、年齢および脳卒中の発生率を調査し、脳卒中が起こる確率が飲酒量および年齢にどのような関係があるかを解析したい場合。
心臓疾患、脳疾患による年齢ごとの死亡率をモデル化し、2 つの疾患（モデル）に違いがあるかどうかを調べたい場合。

実験の特徴として、独立変数として投与量、年齢や飲酒量が与えられている。つまり、独立変数は多様な値を取ることができ制限がない。それに対して従属変数は結果として生存か死亡かの 2 通りしか観測されない。（※ただしゾンビ化は想定しないこと）

モデル化について説明する。例えば新しく発見された抗生物質 A が黄色ブドウ球菌の増殖を抑制する効果を持つことが期待されている。抗生物質 A の濃度によって効果がどのように変化するかをモデル化する例を示す。

実験としてまず抗生物質 A を x mM を培地に含ませ、次にその培地に黄色ブドウ球菌の培養液を 10 箇所垂らす。1 日後に発生したコロニーの数を数えることによって、抗生物質 A の効果を推定できる。例えば、コロニーが 10 個確認されれば、その濃度における抗生物質 A は黄色ブドウ球菌の増殖をまったく抑制できなかったことを示す。一方で、コロニーが確認されていなければ、抗生物質 A が高い抑制効果を発揮したことを示す。

抗生物質 A の濃度 x が同じならばどのコロニーも同じ確率で増殖が抑制される。増殖が抑制される確率を p とおく。抗生物質の濃度が x すなわち抑制確率が p のとき、培地に垂らしたスポット数 m のうち、y 個のコロニーの増殖が抑制された時の確率分布は以下のように書ける。（上の例では、m = 10 である）

\[ P(Y = y) = \begin{pmatrix}m \\ y \end{pmatrix}p^{y}(1-p)^{m-y} \]

次に、抗生物質 A の濃度を変化させて x = x₁, x₂, ..., x_n としたとき、その同時確率は以下のように表せる。

\[ P(Y_{1}=y_{i}, \cdots, Y_{n}=y_{n}) = \prod_{i=1}^{n}\begin{pmatrix}m_{i} \\ y_{i} \end{pmatrix}p_{i}^{y_{i}}(1-p_{i})^{m_{i}-y_{i}} \]

抗生物質 A の濃度を変化させた時、抑制されるコロニーの数よりも抑制確率のほうが重要と考えられる。そこで各濃度 x_i における抑制確率を π_i とすると、E(Y_i)/n_i = π_i により、モデルは以下のように構築できる。

\[E[\mathbf{Y}] = \mathbf{\pi} \] \[g(\mathbf{\pi}) = \mathbf{X}\mathbf{\beta}\]

2 つ目の式について、右辺は抗生物質の濃度が変化することによって 1 よりも大きくなると考えられる。そこで、リンク関数 g の逆関数は、その右辺を 0 から 1 の範囲に収める関数でなければならない。

\[g(\mathbf{\pi}) = \log\left(\frac{\mathbf{\pi}}{1-\mathbf{\pi}}\right) = \mathbf{X}\mathbf{\beta} = \begin{pmatrix}1 & x\end{pmatrix}\begin{pmatrix}\beta_{1} \\ \beta_{2}\end{pmatrix}\]

よく使われているリンク関数としてはロジット関数、プロビット関数および補対数対数関数がある。

ロジット関数

0 から 1 までの変数 p について、ロジット関数は以下のように定義される。

\[ {\rm logit} (p) = \log\left(\frac{p}{1-p}\right) \]

リンク関数をロジット関数として構築した一般化線形モデルは以下のようになる。

\[E[Y] = \mu\] \[g(\mu) = \log\left(\frac{p}{1-p}\right) = \mathbf{X}\mathbf{\beta}\]

ロジット関数は、独立変数の誤差構造が対数正規分布のとき、あるいはオッズ比が直接従属変数に影響を与えると想定されているときに用いる。しかしながらロジット関数をリンク関数として使用したときの解析結果は、プロビット関数を使用したときの結果とほぼ同じなる。ただし、ロジット関数を用いたほうが分散が大きく、カーブが少しだけ緩やかである。自然科学の分野ではロジット関数がよく使われている。

プロビット関数

0 から 1 までの変数 p について、プロビット関数は標準正規分布の累積分布関数の逆関数 Φ^-1 を用いて以下のように定義される。

\[ {\rm probit} (p) = \Phi^{-1} (p) \]

リンク関数をプロビット関数として構築した一般化線形モデルは以下のようになる。

\[E[Y] = \mu\] \[g(\mu) = \Phi^{-1}(p) = \mathbf{X}\mathbf{\beta}\]

独立変数の誤差構造が正規分布に従うとき、あるいは独立変数がある閾値を超えたとき Y = 1 となる確率が急に高くなるような現象が期待される場合に、プロビット関数をリンク関数として用いる。ロジット関数に比べ僅かに晩く 0 から離れ、僅かに早く 1 に近づく。

補対数対数関数

補対数対数関数は極値分布の概念を取り入れた関数である。0 から 1 までの変数 p について、補対数対数関数は以下のように定義される。

\[ {\rm cloglog} (p) = \log\left(-\log(1-p)\right) \]

リンク関数を補対数対数関数として構築した一般化線形モデルは以下のようになる。

\[E[Y] = \mu\] \[g(\mu) = \log\left(-\log(1-p)\right) = \mathbf{X}\mathbf{\beta}\]

References

Difference between logit and probit models. 2012. CrossValidated
Chelsea M. An Introduction to Logistic and Probit Regression Models. 2013. PDF
Dobson AJ. An Introduction to Generalized Linear Models. Second Edition. 2002.
東京大学教養学部統計学教室編. 基礎統計学 III 自然科学の統計学. 初版. 1992.