生物統計学は生命科学に特化した統計学であり、生命科学における様々な現象の解決を試みる学問である。特に、バイオインフォマティクスの発展に伴い、生物統計学はこれまで以上に重要視されるようになった。

プログラミング言語

生物統計の分野では R や Python などのプログラミング言語がよく使われている。R には、様々な仮説検定手法やモデリング手法が標準実装され、さらにデータの視覚化機能なども多数用意されている。また、Python にも多様なデータ処理、データ分析およびデータの視覚化機能が実装されている。R は仮説検定・数理モデリングなどの統計に強いのに対して、Python は科学数値計算・機械学習などに強い。

確率分布

仮説検定あるいは数理モデリングなどで使われる確率変数は、何かしらの確率分布に従うものと仮定されている。データ解析よく使われている正規分布やポアソン分布などがある。また、統計検定によく使われる t 分布、カイ二乗分布や F 分布などがある。

基礎統計

仮説検定には様々な方法が提唱されている。例えば 2 群間同士の平均値の差に関する検定として t 検定 があり、等分散性に関する検定として F 検定などがある。また、比較したい群の数が 3 つ以上のとき、多重比較検定補正や多変量解析などの手法が使われる。

ベイズ統計学

ベイズ統計学は、結果から原因を推定する統計学である。ベイズ統計学では、データから母集団のパラメーターを計算するのではなく、母集団のパラメーターの分布を推定する。すなわち、「データ」という結果から「母集団のパラメーターの分布」という原因を推定している。

一般化線型モデル GLM

一般化線型モデルは、単回帰・重回帰のように従属変数と独立変数間の関係を説明したいときに利用されるモデリング手法の一つである。単回帰・重回帰では、独立変数が正規分布に従うことを前提としているが、一般化線形モデルはでは、独立変数が正規分布のほかに二項分布やポアソン分布などに従ってもモデリングが可能。

スパース推定

生命科学の分野で測定されるデータは、特徴量が大きくサンプルサイズの小さい、高次元小標本データが多い。このような、高次元小標本のデータの解析に対して、高次元となっている特徴量をから、互いに相関の高い特徴量を 1 つだけ残して他を削除するなどの操作を行い、次元削減を行いながら解析を進める必要がある。その方法の一つとしてスパース推定があげられる。

時系列解析

時間的順序を追って一定間隔ごとに観察されたデータは、時系列に適した方法で解析する必要がある。AR モデル、ARMA モデルや VAR モデルなどの基本的なモデルはあるものの、生態学・生物学のデータの場合は、自由度の高い状態空間モデルが用いられることが多い。

GxE 解析

植物の表現型は、遺伝子型および環境の影響を受けている。遺伝子型と環境の交互作用を解析することで、遺伝子型とその環境適応性を明らかにすることができる。例えば、観察される表現型を利用して、遺伝子型と環境の交互作用を解析すれば、環境頑健性を持った遺伝子型をスクリーニングすることができ、農作物の品種改良などに非常に役立つと考えられる。現在では混合モデルをベースとしてモデリングが行われている。