科学技術計算分野向けの高水準プログラミング言語

Julia 0.3.8

Julia 0.3.8

Julia は科学技術計算分野向けの高水準プログラミング言語である。2012 年にオープンソースとして公表された。特徴として、数式のように書けて計算が非常に速い。普段、R を利用してデータ解析を行っている方であれば、案外入門しやすい。ただ、R に比べて物足りなさを感じるかもしれない。

このページでは Julia を用いたデータ解析、グラフの作成や統計処理などを主に紹介している。Julia がどのように動作しているか、他の言語に比べてどの部分が優れているかについては触れない。

このページを作成する上で感じたこととして、Julia はまだまだ未完成品といった印象を受ける。例えば、・・・中略・・・。そのため、重要なデータ解析や統計検定などを行う場合は Julia をおすすめできない。

References

  • Julia Stats - Statistics and Machine Learning made easy in Julia. Website
  • Julia Statistics. GitHub

統計関連のパッケージ

DataArrays Jualia 標準の配列では欠損値を取り扱うことができなかったが、DataArrays を利用することで欠損値 NA を取り扱うことができるようになる。DataFrames を利用するとき、自動的にこのパッケージも読み込まれる。
DataFrames CSV ファイルあるいはタブ区切りのテキストファイルのデータを取得したり、行列型・データフレーム型のデータをファイルに保存したりする機能を提供している。また、こうした二次元配置のデータの各行または各列に対する操作を簡単にしてくれる機能も提供している。
StatsBase 平均、分散、モーメントや相関係数などを計算する関数が用意されている。この他によくわからない関数がたくさん実装されているが、その用途はいまいち。
HypothesisTests t 検定、フィッシャーの正確確率検定やウィルコクソンの順位和検定などの基礎検定を行う関数が用意されている。R に比べまだまだ機能が足りない印象を受ける。
t 検定
Distributions 離散分布と連続分布から乱数を生成したり、確率質量・密度関数や累積分布関数などの機能を提供している。
GLM 正規分布の回帰分析を始めとしてポアソン回帰、ロジスティック回帰などの一般化線形モデルを用いた解析を可能にしている。
MultivariateStats 多変量データ解析用のパッケージ。PCA, CCA, ICA などの解析。
MCMC MCMC アルゴリズム。
Distances ベクトル同士の距離を計算するパッケージ。