実験や観察を通して、観測対象の属性を記述したものをデータという。観測対象の属性は数値で測定できるものとそうでないものがある。例えば、ある時期のある区画に出現した絶滅危惧種の個体数や特定の圃場で栽培した小麦の収量などは数値で測定できる。このような数値で測定できるデータを量的データとおよぶ。量的データは、数値として扱えるので、値の大小や倍率を比較したり、平均を計算できたりする。これに対して、北海道・青森・岩手のような県名や雄・雌のような性別は、数値で測定できない。このようなデータを質的データとよぶ。質的データは数値で表せないため、四則演算などが行えない。
データの種類
量的データ
数値で測定できる量的データは、測定の尺度に応じて間隔尺度と比尺度の分けることができる。間隔尺度は、ある個体が他の個体よりも、どれだけ離れているのかに着目して測定する尺度である。2 つの個体の測定値の差(間隔)に意味が含まれている。例えば、温度や時刻などが間隔尺度である。温度を例に挙げると、「10 ℃ と 20 ℃ の温度差」と「20 ℃ と 30 ℃ の温度差」は等しいといえる。一方で、間隔尺度のデータの比を考えたとき、「10 ℃ から 20 ℃ への変化」は 2 倍であるが、20 ℃ は 10 ℃ よりも 2 倍暖かいとは言えない。同じように、「20 ℃ から 40 ℃ への変化」でも 2 倍暖かくなったとは言えない。このように、間隔尺度は、その間隔に意味を持つが、その比に意味を持たないない。
比尺度は、間隔に加えて、比にも意味を持つ尺度である。身長、体重、絶対温度などがある。これらのデータは間隔と比の両方に意味を持つ。例えば、身長 180cm の人は、身長 170 cm の人よりも 10 cm 高いと言うことができ、1.06 倍高いと言うこともできる。
量的データの場合、その記録に使われる数値は連続的な実数である。例えば、身長の場合は 179.5 cm、179.6 cm、あるいは測定機器が精密であれば 179.55 cm などのような値も実際に取り得る。そのため、量的データは連続的であるといえる。
質的データ
質的データは、測定の尺度に応じて名義尺度(名目尺度)と順序尺度に分けることができる。名義尺度(名目尺度)は、他と区別するための記号である。例えば、県名、性別や品種名などがこれにあたる。これらのデータは、解析を行う上で数値(因子)に変換することがあるが、その数値には順序関係がない。例えば、コンピューターが扱いやすいように雄を 0、雌を 1 として数値化したとしても、両者を足したり、あるいは大小関係を調べたりすることはできない。これに対して、服のサイズを表す記号 S・M・L や震度の程度を表す記号 1・2・3・4・5 弱・5 強などは、順序尺度と呼ばれている。順序尺度のデータは、名義尺度と同様に記号で記述されるが、その記号に順序関係を持つ。
質的データのとりうる値はカテゴリ名(県名など)のように予め決められた値である。例えば、北海道と青森県の間に何かカテゴリが存在しているわけでもない。このようなとびとびの値のことを離散的という。
測定尺度とデータの特徴
尺度の種類とその特徴は以下のようにまとめることができる。
種類 | 尺度 | 値の特徴 | 値の正負 | 代表値 |
量的データ | 間隔尺度 | 連続値 | 最頻値 | |
量的データ | 比尺度 | 連続値 | 正負 | 最頻値・中央値 |
質的データ | 名義尺度 | 離散値 | 正負 | 最頻値・中央値・算術平均 |
質的データ | 順序尺度 | 離散値 | 非負 | 最頻値・中央値・算術平均・幾何平均 |
データの次元数
観測対象となる小麦個体 1 つについて、その乾燥重量だけを記録することもあれば、乾燥重量、草丈、穂数、千粒重(種 1000 個分の重さ)や品種名などの複数の属性を記録することもある。一つの属性について記述したデータを 1 次元データ、多数の属性を同時に記録したデータを多次元データと呼ぶことがある。
1 次元データを分析するのにあたって、まずはデータをヒストグラムで示すことが大事である。データをヒストグラムで示すことにより、データの中心、データの範囲やデータの分布の形などを把握できるうえ、データに潜む異常値の存在も気付きやすくなる。分布の特徴を表す値として、平均値、中央値、分散や偏りなどがある。
多次元データを分析する場合は、個々の次元それぞれに対してヒストグラムを描きその分布を把握するとともに、次元同士(例えば年齢と体重、年齢と身長、身長と退場のような)の相関を散布図で可視化して、データ全体の傾向を把握することも重要である。相関を表す値として、ピアソンの相関係数やスピアマンの相関係数などがある。