メインコンテンツまでスキップ

1-3. グラフを構成するデータの種類

投稿者:Yukina Matsumoto

グラフを作るためにデータの種類を知っておこう

前回、人がグラフを一瞬で理解できる仕組みとして、視覚属性ゲシュタルトの法則を学びました。
データを視覚属性に変換することで、私たちは情報を素早く理解できます。

しかし、データを視覚属性に変換するといっても、どの視覚属性を使うかデータの種類によって異なります
そこで、ここではデータの種類視覚属性との相性について学びましょう。

データの種類

まず、データの基本的な分類から見ていきましょう。
データは大きく質的データ量的データに分けることができます。

  • 質的データ(Qualitative Data)
    • カテゴリーや分類を表すデータ
    • 主に集計軸として使われる
    • 例:性別、満足度(★1~5)、都道府県など
  • 量的データ(Quantitative Data)
    • 数値として測定されるデータ
    • 主に集計対象として使われる
    • 例:気温、売上、身長、体重など

さらに質的データは名義尺度順序尺度に、量的データは間隔尺度比例尺度に分けることができます。

📛 名義尺度(Nominal Scale)

ただの分類・ラベルのデータ

  • 分類・区別のみ可能
  • 順序や大小関係に意味がない
  • 数字が含まれていても計算は無意味

例:

  • 血液型:A型、B型、O型、AB型
  • 色:赤、青、緑、黄色
  • 都道府県:東京都、大阪府、北海道...
  • 背番号:1番、10番、23番...(数字の大小に意味がない)

算出できる統計量:

  • 度数(頻度)
  • 相対度数(割合)
  • 最頻値(モード)
  • 連関係数

🥇 順序尺度(Ordinal Scale)

順番に意味があるデータ

  • 分類・順序付けが可能
  • 大小関係に意味がある
  • 間隔(差)に意味がない
  • 足し算・引き算は意味がない

例:

  • 満足度:★1(不満)、★2(やや不満)、★3(普通)、★4(満足)、★5(大満足)
  • 成績:A、B、C、D、F
  • 企業規模:大企業、中企業、小企業
  • 年代:10代、20代、30代、40代...
  • 競技の順位:1位、2位、3位...

算出できる統計量:

名義尺度の統計量に加えて、

  • 中央値(メジアン)
  • 分位数(パーセンタイル)

リッカート尺度について

人間の意見や感情の度合いを数値化するための尺度をリッカート尺度と呼びます。
★1~5で表す満足度調査のように、ビジネスの現場でも広く使われています。

リッカート尺度は、理論上は順序尺度に分類されますが、現実ではもっと柔軟に扱われることが多いです。
特に、複数の関連する項目を合計・平均して作成した場合は、間隔尺度のように扱っても良いとされることが多いです。
例えばあるサービスについて、

  • スピード
  • 使いやすさ
  • デザイン
  • 価格

をそれぞれ5段階評価し、その平均を満足度として分析する場合などです。

こういった背景を理解したうえで、リッカート尺度を適切に活用することが重要です。
詳しくはページ下部の参考資料をご覧ください。


🌡️ 間隔尺度(Interval Scale)

等間隔だけど、絶対的なゼロがないデータ

  • 足し算・引き算はできるが、割り算・掛け算はやる意味がない
  • 「絶対的なゼロ」がない(ゼロでも「何もない」わけではない)

目盛は等間隔だが、0は起点ではなく、数直線のようなイメージ

interval-scale

例:

  • 気温(摂氏):20℃、30℃...(30℃が20℃の1.5倍暖かいわけではない)
  • IQスコア:100、110、120...(IQ120はIQ60の2倍賢いわけではない)
  • 西暦:2000年、2100年...(2000年は1000年の2倍新しいわけではない)

算出できる統計量:

名義尺度・順序尺度の統計量に加えて、

  • 平均値
  • 分散
  • 標準偏差
  • 相関係数

📏 比例尺度(Ratio Scale)

絶対的なゼロがある完全な数値データ

  • すべての数学的計算が可能
  • 比率に意味がある(2倍、3倍などが意味を持つ)
  • 「絶対的なゼロ」= その量が完全に存在しない状態

目盛は等間隔で、0を起点として、一定の比率で変化するイメージ

ratio-scale

例:

  • 身長:170cm、180cm...(180cmは90cmの2倍の長さ、0cm=身長が存在しない)
  • 年収:300万円、600万円...(600万円は300万円の2倍、0円=収入が存在しない)
  • 年齢:25歳、50歳...(50歳は25歳の2倍、0歳=生まれた瞬間)
  • 人数:10人、20人...(20人は10人の2倍、0人=誰もいない)
  • 絶対温度:100K、200K...(200Kは100Kの2倍、0K=熱エネルギーが存在しない)

算出できる統計量:

名義尺度・順序尺度・間隔尺度の統計量に加えて、

  • 変動係数
  • 比率
  • その他あらゆる統計量


分析時のことを考えてデータを取得しよう

ここまでで、どのようなデータの種類があるのかわかったと思います。
さらに、データには下図のような上下関係があります。


このように、データは名義尺度 < 順序尺度 < 間隔尺度 < 比例尺度の順番に情報が豊かになっていきます。
そのため、データを取得するときはより幅広い分析ができるよう、なるべく情報量の多い尺度で取得することをおすすめします。

例:年齢を取得する場合

  • ◎ 具体的な年齢(25歳、30歳...):比例尺度
    • 平均値や分布などの詳細な分析が可能
    • あとから年代にグループ分けして分析もできる
  • △ 年代(20代、30代...):順序尺度
    • 平均値を計算したり散布図を作成したりできない
    • あとから具体的な年齢に戻せない

もちろん、回答者への負担なども考慮したうえで、適切な尺度でデータを取得しましょう。


データの種類と視覚属性の相性

続いて、データの種類と視覚属性の相性について見ていきましょう。
下表は、データの種類に対してどの視覚属性を使えるかをまとめたものです。
名義尺度を長さに反映したり、比例尺度を赤・青などの色分けで表現することはできないということがわかると思います。

視覚属性名義尺度順序尺度間隔尺度比例尺度
位置
(軸上のどこか)
長さ
(棒の長さなど)
-
向き(角度)
(線の傾き・扇形)
-
太さ(幅)
(線の太さなど)
-
大きさ(面積)
(バブルの大きさ)
-
色(彩度・明度)
(色の濃淡)
-
色(色相)
(赤、青、緑など)
---

(●、■、▲など)
---

凡例:

  • :そのデータタイプの表現に使用できる(実務で一般的に使われる)
  • -:そのデータタイプの表現に使用できない、または誤解を招くため使用すべきでない

具体例を見てみよう

このデータの種類と視覚属性の相性が実際のグラフにどのように反映されているか見てみましょう。

例1:棒グラフ

商品A, B, Cの売上を棒グラフで比較する場合を考えてみます。
以下の組み合わせによってグラフが作成されています。

  • 商品名(名義尺度):棒の横軸上の位置
  • 売上金額(比例尺度):棒の長さ

例2:散布図

男女別の身長・体重の関係を散布図で表現する場合を考えてみます。
以下の組み合わせによってグラフが作成されています。

  • 身長(比例尺度):横軸の位置
  • 体重(比例尺度):縦軸の位置
  • 性別(名義尺度):点の色(色相)

まとめ:データの種類によって作れるグラフが変わる

今回は、データの種類とその特徴、それを表現するための視覚属性との「相性」について学びました。

次回は、目的に応じたグラフの選び方を学びます。
その際、今回学んだ相性の知識が、なぜそのグラフが適切なのかを理解するための基礎となります。

今回の内容を理解しておくと、次回学ぶグラフの選び方が単なる丸暗記ではなく、 「だからこのグラフを選ぶんだ」という納得感に変わるはずです。

グラフ選びに迷った時は、ぜひ今回の 「データの種類と視覚属性の相性」 という視点を思い出してください!


参考資料