Tableauを使った小売の数値可視化入門

将来予測や異常値の検知などに使える

第5回散布図を作成して複数の数値の「相関関係」を突き止める

前回はTableauで地図上にデータを表示する方法を説明しました。自社拠点などの地点をプロットし、数値で色を塗り分けることで、ただ数表を眺めるだけでは気付きにくい地理的な要因を可視化できるというマップならではの利点を知ることができました。この第五回では再び切り口を変えて、複数の数値の関係性を理解する時に使う、散布図の作成方法を説明します。

  • Facebook
  • Twitter
  • Line
  • Hatena

1.数値の相関

「売上の推移を月ごとに見る」、「利益を拠点ごとに比較する」といった1つの数値を分析するだけではなく、複数の数値の関係性を見つけようとするケースは多くあり、ビジネスの現場でもよく行われています。

例えば、「製品の価格は販売数量にどの程度影響を与えているのか?」、「顧客アンケートの設問数と回答率に関係はあるのか?」など、ある要素が別の要素にどの程度の影響を与えているのかを、分析したい場合があります。

こういった数値項目(Tableauにおけるメジャー)同士の関係性を認識するには、まずは「相関性」の分析を行います。相関とは「一方が変動しているときは、もう片方も変動している」という関係性のことを指します。例えば、「身長が伸びると体重も増える」「売上が増えると利益も増える」という場合です。ただ、相関は必ずしも2つの数値の関係性を保証するものではありませんし、因果関係とも異なるものですので注意が必要です。

2.散布図の作成

相関を視覚的に捉える最もスタンダードな方法は、散布図を描くことです。ここでは売上と利益を例にとって、Tableauでの散布図作成のための操作方法を順を追って説明します。

2.1.Excelファイルの読み込み

第二回と第三回で使用した「サンプルサンプル – スーパーストア.xls」を再び使用します。新しくはじめる場合は、Tableau起動直後に左上にある「接続→ファイルへ→Microsoft Excel」をクリックしてファイルを選択します。ファイルの中の「注文」シートをドラッグして読み込み、シート1または新しいシートに移動しましょう。

2.2.二つの軸を作る

散布図を作成する最初のステップは、縦軸と横軸になるメジャーを明確にすることです。今回は売上と利益の関係性を見てみるので、画面左端にあるメジャーの売上を列に、利益を行にドラッグ&ドロップします。

<図2-1 売上と利益の配置>

第三回まではメジャーの軸はひとつでしたが、列と行にひとつづつメジャーを入れることで縦と横の2つの軸が出来上がりました。そしてビューエリアには丸い点がひとつだけ存在しています。この丸い点は「注文」シートの全データの合計値を表しています。

<図2-2>

2.3.点を分解して分布を見る

点がひとつだけでは関係性を表すことができませんので、この点を製品ごとに分解して分布を見てみましょう。散布図を作成するときは、メジャーで縦軸と横軸を作成してから、ディメンションをマークに配置します。画面左端のディメンションから製品名をマークの詳細にドラッグ&ドロップすると、多くの丸い点が出現します。この点のひとつひとつが個別の製品の実績を表しています。

<図2-3 製品名をマークの詳細に配置する>

<図2-4>

こうして見てみると、利益は売上に必ずしも比例していないことが読み取れます。右にある点ほど売上が高いのですから、そのような製品は利益も高くあってほしいものです。つまり「売上が増えれば利益も増える」という正の相関を期待しているのですが、しかし実際には利益が取れていないどころかマイナスになっている製品がいくつもあります。

2.4.特徴のある点の共通項を探る

それでは、「売上が増えるほど利益がマイナスになる」製品たちには何か共通の要因があるのでしょうか。利益がマイナスになっている幾つかの点にマウスオーバーしてみると、「充電器」や「机」といったキーワードが共通しています。どうやら製品カテゴリに偏りがあるようですので、ディメンションの中からサブカテゴリをマークの色にドラッグ&ドロップして色分けしてみます。

<図2-5 サブカテゴリをマークの色に配置>

<図2-6>

利益がマイナスになっている点は、少数の同じ色であることが目立ちます。特に数が多く見えるのはテーブルと電話機です。この2つに絞って詳細な分析を進めていけば、今まで見えていなかった課題が浮き彫りになってくるかもしれません。

色が見づらい場合にはマークの形状をクリックし、中を塗りつぶした黒丸を選択すると見やすくなることがあります。また、画面右端に色の凡例が出ますので、その中から任意のサブカテゴリを選択すると、ハイライト表示することができます。

<図2-7 マークの形状から塗りつぶしを選択>

<図2-8 電話機のサブカテゴリをハイライトしたとき>

以上のように、散布図はメジャーを行列にひとつずつ、マークにディメンションを配置すると作成することができます。プロットした点が多すぎるときはフィルタリングしたり、階層をワンランク上げてみたりするとよいでしょう。

3.傾向線で相関の強さを定量的に把握する

散布図にプロットした点を読み解くときのポイントは「点がどのように集束しているか」を見ることです。それぞれの点がばらばらに分布しているほど関係性(相関)が弱く、1本の直線上に沿っていれば関係性は強いと言えます。※1 この相関の強弱は数学的に計算することができ、Tableauを使えば簡単にそれを知ることができます。

画面左上の「アナリティクス」をクリックすると統計機能のメニューが表示され、その中に「傾向線」があります。この傾向線をビューにドラッグ&ドロップしましょう。ドラッグすると線形や対数といったアイコンが出ますが、ここでは線形または何もないところにドロップします。

<図3-1>

<図3-2 傾向線をビューにドラッグ&ドロップした直後>

傾向線をドラッグ&ドロップすると、たくさんの線が表示されました。この線1本がひとつのサブカテゴリを表しています。このとき、統計的にはTableauの傾向線は最小二乗法による単回帰式となっており、式は「y=ax+b」の形を取ります。

傾向線にマウスオーバーすると、式とともにR2乗値とP値が表示されます。R2乗値は決定係数といって相関の強さを表すもので、1に近づくほど関係が強いということができます。例えば、テーブルの傾向線にはR2乗値が0.37と表示されているので中程度の相関があり、しかも式の傾きがマイナスですので「売上が高くなるほど利益が小さくなる(マイナスになっていく)」ということが明らかになっています。※2

<図3-3 テーブルの傾向線>

4.まとめ

今回はデータを散布図に表す方法、そしてデータの相関を傾向線から読み取る方法を解説しました。関係性を明らかにしてある程度の相関を見出すことができれば、例えば将来の予測を行うことができます。また、傾向線から大きく外れるデータは「いつもとは異なるデータ」と看做すこともできますので、プロモーションの効果測定や異常検知に活用することもできます。

[注釈]
※1 説明上は「直線」としていますが、実際には直線である必要はありません。データが指数関数グラフのように並んでいる場合は対数変換をかければ直線になりますので、相関性を認めることができます。
※2 Tableauにおける傾向線モデルの詳細は https://onlinehelp.tableau.com/v2018.2/pro/desktop/ja-jp/help.htm#trendlines_add.htmlをご覧ください。

著者プロフィール

柳瀬隆志
柳瀬隆志ヤナセタカシ

株式会社カホエンタープライズ代表取締役社長。1976年福岡生まれ。2000年東京大学経済学部卒業後、三井物産株式会社に入社。2008年嘉穂無線株式会社へ入社、2013年、嘉穂無線株式会社代表取締役副社長を経て、2016年に株式会社グッデイ(嘉穂無線株式会社より社名変更)の代表取締役社長に就任。現在に至る。