【これは楽しい】Microsoftの可視化ツールSandDanceを使ってみた

こんばんは、今日はMicrosoft社が開発したBIツールSand Danceを使ってみようと思います。

Contents

SandDanceの歴史

Sand Danceは2011月にMicrosoft社の研究機関であるMicrosoft ResearchからリリースされたBIツールです。

そして2019年の10月10日にオープンソース化されました。

https://cloudblogs.microsoft.com/opensource/2019/10/10/microsoft-open-sources-sanddance-visual-data-exploration-tool/

ちなみに、私もこのニュースをみて初めて知ったわけですが、過去どのくらい注目されているの?ということでトレンドを見てみました。

これまでは、あまり注目度が高かったわけではないのですね。ただし、オープンソース化のニュース以降検索が増えているのが見えますので、これからどのように進化して盛り上がっていくのか、注目していきたいです。

ともあれ、どういうものか使ってみようと思います。

Python 3 入門+アメリカのシリコンバレー流コードスタイル

Sanddanceをインストール

Sanddanceは、Web上のツールとして使えるものに加えて、Visual Studioのプラグインとしても提供されているようです。私はVisual Studioのプラグインの方を試してみました。

Webツールは以下のリンクからすぐ使えます。

https://sanddance.js.org/

Visual Studio Codeへのプラグイン追加は以下の手順で。

1, 左のExtension (拡張機能) タブから”sanddance”を検索

プラグインインストール

インストール後、VS Code Studioを再起動すれば準備完了!

タイタニックデータを可視化

2, CSVの読み込み&Sanddanceで表示

今回はTitanicのデータをサンプルで利用します。CSVをVS Codeで開いて、タブを右クリックすると、”View in SandDance”という項目がありますので、クリック。

View in SandDance

お!それっぽい表が現れました。グラフの種類(CHART)を切り替えると、砂が踊るように(?)美しいグラフィックでグラフが切り替わっていきます。

SandDanceのUI

サンプルで何か可視化してみよう。年齢と、性別と、生存の関係を見てみる。
性別別に、年齢と生存したかをプロット。設定は下記の通り。

可視化

じゃん!おお!年齢によらず女性は優先的に助けられたことが一目で分かります。

図の1つ1つのドットはCSVのレコード1行1行に対応しています。

Binの間隔も簡単に調整できます。(X axis bin sizeを7から20に変更)

ビニング間隔細かく

人工知能と機械学習の人気オンライン講座

その他できること

色調のカスタマイズ

左のタブの上から2番目のところです。

カラーパレット

個別のデータの確認

左のパレットの上から3つめのタブでは個別データを確認可能です。個別データの各項目をクリックすると、同じ項目値を持った他のデータがグラフ上どこに分布しているかが表示されます。これ、便利ですね。

先ほどの分析の観点とは変わりますが、例えば、Pclass=3 (3等客室) をクリックしてみると、男性では40歳以下の人に多いことが分かります。一方で女性は40歳以下で見ても男性よりも割合は少ないことが分かります。

これは、タイタニックに乗船する女性=身分の高い男性の妻などが多かった、ということだったりするのでしょうか。

なるほど、こういうことも直感的にグラフから読み取ることができます。

個別データ確認機能

条件絞り込み

左側パレットの4段目の虫メガネのところですね。ここではグラフに表示されているデータに対して、絞り込み検索で強調表示することが可能です。(先ほどのPclass選択表示と同じです)

Pclass = 1で検索してみました。1等客室の乗客は男性は年齢が高い層に多いことが分かります。

条件絞り込み機能

スナップショット機能

上から5段目のタブを開くと、スナップショットの撮影機能があります。グラフを画像として保存できます。

軸の書式設定

最後の段のタブでは軸の書式設定が可能なようです。

軸の書式設定

以上がSanddanceでできることのようです。(他にもあったらごめんなさい・・)

ビジュアライゼーションに特化しているようで、数値(割合)などと一緒にでるわけではないので、そこは別で計算してやる必要があるのかな?でも一目でデータの分布や関係が分かるのでとても便利ですね。

これからの発展も楽しみです!

本日も最後までご覧いただき有難うございました^^

この記事を気に入っていただけたらシェアをお願いします!

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

ABOUT US
Yuu113
初めまして。ゆうたろうと申します。 兵庫県出身、東京でシステムエンジニアをしております。現在は主にデータ分析、機械学習を活用してビジネスモデリングに取り組んでいます。 日々学んだことや経験したことを整理していきたいと思い、ブログを始めました。旅行、カメラ、IT技術、江戸文化が大好きですので、これらについても記事にしていきたいと思っています。