【機械学習】決定木モデルの変数重要度をわかりやすく解説する

こんにちは。今日は決定木モデルのふるまいの解釈に使われる変数重要度について、自分でも理解が少しあいまいだったので整理してみようと思ってこの記事を書いています。

同じ疑問を持たれている方のお役に少しでも立ちましたら幸いです。

Contents

変数重要度とは？

ざっくりいうと、「モデルに投入した各特徴量が、予測精度にどれだけ影響を与えたか」を表す指標と言えます。

超適当な例ですが、以下のような、「外出するか？」という目的変数に対して「天気」「湿度」「風の強さ」という３つの特徴量を考慮した決定木モデルを作ったときに、「外出するか？」を決定するために一番影響した特徴量は何だったの？という疑問に答えるための指標と考えることができます。

いろいろな変数重要度の測定方法

さて、この変数重要度ですが、実はいくつもの測定方法があります。私の知る限りでは、以下の４種類の測定方法がよく知られているのではないかと思います。

Split Importance
Gini Importance
Permutation Importance
SHAP Importance

それぞれどういうものか、見ていきたいと思います。

Split Importance

ツリーの分割にその特徴量が使われた回数をカウントするという非常にシンプルなもの。

使われるケースは・・・あるのか？（と思ったら後述しますがなぜかLightGBMのデフォルトはSplit Importanceが計測されていました）

Gini Importance

その特徴量で不純度（ジニ不純度：Gini Inpurity）をどれだけ改善できたかという指標で評価する方法。直感的には、決定木において、きれいに目的変数を分類できる（不純度が低くなるような分類ができる）特徴量ほど重要度が高いとみなされる。

Scikit-Learnのランダムフォレストの変数重要度などは、規定値でこのGini Importanceで計測されていますね。

Permutation Importance

Permutateとは、「並び替える」の意。

その特徴量を完全に無意味なものに(データレコード間で値をシャッフルする)したときに、しなかった場合のモデルと比べて精度がどの程度落ちるかを評価するもの。精度の低下が大きい＝その変数は重要という考え方。

Gini Importanceとの使い分け含めて、詳しくはこちらにまとめました。Gini ImportanceやSplit Importanceと比べるとやや計算コストがかかりますが、Gini Importanceの課題も克服して、かつどんなモデルに対しても計測できるため、重宝します。

【機械学習】Permutation Importanceでモデルの変数重要度を解釈する

SHAP Importance

こちらは、これまでの変数重要度とは少し毛色が変わり、ゲーム理論の考え方をもとに編み出された重要度です。詳しくはこちらにまとめました。

SHAPで機械学習モデルの予測根拠を解釈する

SHAP ImportanceとPermutation Importanceの違いについては、以下のWebサイトにこんな記載がありましたので引用します。

SHAP feature importance is an alternative to permutation feature importance. There is a big difference between both importance measures: Permutation feature importance is based on the decrease in model performance. SHAP is based on magnitude of feature attributions.
https://christophm.github.io/interpretable-ml-book/shap.html

LightGBMでの実装

私はLightGBMを使うことが多いので、LightGBMでの設定についても確認しておきます。

上記の重要度評価の方法はLightGBMの関数”feature_importance()”のオプションで指定可能です。

https://lightgbm.readthedocs.io/en/latest/pythonapi/lightgbm.Booster.html#lightgbm.Booster.feature_importance

・・・！なんと、LightGBMのデフォルトはSplitでした！OMG！
Gini Importanceによる評価を行いたい場合は、importance_type=“gain”と指定する必要があるようです。

*gainとありますが、giniによる評価と等価とかいてあります。
https://github.com/Microsoft/LightGBM/issues/1842

ちなみに、Permutation ImportanceについてはLightGBMの実装としては提供されていなさそうだった。(違ってたらごめんなさい) ただ、Scikit-learnのライブラリで提供されているようなので、組み合わせることで算出できそう。

その他の評価方法

Partial Dependence Plots (PDPs)

モデルの特徴量重要度を解釈する他の方法として、PDPというものもあります。

こちらは2001年のFriedmanの論文「」で提案されたもの。

Individual Conditional Expectation (ICE) Plots

こちらは2015年にGoldsteinらによって提唱されたもので、PDPsをより洗練させたもの、らしい。
詳細はここでは割愛します。

【機械学習】決定木モデルの変数重要度をわかりやすく解説する

変数重要度とは？

いろいろな変数重要度の測定方法

Split Importance

Gini Importance

Permutation Importance

SHAP Importance

LightGBMでの実装

その他の評価方法

Partial Dependence Plots (PDPs)

Individual Conditional Expectation (ICE) Plots

関連

コメントを残す

Profile

Categories

yutaro013_scenery

Trending Posts

【2023年度最新版】Azure Administrator Associate資格 (AZ-104)を3日で取得した話。勉強方法は？取ってよかった？

【詳解】クライアント証明書認証を実装しながら理解する – 前編：概要～証明書作成編

【VSCodeで開発】コミットしようとしたら「Git の ‘user.name’ と ‘user.email’ を構成していることを確認してください」エラーが発生する

【自然言語処理】PythonとTwitter APIでデータ分析

【2023年最新版】Microsoft Cybersecurity Architect Expert資格 (SC-100)を1週間で取得した話。勉強方法は？取ってよかった？

【2023年最新版】Azure Solution Architect Expert資格 (AZ-305)を1週間で取得した話。勉強方法は？取ってよかった？

超便利＆簡単！VS Codeの設定を複数PC間で同期する

【機械学習】Scikit-Learnで交差検証(Cross-Validation)を一瞬で実装する【Python】

AzureのSAS（共有アクセス署名）を分かりやすく解説する

Azure Developer Associate資格(AZ-204)を10日間で取得した話。勉強方法は？取ってよかった？

Microsoft Power Platform Fundamental資格 (PL-900)を取得した話。勉強方法は？取ってよかった？

【Python×自然言語処理】テキストデータを極性辞書で感情分析してみる

【2023年最新版】Azureの認定資格を1ヶ月で全部とる。資格一覧と対策方法・体験記まとめ

Azure Data Fundamentals資格 (DP-900)を2日で取得した話。勉強方法は？取ってよかった？

【データ分析】MacOSで複数のPython/Anacondaバージョンを使い分ける方法【pyenv】

【機械学習】決定木モデルの変数重要度をわかりやすく解説する

CPU使用率とCPU時間について分かりやすく解説する

機械学習における転移学習とファインチューニング

Azure AI Fundamentals (AI-900)を2日で取得した話。勉強方法は？取ってよかった？

3日間集中勉強でAWSソリューションアーキテクトアソシエイト資格試験(SAA-C02)に合格した話

アーカイブ