【機械学習】Scikit-Learnで交差検証(Cross-Validation)を一瞬で実装する【Python】

こんにちは。本日は、Scikit-Learnを使って機械学習モデル構築時の交差検証を実装する方法をご紹介いたしますす。（交差検証の理論は分かっている前提で話を進めます）

Contents

方法１：sklearnのcross_val_score()を使う

これ、cross_val_score()という関数を使ってなんと１行で実装できてしまうんですね・・恐ろしく便利・・・

関数の公式リファレンスはこちらです。

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html

以下が、引数の一覧です。この関数の返り値は下の引数で設定するscoreになります。

sklearn.model_selection.cross_val_score(estimator, X, y=None, *, groups=None, scoring=None, cv=None, n_jobs=None, verbose=0, fit_params=None, pre_dispatch='2*n_jobs', error_score=nan)

引数について、一つづつ確認していきます。

estimator：学習器を持つ(fit関数を持つ)オブジェクト
X：学習データ（array, listでも良い）
y：教師あり学習を行う場合の正解データ
groups：GroupKFoldを行う場合の層化指標
scoring：評価指標
cv：Cross-ValidationのFold数（scikit-learn ver0.22よりデフォルトが5(以前は3)になりました）
n_jobs：利用するCPU数（デフォルトは1。-1を指定すると、全てのCPUを利用する）
verbose：何ステップおきに学習状況を出力するか
fit_params：estimatorに渡すパラメータ
pre_dispatch：並列実行時の起動ジョブ数（少ない方がメモリ消費は抑えられる）
error_score：エラー発生時にエラーをraiseするか（’raise’を設定）

Pythonの実装

毎度おなじみ、タイタニックのデータを用いて実装します。

from sklearn import svm
from sklearn.model_selection import cross_val_score

## 読み込み
df_train = pd.read_csv(PATH+'train.csv')
df_test = pd.read_csv(PATH+'test.csv')

## 特徴量エンジニアリング（詳細割愛）
df_train_fe = feature_engineering(df_train)
df_test_fe = feature_engineering(df_test)

## モデリング（サポートベクターマシン）
exclude_columns = [
    'Name',
    'Ticket',
    'PassengerId',
    'Survived'
]
features = [c for c in df_train_fe.columns if c not in exclude_columns]

svc = svm.SVC()

## Cross-Validation
score = cross_val_score(svc,df_train_fe[features],target,scoring='roc_auc',cv=5, n_jobs=-1)
print(score)

実行結果

CV=5としたので、各Foldのroc_aucの値が返ってきています。

[0.84426877 0.82727273 0.84237968 0.80855615 0.8931658 ]

方法２：sklearnのcross_validate()を使う

２つ目の方法は、SKlearnのcross_validate関数を使う方法です。

ん、同じscikit-learnでなんで複数の交差検証関数があるの・・？と思いますよね。こちらはScikit-Learnの公式ドキュメントにて解説されています。

https://scikit-learn.org/stable/modules/cross_validation.html#the-cross-validate-function-and-multiple-metric-evaluation

cross_val_score関数と異なって評価に複数のメトリクスを指定できる
cross_val_score関数と異なり、テストスコア以外の情報（fit、スコアリングに要した時間など）も得られる

実装例は上のリンクにあるので割愛します。

なお、cross_val_scoreとの使い分けですが、scikit-learnの立場として以下のようにコメントされていますので、cross_validateを使う必要のない場合は、引き続きcross_val_scoreを使うでもよさそうです。

The simplest way to use cross-validation is to call the cross_val_score helper function on the estimator and the dataset.
https://scikit-learn.org/stable/modules/cross_validation.html#the-cross-validate-function-and-multiple-metric-evaluation

以上、自分でKFold/GroupKFoldのコードを組まなくても簡単に交差検証を実装する方法でした！この記事が少しでもお役に立ちましたら、下のいいねボタンをぽちっていただけますと励みになります！

（おまけ）Python×機械学習をもっと学ぶなら・・・

個人的には、Udemyのコンテンツは利用しやすく重宝しています。その分野のエキスパートの方が作成したコンテンツなので、レビュー数が多いものを選べば内容も間違いないですし、万が一内容が合わなかった場合には30日以内の返金にも対応しているので、利用しやすいと思います。

Python × 機械学習の人気コンテンツとしては、以下のようなものがありましたので、ぜひ活用してみてください。

みんなのAI講座ゼロからPythonで学ぶ人工知能と機械学習【2021年最新版】

【世界で18万人が受講】実践 Python データサイエンス

おしまい

【機械学習】Scikit-Learnで交差検証(Cross-Validation)を一瞬で実装する【Python】

方法１：sklearnのcross_val_score()を使う

Pythonの実装

方法２：sklearnのcross_validate()を使う

（おまけ）Python×機械学習をもっと学ぶなら・・・

関連

コメントを残す

Profile

Categories

yutaro013_scenery

Trending Posts

【2023年度最新版】Azure Administrator Associate資格 (AZ-104)を3日で取得した話。勉強方法は？取ってよかった？

【詳解】クライアント証明書認証を実装しながら理解する – 前編：概要～証明書作成編

【VSCodeで開発】コミットしようとしたら「Git の ‘user.name’ と ‘user.email’ を構成していることを確認してください」エラーが発生する

【自然言語処理】PythonとTwitter APIでデータ分析

【2023年最新版】Microsoft Cybersecurity Architect Expert資格 (SC-100)を1週間で取得した話。勉強方法は？取ってよかった？

【2023年最新版】Azure Solution Architect Expert資格 (AZ-305)を1週間で取得した話。勉強方法は？取ってよかった？

超便利＆簡単！VS Codeの設定を複数PC間で同期する

【機械学習】Scikit-Learnで交差検証(Cross-Validation)を一瞬で実装する【Python】

AzureのSAS（共有アクセス署名）を分かりやすく解説する

Azure Developer Associate資格(AZ-204)を10日間で取得した話。勉強方法は？取ってよかった？

Microsoft Power Platform Fundamental資格 (PL-900)を取得した話。勉強方法は？取ってよかった？

【Python×自然言語処理】テキストデータを極性辞書で感情分析してみる

【2023年最新版】Azureの認定資格を1ヶ月で全部とる。資格一覧と対策方法・体験記まとめ

Azure Data Fundamentals資格 (DP-900)を2日で取得した話。勉強方法は？取ってよかった？

【データ分析】MacOSで複数のPython/Anacondaバージョンを使い分ける方法【pyenv】

【機械学習】決定木モデルの変数重要度をわかりやすく解説する

CPU使用率とCPU時間について分かりやすく解説する

機械学習における転移学習とファインチューニング

Azure AI Fundamentals (AI-900)を2日で取得した話。勉強方法は？取ってよかった？

3日間集中勉強でAWSソリューションアーキテクトアソシエイト資格試験(SAA-C02)に合格した話

アーカイブ