【Python×データ分析】Scikit-Learnで主成分分析(PCA)を実装する

こんばんは。今回は久々、Python×データ分析の話です。

主成分分析のScikit Learnを使った実装を実行可能なサンプルコードとともに残しておきます。

取り急ぎ最低限の情報だけ。またUpdateします。

Contents

参考サイト

こちらのQiitaの記事を参考にさせていただきました！

https://qiita.com/maskot1977/items/082557fcda78c4cdb41f

実装

Irisのデータセットを使って実験してみました。

from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

## Irisデータセットの読み込み
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['target'] = iris.target
display(df.head())
# sns.pairplot(df,hue="target")
# plt.show()

## 主成分分析
pca = PCA(n_components=2)
pca.fit(df[iris.feature_names])

## データを主成分空間に写像
Xt_tr = pca.transform(df[iris.feature_names])

## 分析結果
print(pca.components_)
print(pca.explained_variance_ratio_)
# print(pca.mean_)
# print(pca.get_covariance())

## 可視化
plt.figure(figsize=(6,6))
plt.scatter(Xt_tr[:,0], Xt_tr[:,1], c=df.target, cmap='tab10', s=5)
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.show()

# 第一主成分と第二主成分における説明変数の寄与度をプロット
plt.figure(figsize=(6, 6))
for x, y, name in zip(pca.components_[0], pca.components_[1], df[iris.feature_names]):
    plt.text(x, y, name)
plt.scatter(pca.components_[0], pca.components_[1], alpha=0.8)
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.show()

主成分分析の結果が以下。PC1, PC2でカテゴリが綺麗に分類されていることが分かります。

PC1はpetal lengthの寄与が最も大きく、PC2はsepal withの寄与が最も大きい変数となっていることが分かります。

（参考）Scikit-Learnの仕様

scikit-learnの仕様は以下から確認できます。今回は試してないですが、様々な引数、メソッドが用意されています。

https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html

おしまい

【Python×データ分析】Scikit-Learnで主成分分析(PCA)を実装する

参考サイト

実装

（参考）Scikit-Learnの仕様

関連

コメントを残す

Profile

Categories

yutaro013_scenery

Trending Posts

【2023年度最新版】Azure Administrator Associate資格 (AZ-104)を3日で取得した話。勉強方法は？取ってよかった？

【詳解】クライアント証明書認証を実装しながら理解する – 前編：概要～証明書作成編

【VSCodeで開発】コミットしようとしたら「Git の ‘user.name’ と ‘user.email’ を構成していることを確認してください」エラーが発生する

【自然言語処理】PythonとTwitter APIでデータ分析

【2023年最新版】Microsoft Cybersecurity Architect Expert資格 (SC-100)を1週間で取得した話。勉強方法は？取ってよかった？

【2023年最新版】Azure Solution Architect Expert資格 (AZ-305)を1週間で取得した話。勉強方法は？取ってよかった？

超便利＆簡単！VS Codeの設定を複数PC間で同期する

【機械学習】Scikit-Learnで交差検証(Cross-Validation)を一瞬で実装する【Python】

AzureのSAS（共有アクセス署名）を分かりやすく解説する

Azure Developer Associate資格(AZ-204)を10日間で取得した話。勉強方法は？取ってよかった？

Microsoft Power Platform Fundamental資格 (PL-900)を取得した話。勉強方法は？取ってよかった？

【Python×自然言語処理】テキストデータを極性辞書で感情分析してみる

【2023年最新版】Azureの認定資格を1ヶ月で全部とる。資格一覧と対策方法・体験記まとめ

Azure Data Fundamentals資格 (DP-900)を2日で取得した話。勉強方法は？取ってよかった？

【データ分析】MacOSで複数のPython/Anacondaバージョンを使い分ける方法【pyenv】

【機械学習】決定木モデルの変数重要度をわかりやすく解説する

CPU使用率とCPU時間について分かりやすく解説する

機械学習における転移学習とファインチューニング

Azure AI Fundamentals (AI-900)を2日で取得した話。勉強方法は？取ってよかった？

3日間集中勉強でAWSソリューションアーキテクトアソシエイト資格試験(SAA-C02)に合格した話

アーカイブ