機械学習モデルの公平性について学んでみた【機械学習論文100本ノック（1/100）】

こんにちは。今日から、今年ずっとやろうやろうと思っていた機械学習の論文100本ノックについに乗り出してみたいと思います笑

100本読んだ結果見える景色が何がどんなふうに変わるかわかりませんが、この分野の研究の関心動向や、使っている技術の背景についての知見が深まればいいな～と思っております。

Contents

論文100本ノックの目的と進め方

目的

この分野の研究の関心の動向を掴みたい。
普段使っている技術の登場背景や詳細の理解を深めたい。

進め方

最低限AbstractとIntroduction、Conclusionは読む。
本編は興味に応じて。

今回読んだ論文

A Reductions Approach to Fair Classification（2018/07）

https://arxiv.org/pdf/1803.02453.pdf

この論文を選んだ理由

機械学習の公平性に関するオープンソールライブラリ「Fairlearn」の元ネタとなったMicrosoft研究者らによる論文ということで興味を持った。

機械学習の公平性が大切というのは機械学習の学び初めにたくさん目にすることだと思いますが、これに対して最近（2018年なのでちょっと前ですが）どんな研究がされているのか知りたいと思った。

https://www.microsoft.com/en-us/research/publication/a-reductions-approach-to-fair-classification/

内容と学んだこと（箇条書き）

Abstract & Introduction

機械学習モデルは、マイノリティや歴史的に不利な立場にある人々に対して差別をする可能性があることが懸念されている
この論文では人種や性別などに対する公平性を保った二値分類タスクの設計について考察する
これまでの研究の方向性は２つのグループに分類できる
１つは既存の手法自体に公平性を組み込むアプローチ、もう一つは既存の手法をブラックボックスとして扱ってそのラッパーとして公平性を組み込むアプローチ
この論文では後者のアプローチの利点を生かした汎用的な手法を紹介する
このアプローチは、
- どのようなモデルに対しても適用できる
- 線形不等式で定式化される（どゆこと？）任意の公平性を定義できる
- また、公平性の定義や保護された属性に対する事前の知識を必要しない（どゆこと！？）
この手法では、①公平性を定量化して、②その指標を最適化することで、精度と公平性のトレードオフを最適化した二値分類モデルの構築を可能にする（公平性を定量化してそれに対するコストセンシティブな問題ととらえている点がポイント）

公平性の定量化・・・！？どうやって・・？と思ったのでもうちょっと読み進めてみた。

Problem Formulation～Reduction

例えば、ローンの滞納有無を予測する二値分類モデルを考える。その特徴量のセットをX（収入や過去の支払い履歴、ローン額など）、その中でも保護されるべき特徴量（性別や人種など）をAとする。目的変数は滞納するかの（０、１）。
こうした分類問題を解くにあたっての公平性定義としては、以下が良く知られている。
- 人口学的（統計学的）平等：米国雇用均等委員会が提唱した５分の４ルール（あらゆる人種、性別、民族の選択率は、そのグループの選択率の少なくとも５分の４以上でなければならない））の強化版のようなもの
- 均等オッズ：上記の人口学的平等の欠点を改善するために最近（2016年頃）提案されたもの。この研究ではこちらに基づいて公平性を定義している模様。
この論文で研究された手法では、これらや過去の研究で手法された公平性の指標を含み、これを最適化する方法を提案している。

この均等オッズの説明を理解するところで挫折した笑

ので、日本語の説明を探す旅に・・そして分かりやすい説明をみつけた。

https://ibisml.org/ibis2018/files/2018/11/fukuchi.pdf

平等性には集団レベルでの平等性と個人レベルの平等性がある。
人口学的平等（Democratic Parity = DP）を実現しようとすると、集団レベルでの平等性は保たれるが、逆差別（その統計分布に合わせようとするがあまり、逆に個人レベルでの平等が失われる）が発生し得る。
均等オッズ（Equalized Odds = EO）はこの不平等の発生を軽減できる。
EOとDPはトレードオフであり、どちらも同時に達成することはできない。

メルカリのエンジニアリングブログも。こちらはFairlearnの実装サンプルもある。

https://engineering.mercari.com/blog/entry/20211217-3286689d87/

DPは、保護されるべき属性Aにかかわらず等しい予測分布であることを求める。
EOは、保護されるべき属性AにかかわらずTrue Positive RateとFalse Positiveが等しくあることを求める。

均等オッズの考え方がなんとなく分かったところで、この論文のメインポイントである、定量化した公平性の最適化の理論の説明を読み進めてきたけど、・・・ちょっと思っていた５倍くらいの時間がかかりそうだったので今日はここで挫折笑

FairLearnを使ってみて気になったところでもう一段理解を深める旅に出てみようと思います。

今日はこのくらいで。

おしまい。明日も頑張る。

機械学習モデルの公平性について学んでみた【機械学習論文100本ノック（1/100）】

論文100本ノックの目的と進め方

今回読んだ論文

内容と学んだこと（箇条書き）

関連

コメントを残す

Profile

Categories

yutaro013_scenery

Trending Posts

【2023年度最新版】Azure Administrator Associate資格 (AZ-104)を3日で取得した話。勉強方法は？取ってよかった？

【詳解】クライアント証明書認証を実装しながら理解する – 前編：概要～証明書作成編

【VSCodeで開発】コミットしようとしたら「Git の ‘user.name’ と ‘user.email’ を構成していることを確認してください」エラーが発生する

【自然言語処理】PythonとTwitter APIでデータ分析

【2023年最新版】Microsoft Cybersecurity Architect Expert資格 (SC-100)を1週間で取得した話。勉強方法は？取ってよかった？

【2023年最新版】Azure Solution Architect Expert資格 (AZ-305)を1週間で取得した話。勉強方法は？取ってよかった？

超便利＆簡単！VS Codeの設定を複数PC間で同期する

【機械学習】Scikit-Learnで交差検証(Cross-Validation)を一瞬で実装する【Python】

AzureのSAS（共有アクセス署名）を分かりやすく解説する

Azure Developer Associate資格(AZ-204)を10日間で取得した話。勉強方法は？取ってよかった？

Microsoft Power Platform Fundamental資格 (PL-900)を取得した話。勉強方法は？取ってよかった？

【Python×自然言語処理】テキストデータを極性辞書で感情分析してみる

【2023年最新版】Azureの認定資格を1ヶ月で全部とる。資格一覧と対策方法・体験記まとめ

Azure Data Fundamentals資格 (DP-900)を2日で取得した話。勉強方法は？取ってよかった？

【データ分析】MacOSで複数のPython/Anacondaバージョンを使い分ける方法【pyenv】

【機械学習】決定木モデルの変数重要度をわかりやすく解説する

CPU使用率とCPU時間について分かりやすく解説する

機械学習における転移学習とファインチューニング

Azure AI Fundamentals (AI-900)を2日で取得した話。勉強方法は？取ってよかった？

3日間集中勉強でAWSソリューションアーキテクトアソシエイト資格試験(SAA-C02)に合格した話

アーカイブ