機械学習モデルの公平性について学んでみた【機械学習 論文100本ノック(1/100)】

こんにちは。今日から、今年ずっとやろうやろうと思っていた機械学習の論文100本ノックについに乗り出してみたいと思います笑

100本読んだ結果見える景色が何がどんなふうに変わるかわかりませんが、この分野の研究の関心動向や、使っている技術の背景についての知見が深まればいいな~と思っております。

論文100本ノックの目的と進め方

目的

  • この分野の研究の関心の動向を掴みたい。
  • 普段使っている技術の登場背景や詳細の理解を深めたい。

進め方

  • 最低限AbstractとIntroduction、Conclusionは読む。
  • 本編は興味に応じて。

今回読んだ論文

A Reductions Approach to Fair Classification(2018/07)

https://arxiv.org/pdf/1803.02453.pdf

この論文を選んだ理由

機械学習の公平性に関するオープンソールライブラリ「Fairlearn」の元ネタとなったMicrosoft研究者らによる論文ということで興味を持った。

機械学習の公平性が大切というのは機械学習の学び初めにたくさん目にすることだと思いますが、これに対して最近(2018年なのでちょっと前ですが)どんな研究がされているのか知りたいと思った。

https://www.microsoft.com/en-us/research/publication/a-reductions-approach-to-fair-classification/

内容と学んだこと(箇条書き)

Abstract & Introduction

  • 機械学習モデルは、マイノリティや歴史的に不利な立場にある人々に対して差別をする可能性があることが懸念されている
  • この論文では人種や性別などに対する公平性を保った二値分類タスクの設計について考察する
  • これまでの研究の方向性は2つのグループに分類できる
  • 1つは既存の手法自体に公平性を組み込むアプローチ、もう一つは既存の手法をブラックボックスとして扱ってそのラッパーとして公平性を組み込むアプローチ
  • この論文では後者のアプローチの利点を生かした汎用的な手法を紹介する
  • このアプローチは、
    • どのようなモデルに対しても適用できる
    • 線形不等式で定式化される(どゆこと?)任意の公平性を定義できる
    • また、公平性の定義や保護された属性に対する事前の知識を必要しない(どゆこと!?)
  • この手法では、①公平性を定量化して、②その指標を最適化することで、精度と公平性のトレードオフを最適化した二値分類モデルの構築を可能にする(公平性を定量化してそれに対するコストセンシティブな問題ととらえている点がポイント)

公平性の定量化・・・!?どうやって・・?と思ったのでもうちょっと読み進めてみた。

Problem Formulation~Reduction

  • 例えば、ローンの滞納有無を予測する二値分類モデルを考える。その特徴量のセットをX(収入や過去の支払い履歴、ローン額など)、その中でも保護されるべき特徴量(性別や人種など)をAとする。目的変数は滞納するかの(0、1)。
  • こうした分類問題を解くにあたっての公平性定義としては、以下が良く知られている。
    • 人口学的(統計学的)平等:米国雇用均等委員会が提唱した5分の4ルール(あらゆる人種、性別、民族の選択率は、そのグループの選択率の少なくとも5分の4以上でなければならない))の強化版のようなもの
    • 均等オッズ:上記の人口学的平等の欠点を改善するために最近(2016年頃)提案されたもの。この研究ではこちらに基づいて公平性を定義している模様。
  • この論文で研究された手法では、これらや過去の研究で手法された公平性の指標を含み、これを最適化する方法を提案している。

この均等オッズの説明を理解するところで挫折した笑

ので、日本語の説明を探す旅に・・そして分かりやすい説明をみつけた。

https://ibisml.org/ibis2018/files/2018/11/fukuchi.pdf

  • 平等性には集団レベルでの平等性と個人レベルの平等性がある。
  • 人口学的平等(Democratic Parity = DP)を実現しようとすると、集団レベルでの平等性は保たれるが、逆差別(その統計分布に合わせようとするがあまり、逆に個人レベルでの平等が失われる)が発生し得る。
  • 均等オッズ(Equalized Odds = EO)はこの不平等の発生を軽減できる。
  • EOとDPはトレードオフであり、どちらも同時に達成することはできない。

メルカリのエンジニアリングブログも。こちらはFairlearnの実装サンプルもある。

https://engineering.mercari.com/blog/entry/20211217-3286689d87/

  • DPは、保護されるべき属性Aにかかわらず等しい予測分布であることを求める。
  • EOは、保護されるべき属性AにかかわらずTrue Positive RateとFalse Positiveが等しくあることを求める。

均等オッズの考え方がなんとなく分かったところで、この論文のメインポイントである、定量化した公平性の最適化の理論の説明を読み進めてきたけど、・・・ちょっと思っていた5倍くらいの時間がかかりそうだったので今日はここで挫折笑

FairLearnを使ってみて気になったところでもう一段理解を深める旅に出てみようと思います。

今日はこのくらいで。

おしまい。明日も頑張る。

この記事を気に入っていただけたらシェアをお願いします!

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

ABOUT US
Yuu113
初めまして。ゆうたろうと申します。 兵庫県出身、東京でシステムエンジニアをしております。現在は主にデータ分析、機械学習を活用してビジネスモデリングに取り組んでいます。 日々学んだことや経験したことを整理していきたいと思い、ブログを始めました。旅行、カメラ、IT技術、江戸文化が大好きですので、これらについても記事にしていきたいと思っています。