データセットが人種差別や性差別をどのように蓄積するか

画像とテキストの機械学習アルゴリズムは、定期的に人種的および性差別的なバイアスを示します。最近の例は、性的マイノリティやアフリカ系アメリカ人のメンバーを「憎む」韓国のFacebookボットLeeLudaのブロックです 問題は見た目よりも深刻です。機械学習用のデータセットを作成するとき、人々は(意識的であろうとなかろうと)彼ら自身の偏見の多くをそれらに変換し、それがその後アルゴリズムを導きます。







プログラムされた人種差別



顔写真データは、コンピュータビジョンシステムの基礎です。これらのセットには、特定のデータセット内の個人の人種に応じてラベルが付けられることがよくあります。しかし、実際には、人種は抽象的で漠然とした概念です。カテゴリを作成するとき、この情報の有効性、構造化、および安定性にはほとんど注意が払われません。これは、データセットを形成する人々が、データセットを形成するときに人種差別の意識的または無意識的な兆候を示す機会があることを意味します。



マサチューセッツ州北東部大学のZayedHanとYunFuの研究者は、人種カテゴリのコンテキストでデータセット内の顔タグを調べました。科学者は 主張しますそのタグは、人種的なステレオタイプを体系的にエンコードしているため、信頼性がありません。一部のデータセットでは、「インド/南アジア」や「アフリカ、インド、バングラデシュ、ブータンなどの国の祖先を持つ人々」など、あいまいすぎる特性が使用されています。また、「モンゴロイド」など、不快と解釈される可能性のあるラベルが使用されることもあります。



研究者たちは、一般的に使用されている人種カテゴリー(アジア、黒、白)の標準セットは、かなりの数の人々を表すことができないと書いています。たとえば、このスキームはネイティブアメリカンの人々を除外します。中東や北アフリカに住む何億人もの人々にどのラベルを付けるかは不明です。別の発見された問題は、人々が特定の個人の人種的アイデンティティを異なって認識することです。たとえば、あるデータセットでは、韓国人はフィリピン人よりもアジア人であると見なされていました。



理論的には人種カテゴリーの数を増やすことは可能ですが、たとえばメスティーソを説明することはできません。国または民族の起源を使用できますが、国境は多くの場合、外観の違いを反映していない歴史的状況の結果です。さらに、多くの国は人種的に異質です。



研究者たちは、対処しないままにしておくと、人種の偏見が倍増し、強化される可能性があると警告しています。顔認識アルゴリズムは、さまざまなバイアスの影響を受けやすくなっています。データセットには、差別を避けるために、できるだけ多くの正しく記述された人種が含まれている必要があります。すべての民族グループは、どんなに小さくても、デジタルの世界で代表されるべきです。



プログラムされた性差別



テキストや画像を生成するためのアルゴリズムに関しては、誤った信念をブロードキャストすることもできます。ある意味で、それらは集合的無意識のインターネットの擬人化です。否定的なアイデアは、学習アルゴリズムの一部として正規化されます。



研究者のライアン・スティードとアイリーン・カリスキャン は実験を行いました。彼らは男性と女性の顔の写真をトリミングされた画像を追加するサービスにアップロードしました。ケースの43%で、アルゴリズムは男性にビジネススーツを提供しました。ケースの53%の女性の場合、アルゴリズムは深いネックラインのトップまたはスーツを生成しました。



2019年、研究者のキース・クロフォードとアーティストのトレバー・パグレンが 発見しましたコンピュータビジョンモデルをトレーニングするための最大のデータセットであるImageNetのタグには、不快な言葉が含まれています。たとえば、「痴女」や間違った人種名。問題は、これらのデータセットがインターネットからのデータに基づいていることです。インターネットでは、人や現象に関する多くのステレオタイプが広まっています。



研究者たちは、画像は非常にあいまいなデータであり、多くのあいまいな意味、解決できない質問、矛盾を抱えていることを強調しています。そして、機械学習アルゴリズムの開発者は、画像と値の間の不安定な関係のすべてのニュアンスを研究するという課題に直面しています。



もっと写真が必要



研究者のDeborahRajiとGenevieveFried は、43年間にわたって収集された130の顔データセット(FairFace、BFW、RFW、およびLAOFIW)を調査しました。結局のところ、より多くのデータが増えるにつれて、人々はデータセットで使用するために画像を使用することに同意を求めることを徐々にやめました。



その結果、未成年者の写真、人種差別主義者や性差別主義者の説明を含む写真、低品質の画像などのデータセットが作成されました。この傾向は、警察が顔認識データに基づいて定期的に人々誤って逮捕する理由を説明している可能性があり ます。



当初、人々は顔のデータの収集、文書化、検証に非常に慎重でしたが、今日では誰も気にしません。 「100万の顔を追跡することはできません。ある時点を過ぎると、自分がコントロールしているふりをすることすらできなくなります。私たちは少なくとも数万人から個人情報を収集しますが、それ自体が危害の根拠となっています。そして、私たちはあなたが制御できないこれらすべての情報を蓄積して、あなたが予測することさえできない方法で機能する可能性が高い何かを構築します」とデボラ・ラジは言います。



したがって、機械学習のアルゴリズムとデータを、世界を客観的かつ科学的に分類するエンティティと考えるべきではありません。彼らはまた、政治的、イデオロギー的、人種的偏見、および主観的評価の対象となります。そして、大規模で人気のあるデータセットの状態から判断すると、これは例外ではなくルールです。






ブログ ITGLOBAL.COM-マネージドIT、プライベートクラウド、IaaS、ビジネス向け情報セキュリティサービス:






All Articles