データが汚れているとき

以下のストーリーは、AIが解決しようとしている問題について間違った考えをどのように取得するかを示す優れた例です。



チュービンゲン大学の研究者は、画像を認識するようにニューラルネットワークをトレーニングし、画像のどの部分が決定を下すのに最も重要であるかを示すように求めました。彼らがニューラルネットワークにテンチ(魚種)カテゴリーの最も重要なピクセルを強調するように頼んだとき、これはそれが強調したものです:







緑の背景にピンクの人間の指。



緑の背景に人間の指!



彼女が魚を探さなければならなかったのに、なぜ彼女は写真で指を探していたのですか?データセット内のテンチ画像のほとんどは、魚をトロフィーとして持っている人々の画像であることが判明しました。彼女はテンチが実際に何であるかについての文脈を持っていないので、彼女は指が魚の一部であると仮定します。ArtBreederBigGAN)で



画像を生成するニューラルネットワークは、同じImageNetデータセットでトレーニングされており、線を生成するように要求すると、同じことを行います。4つの画像は、緑色で斑点のあるものを持っている白人です。いくつかの画像では、緑色のものはより魚のような質感を持っていますが、明確な頭と尾はどこにもありません。それはただの大きな魚の体です。下のひれは多くのピンクの人間の指と複雑にブレンドされています









人間は魚よりもはるかにはっきりしていて、私は非常に誇張された人間の指に魅了されています。



ImageNetには、同様の問題を持つ他のカテゴリがあります。これがマイクです。





背景が非常に暗い4つの画像。左上は、ふわふわのサウンドバッフルまたは灰色の人間の髪の毛の頭を備えたマイクに似た形状です。他の人は人間のように見えます



神経回路網はシーンの対照的な照明と人間の形を認識しましたが、多くの画像にはリモートでマイクに似たものは何も含まれていません。トレーニングキットの写真の多くでは、マイクは画像のごく一部であり、見落としがちです。 「フルート」や「オボエ」などの小さな楽器でも同様の問題が発生します。



その他の場合、写真に誤ったラベルが付けられているという証拠があります。これらの生成された「フットボールヘルメット」の画像には、ヘルメットを着用していない人をはっきりと描いているものもあれば、野球のヘルメットのように不審に見えるものもあります。





生成された4つの画像。上位2人はどちらもフットボールのヘルメットを着用していない人です(ただし、髪の毛は少し奇妙かもしれませんが、他の人もとても奇妙なのでわかりにくいです)。左下では、男性が金属製の野球のようなヘルメットをかぶっています。右下...右下-歯を見せる漫画の魚と交差するフットボールのヘルメット



ImageNetは本当に厄介なデータセットです。彼はアガマのカテゴリーを持っていますが、キリンのカテゴリーは持っていません。カテゴリとしての馬の代わりに、スイバ(馬の特定の色)があります。二人用の自転車はカテゴリーですが、スケートボードはそうではありません。





明らかにある種の多輪自転車オブジェクトである4つの画像。ホイールは、奇妙に分割されたスポークで柔軟になる傾向があり、ホイールが緩むことがあります。ライダーのように見える人もいますが、自転車と区別するのは難しい



です。ImageNet汚染主な理由は、データベースがインターネット上で自動的に収集されるためです。画像は、それらにタグを付けたクラウドソースの労働者によってフィルタリングされるはずでしたが、多くの奇妙なことが漏れています。そしてひどく大きい一般的な研究データセットに絶対に表示されるべきではなかった画像とタグの数、および描かれた人々の同意なしにそこに到達したように見える画像。 AIコミュニティで何年にもわたって広く使用された後、ImageNetチームはこのコンテンツの一部を削除したと報告されています。許可なくオンライン画像から収集されたものや監視映像から収集されたものなど、その他の問題のあるデータセットも最近削除されました(Clearview AIなどの他のデータセットまだ使用されています)。



VinayPrabhuAbabaBirhane、今週、別のデータセットである8000万のTinyImagesに関する深刻な問題指摘しました。..。システムは画像を切り取り、インターネットテキストでトレーニングされた別のニューラルネットワークを使用して自動的にタグ付けしました。あなたはショックを受けるかもしれませんが、インターネットのテキストにはかなり不快なことがいくつかあります。 MIT CSAILはこのデータセットを完全に削除し、8000万個の画像すべてを手動でフィルタリングしないことを選択しました。



これは悪いデータの問題であるだけでなく、大規模な研究グループが不快な言葉や写真を撮る同意の欠如などの大きな問題を抱えたデータセットをリリースできるシステムの問題です。以下のような技術の倫理学者シャノンVallorがそれを入れて、「今日の機械学習を行う任意の機関については、 『私たちは知りませんでした』言い訳が、確認応答ではありません。」お気に入りオバマを白人にアップスケールしたアルゴリズムであるImageNetは、多様性が大幅に不足している機械学習コミュニティの製品です(このブログで生成された人々のほとんどが白人であることに気づきましたか?気づいていない場合は、大規模な西洋文化の一部では、白をデフォルトの色と見なしています)。



最高のデータセットを作成するには多くの作業が必要です。また、どのデータセットを作成してはいけないかをよりよく理解する必要があります。しかし、この作業は行う価値があります。



参照:






All Articles