🌥️ 🚣🏽 👨🏼‍🏭 人工知能研究における再現性の危機 🍑 🧓 🥅

AIの研究はハイテクの巨人によって支配されていますが、真のブレークスルーと商品広告の境界線は徐々に曖昧になっています。一部の科学者は、これをやめる時が来たと考えています。

先月、ジャーナルNatureは、31人の科学者によって署名された虐待的なレビューを発表しました。彼らは、同じジャーナルに以前に掲載されたGoogleHealthの調査が気に入らなかった。その中で、Googleは、医療写真で乳がんの兆候を探す人工知能（AI）テストの成功した結果について説明しました。批評家によると、Googleチームはコードとテストに関する情報をほとんど提供していないため、この調査は閉鎖的なプライベートテクノロジーの宣伝用の説明のように見えました。

「私たちはもはやそれを受け入れることができませんでした」と、トロント大学で計算ゲノミクスを研究している主任査読者であるベンジャミン・ハイベ・ケインズは言います。「そして、それはこの特定の研究についてではありません-私たちは何年も続けて同様の傾向を観察してきました、そしてこれは私たちを本当に苛立たせます。」

Haibe-Kainsらは、AI研究の透明性の明らかな欠如に抵抗する科学者の数が増えています。「Googleからこの作品を見た後、これは科学とは何の関係もない、非常に尊敬されているジャーナルの一連の熱狂的な出版物の単なる別の例であることに気づきました」と彼は言います。 -これはクールなテクノロジーの宣伝です。それについては何もできません。」

科学は信頼に基づいており、他の人が調査結果を複製して検証するために十分に詳細に研究が行われている方法の詳細を開示することを含みます。これは、科学がそれ自体を修正し、未確認の結果を根絶する方法です。再現性により、他の人はそれらの結果に基づいて作業を行うことができ、知識の分野を前進させるのに役立ちます。再現できない科学は、歴史の傍観者になっています。

少なくとも理論的には。実際には、ほとんどの研究者は古い結果を繰り返すよりも新しい結果を得ることに関心があるため、完全に再現可能な研究はほとんどありません。ただし、生物学、物理学、コンピューターサイエンスなどの分野では、研究者は、著者が共有するのに十分な情報を提供して、これらの実験を繰り返すことができるようにすることを期待しています。

野心的な初心者

AIはいくつかの理由で叱られます。まず、初心者です。 Facebook AIResearchとMcGillUniversityのコンピューター科学者であるJoelPignoは、この苦情の共著者であると、過去10年間で実験科学になりました。「最初は純粋に理論的な領域でしたが、今ではますます多くの実験を行っています」と彼女は言います。「そして、厳密な方法論への私たちの取り組みは、私たちの実験の野心に遅れをとっています。」

これは単なる学術的な問題ではありません。透明性が欠如しているため、新しいAIモデルとテクノロジーの信頼性、歪みの欠如、安全性を適切にテストすることは不可能です。 AIは、研究所から現実の世界へと急速に移行しており、人々の生活に直接影響を与えています。ただし、ラボでうまく機能する機械学習（ML）モデルは、現実の世界では壊れて、危険な結果につながる可能性があります。さまざまな研究者によるさまざまな条件での実験結果を再現することで、起こりうる問題がより迅速に明らかになり、AIがすべての人にとってより信頼できるものになります。

AIはすでに「ブラックボックス」の問題に悩まされています。MLモデルがこの結果を正確に生成する方法や理由を言うことができない場合があります。研究における透明性の欠如は事態を悪化させるだけです。大規模なモデルでは、より多くの人々に自分の仕事を体験して理解させるために、できるだけ多くのオブザーバーが必要です。これにより、ヘルスケアでのAIの使用をより安全に、公序良俗に反して、チャットルームでより丁寧に行うことができます。

AIの通常の再現性は、コード、データ、ハードウェアの3つが不足しているために妨げられています。AIの2020年の状態「投資家のNathanBenaichとIanHogarthによる検証済みの年次分析では、AI研究の15％のみがコードを共有していることがわかりました。業界の研究者は、大学の科学者よりも不正行為を行う可能性が高いです。特に、OpenAI企業がレポートで強調されています。およびDeepMindは、コードを共有する可能性が最も低いです。

AIの2つの柱であるデータとハードウェアに関しては、再現性に必要なツールの欠如がより深刻に感じられます。多くの場合、データは個人の手に保持されます（たとえば、Facebookがユーザーに関して収集するデータ）、または医療記録の場合のように機密性があります。技術の巨人は、少数の大学や中小企業がアクセスできる巨大で非常に高価なコンピュータークラスターについてますます多くの研究を行っています。

たとえば、いくつかの見積もりによると、GPT-3言語ジェネレーターをトレーニングします、OpenAIのコストは10〜1200万ドルです。これは、プロトタイプのコストや開発およびトレーニングを考慮せずに、最新のモデルを考慮した場合のみです。「そうすれば、その数字はおそらく1、2桁増える可能性があります」と、AIスタートアップベンチャーキャピタル会社Air StreetCapitalの創設者であるBenaichは言います。大手ハイテク企業のごく一部がそれを買う余裕がある、と彼は言います：「他の誰もそのような実験にこれほど莫大な予算を投じることはできません。」

架空の質問：GPT-3にアクセスできる人もいれば、アクセスできない人もいます。 OpenAIプロジェクト以外の人々が最先端の結果を得るためにGPT-3を使用している新しい作業が出現するとどうなりますか？

そして主な問題は、OpenAIが勝者と敗者の研究者を選ぶのかということです。

進歩のスピードは目がくらむほどです。毎年何千もの作品が出版されています。しかし、誰を信頼するかわからない場合、この分野の開発を促進することは非常に困難です。複製により、他の研究者は、著者が手動で最良の結果と一致しなかったこと、および新しいテクノロジーが実際に説明どおりに機能することを確認できます。「信頼できる結果を他の結果と区別することはますます困難になっています」とPiñoは言います。

ここで何ができるでしょうか？他の多くのAI研究者と同様に、ピグノは大学と企業の研究室の間で時間を分けています。近年、彼女はAI研究の出版システムに積極的に影響を与えてきました。たとえば、昨年、彼女は、最大のAI会議の1つであるNeurIPSへの論文提出で研究者が提供しなければならない項目のリストの宣伝を支援しました。コード、実験の詳細な説明が含まれています。

再現性はそれ自体が価値があります

Pinhoはまた、研究者が公開された研究者の結果を複製しようとするいくつかの再現性コンテストの立ち上げを支援しました。参加者は、会議で受け入れられた論文を選択し、提供された情報に基づいて実験を実行しながら、互いに競争します。確かに、彼らは報酬としての認識のみを受け取ります。

動機の欠如は、AIだけでなく、すべての研究分野でそのような慣行の普及を促進するわけではありません。複製は必要なことですが、決して奨励されていません。この問題の1つの解決策は、この作業に学生を参加させることです。過去数年間、ヨシュア・ベンジオによって設立されたモントリオールの研究所であるミラのローズマリー・ケ博士が再現性競争を組織しました、学生がトレーニングの枠組みの中でNeurIPSに提出された研究を再現しようとする枠組みの中で。成功した試みのいくつかは、ピアレビューされ、ReScienceで公開されます。

「他の人の作品を最初から再現するには、多大な労力が必要です」とKe氏は言います。「再現性コンペティションはこの努力に報い、良い仕事をした人々を称えます。」Keと他の人々は、AI会議でこれらの試みについて話し、研究者が仕事に透明性を加えることを奨励するワークショップを開催します。今年、PinhoとKeは競争をICMLとICLRを含む7つの最大のAI会議。

透明性を促進する別のプロジェクトは、Papers withCodeと呼ばれます。ケンブリッジ大学で働いていたAI研究者のロバート・ストイニックによって組織されました。現在、彼とピニョはFacebookで協力しています。このプロジェクトは、研究者が自分の仕事から自分のコードにリンクできるスタンドアロンのWebサイトとして最初に立ち上げられました。今年、このプロジェクトは人気のあるarXivプレプリントサーバーと提携しました。 10月以降、arXivで公開されているすべての機械学習作品には、「コード付きの論文」セクションがあり、そこから作品の作成者が公開する準備ができているコードへのリンクがあります。プロジェクトの目標は、そのようなコードの配布を標準にすることです。

これらの試みは何か影響がありますか？Pignoは、昨年、前提条件リストがリリースされたときに、NeurIPS会議に提出されたコード提出論文の数が50％から75％に増加したことを発見しました。何千人ものレビューアが、コードを使用して提出物を評価したと述べています。再現性競争への参加者の数は増えています。

悪魔は細部にあります

しかし、これはほんの始まりに過ぎません。 Haibe-Kainsは、コードだけでは実験を再実行するのに十分でないことが多いと指摘しています。 AIモデルを構築するには、多くの小さな変更を加える必要があります。そこにパラメーターを追加し、ここに値を追加します。これらのいずれも、動作モデルを非動作にする可能性があります。モデルのトレーニングと調整の方法を説明するメタデータがないと、コードが役に立たなくなる可能性があります。「悪魔は本当にささいなことにあります」と彼は言います。

また、配布するコードが常に明確であるとは限りません。多くの研究所では、特別なプログラムを使用してモデルを実行しています。時にはそれは独自の専有ソフトウェアです。また、どのコードを共有するかを判断するのが難しい場合もあります、とHaibe-Kains氏は言います。

ピニョはそのような障害には特に関心がありません。「コードを配布することから期待されることはたくさんあります」と彼女は言います。データの共有はより困難ですが、解決策があります。研究者がデータを共有できない場合は、適切なデータセットを自分で収集する方法についてのガイダンスを提供できます。または、少数のレビュー担当者がデータにアクセスして、他のすべての人の結果を検証するように手配することもできます、とKhaibe-Kains氏は言います。

最大の問題はハードウェアにあります。 DeepMindは、AlphaGoやGPT-3のような大規模なラボがお金を使う大規模なプロジェクトは、最終的にはすべての人に利益をもたらすと主張しています。初期の段階では他の研究者がアクセスできないため、膨大な計算能力を必要とするAIは、開発中により効率的でアクセスしやすくなることがよくあります。 DeepMindの調査担当副社長であるKorayKavukchuogluは、次のように述べています。「AlphaGo Zeroは、その前身であるAlphaGoをはるかに下回る計算能力で、はるかに優れています。

理論的には、これは、研究が遅れて再現されたとしても、それはまだ可能であることを意味します。 Kavukchuogluは、Mozillaのベルギー人プログラマーであるJean-Carlo Pascuttoが、空き時間にチェスアンドゴープログラムを作成し、DeepMindの論文で説明されているアルゴリズムを使用して、AlphaGoZeroのバリアントを複製してLeelaZeroと呼ぶことができたと述べています。 Pignoは、AlphaGoやGPT-3などの主力研究はまれであるとも考えています。彼女は、ほとんどのAI研究は、平均的なラボで利用可能なコンピューターで機能すると述べています。そして、そのような問題はAIに限ったことではありません。 PinhoとBenayhomは、粒子物理学を指摘しています。粒子物理学では、一部の実験は、Large HadronColliderなどの高価な機器でのみ実行できます。

ただし、物理実験は、LHCでいくつかの研究所が一緒に実施しています。また、大規模なAI実験は通常、民間企業が所有および管理する機器で実行されます。しかし、ピニョはこれも変化していると言います。たとえば、Compute Canadaは、大学が大規模なAI実験を実施できるようにコンピューティングクラスターを組み立てています。 Facebookを含む一部の企業は、大学に自社の機器へのアクセスを制限しています。「状況は完全には解決されていません」と彼女は言います。「しかし、いくつかのドアが開き始めています。」

, . . Google, , Nature , , Google - .

: , , ( ). . .

Haibe-Kainsは疑っています。彼がGoogleヘルスチームに彼の癌診断AIからのコードを共有するように頼んだとき、彼はコードがまださらなるテストを必要としていると言われました。チームは、同じくNatureに掲載されている、Haibe-Kainsの批判に対する正式な回答の中で、これと同じ言い訳を繰り返します。「私たちは、臨床現場で使用する前に、患者、サービスプロバイダー、規制当局と協力してすべてを効率的かつ安全に機能させるために、プログラムを厳格なテストにかけます。」研究者たちはまた、彼らが使用するすべての医療データを共有することは許可されていないと述べた。

それはそのようには機能しません、とKhaibe-Kainsは言います。「彼らがこれから商品を作りたいのなら、なぜ彼らがすべての情報を開示したくないのか理解しています。」ただし、科学雑誌や会議で公開する場合は、他の人が実行できるコードを公開するのがあなたの義務であると彼は信じています。より少ないデータで、またはより安価なハードウェアを使用して、トレーニングされたバージョンをリリースできる場合があります。結果はもっと悪いかもしれませんが、人々はそれらをいじくり回すことができます。「商品の製造と研究の境界線は常に曖昧になっています」とHaibe-Kains氏は言います。「この分野の専門知識は最終的には失われると思います。」

研究習慣はあきらめにくい

企業が作品の出版について批判されているのなら、なぜそれを気にするのですか？もちろん、その一部は広報に関係しています。しかし、これは主に最高の商業ラボが大学の研究者でいっぱいだからです。 Facebook AI Research、DeepMind、OpenAIなどの場所の文化は、ある程度、伝統的な学問的習慣によって形作られています。また、ハイテク企業は、より幅広い研究コミュニティに参加することで恩恵を受けています。民間研究所のすべての大規模なAIプロジェクトは、公開された研究からのさまざまな結果に基づいています。また、FacebookのPyTorchやGoogleのTensorFlowなどのオープンソースMLツールを使用したAI研究者はほとんどいません。

ハイテク大手企業でより多くの研究が行われるほど、ビジネス要件と研究要件の間でより多くのトレードオフを行う必要があります。問題は、研究者がこれらの問題にどのように取り組むかです。 Haibe-Kainsは、Natureのようなジャーナルが、出版物を別々のストリームに分割することを望んでいます。複製可能な研究と技術進歩のデモンストレーションです。

ピニョは将来についてより楽観的です。「オープンな研究アプローチがなければ、Facebookで働くことはなかったでしょう」と彼女は言います。

他の企業ラボもオープン性への取り組みを主張しています。「科学的な仕事には、他の研究者の注意深い研究と再現性が必要です」とKavukchuogluは言います。「これは、DeepMindでの私たちの研究アプローチの重要な部分です。」

「OpenAIは、従来の研究所とは非常に異なるものに成長しました」と、会社のスポークスマンであるKaylaWoodは言います。「当然、彼女には疑問が生じます。」彼女は、OpenAIは、AIイニシアチブに関するパートナーシップを通じて、80以上の商業および学術組織と協力して、研究を公開するための長期的な基準について検討していると述べています。

ピニョはそこに何かがあると思っています。彼女は、AI企業が2つのHaibe-Kainsストリームの間のどこかで、研究を行うための3番目の方法を示していると信じています。彼女は、民間のAIラボのスマートな結果を製薬会社と比較します。製薬会社は、医薬品開発に数十億ドルを投資し、結果のほとんどを自分たちのために保持しています。

ピニョらが採用した慣行の長期的な影響はまだ見られていません。習慣は永久に変わりますか？これは研究以外のAIの使用にどのように影響しますか？ AIがどちらの方向に進んでいるかに大きく依存します。より大きなモデルとデータセットへの傾向（たとえば、OpenAIが続く）は、ほとんどの研究者が高度なAIオプションを利用できない状況をサポートします。一方、モデル圧縮や数ショット学習などの新しいテクノロジーは、この傾向を打破し、より多くの研究者がより小さく、より効率的なAIで作業できるようにする可能性があります。

いずれにせよ、大企業は引き続きAI研究を支配するでしょう。そして、正しく行われれば、それは何も悪いことではありません、とピグノは言います。「AIは研究所の働き方を変えています。」重要なのは、より多くの人々が研究に参加する機会を確実に得ることです。なぜなら、AIへの信頼は非常に依存しているため、最先端から始まります。

人工知能研究における再現性の危機

AIの研究はハイテクの巨人によって支配されていますが、真のブレークスルーと商品広告の境界線は徐々に曖昧になっています。一部の科学者は、これをやめる時が来たと考えています。

野心的な初心者

再現性はそれ自体が価値があります

悪魔は細部にあります

研究習慣はあきらめにくい

More articles: