それはすべて仮想の「ニンジン」についてです:UberはAtariゲームで人を倒すことができるアルゴリズムを作成しました



AIラボでは、Uber AILabs がGo-Exploreアルゴリズムの新しいファミリーを作成しましたアルゴリズムは強化学習に基づいています。Go-Exploreは、1980年代のクラシックなAtariゲームでテストした場合、既存のほとんどのデザインよりも優れています。



UberのAIは、モンテスマのリベンジピットフォールなど、合計11の最も過酷なゲームでプレイしました 得点の点で、彼は人々の周りを歩き回った。このアルゴリズムはゲームのために開発されたものではありません。近い将来、このアルゴリズムはロボット工学での教育、自然言語の処理、新薬の作成などに使用できるようになります。アルゴリズムの基礎は何ですか?



強化学習



まず、強化学習とは何か、なぜそれが高い可能性を秘めているのかを思い出してみましょう。



これは、ニューラルネットワークトレーニングのよく知られた形式です。このテクノロジーの利点は、エージェントと呼ばれる要素にあり ます。彼は単独で働くのではなく、環境と相互作用することを学びます。環境はエージェントの行動に反応し、やりがいのある効果を生み出します。



AIは仮想ニンジンを取得しようとしているため、報酬を受け取る可能性に基づいて動作します。これで問題が解決しない場合は、次回の操作はあまり望ましくないと見なされます。



与えられた有用性の文脈において、報酬トレーニングは結果を最大化します。



Uberはどのアルゴリズムを作成しましたか?



Uberアルゴリズムの主な特徴は、以前のパースペクティブ状態を記憶することです。さらに、アルゴリズムはそれらを再現できるだけでなく、偵察も実行し ます。何度も何度も質問するかのように:「もしも?」そして、新しいより良い答えを探しています。このようなチェーンのおかげで、学習アルゴリズムの効率を高めることができます。



AI Uber Labsのアルゴリズムファミリーには、以前の将来の状態記憶する重要な機能があり ます。小さな反復では、アルゴリズムは状態のアーカイブを構築します。そして、それらは順番にセルにグループ化されます。



Go-Exploreワークフロー、Go-Exploreの探索および堅牢化フェーズは、



報酬学習の2つの重要な問題を解決します。



最初の問題。アルゴリズムは、以前にトラバースされた状態への関心を失います。さらに、これらの条件のいくつかは有望かもしれませんが、アルゴリズムはそれらを無視し始めます。



2番目の問題。調査プロセスは、アルゴリズムの初期状態へのロールバックを防ぎます。後方に移動する代わりに、AIは開始点から離れすぎて、ランダムなアクションを任意にスケーリングします。



ゲームでのアルゴリズムのテスト



Uberは、その開発が効果的であることを確認するために、古典的なAltariゲームに目を向けました。彼らはゲームの中で最も困難で、コンピューターが処理するのが最も困難でした。難しさは、あまりにもまれな報酬から生じます。このような場合、アルゴリズムのアクションと成功した結果の間で何百もの操作が実行されます。どのアクションが仮想報酬を受け取るのに役立ったかを正確に判断することは困難になります。





では、Uberのアルゴリズムはこれをどのように処理しますか?同様の状態を1つのセルに送信します。サイクルは、セルから状態を選択することから始まり、そこで重みによってランク付けされます。この場合、最近見つかった州が優先され、そこから新しい領域が探索されます。次に、アーカイブが更新されます。したがって、Go-Exploreは利用可能な最大数のオプションを処理し、最も重要なことに、最も興味深い状態を見逃しません。



さらに、アルゴリズムにはロバスト化を行うオプションがあります 解決策を見つけ、外部または干渉を除外します。このオプションは、見つかった軌道のノイズレベルを低減します。なぜこれが必要なのですか?アタリでは、環境と行動が明確に定義されています。特定の動きが期待される結果につながります。決定論を減らすために、人為的な遅延がゲームに導入されました。そのため、アルゴリズムは以前に検証されたアクションを実行するだけでなく、実際のアクションに近い条件で学習します。



その結果、Go-Exploreは、次の2つの状況でゲームで良好な結果を示しました。



  1. 不明な場合、アルゴリズムに一次情報が不足しているとき。
  2. 情報がある場合:アルゴリズムは入力(座標、キーなど)を認識しています。


2番目のケースでは、予想どおり、結果は高くなります。つまり、モンテスマのリベンジでのGo-Exploreは、人間のプレイヤーの結果を42.5%上回り、173万ポイントを獲得しました。



Go-ロボットの探索





Atariゲームに加えて、アルゴリズムのファミリーはロボットアームでテストされました。Go-Exploreは、シミュレーターでロボットアームの動きを正常に実行しました。そこでは、棚のアイテムを再配置する必要がありました。さらに、ロボットアームはそれらを再配置するだけでなく、ロック付きのドアの後ろからそれらを取得することもできました。






All Articles