ロボットは押され、打たれ、傷つけられます。しかし、それは大丈夫です-これは彼らが現実の世界で生き残るために教えられている方法です。



数年前、ボストンダイナミクスの開発者は、人々がホッケーの棒やその他の物体でロボットを押す方法を示すいくつかのビデオを撮影しました。ビデオはすぐにバイラルになり、それを見た多くのユーザーは、彼らの拷問者に対するロボットの差し迫った蜂起を予測しました。



しかし、もちろん、これはすべて無意味ではありません。ロボットは、予期しない外的要因に対応するように教えられました。そして、これは非常に困難です。なぜなら、膨大な数の異なるシナリオを提供する必要があるからです。現在、Zhejiang(中国)およびEdinburgh(英国)大学の研究者は、ボストンダイナミクスの足跡をたどっています。開発した研究チーム ロボットに落下、ジャーク、ドリフトなどを教えるための複雑なプログラム。あなたが知る限り、このプログラムは非常に効果的です。





主なタスクは、文字通り落とされた後、すぐに回復するようにロボットに教えることです。何のために?実生活では、ロボットが実験室の外でいくつかのタスクを実行する必要がある場合、しかし通常の世界では、ロボットは繰り返し落下する必要があります。車が滑る場所で、誰かがそれを押すかもしれません-たとえば、路上で、急いで、宅配便のロボットが小包を配達するために行きます。そして、これは、ロボットがその地域の救助者/スカウトの職業を獲得するシナリオは言うまでもありません。



ロボットが受ける職業に関係なく、特別なスキルが必要です。宅配便業者(1セットのスキル)、救助者(2番目)、地質学者補佐(3番目)。いずれにせよ、いくつかのユニークなスキルに加えて、普遍的なスキルがあります-例として、転倒後にすぐに立ち上がる能力。





中国とイギリスの専門家グループが、ロボットを訓練するためのソフトウェアプラットフォームを作成中です。この場合、ロボット犬です。専門家は、機械的な犬が現実の世界と相互作用することを学ぶことを可能にする8つの基本的なアルゴリズムを備えた自己学習システムをすでに開発しています。トレーニングには、強化学習に基づく特殊なニューラルネットワークが使用されます。まず、ニューラルネットワークは仮想ロボット、つまりモデルをトレーニングし、外部要因に対応するためのさまざまなシナリオを開発します。この段階が終了すると、一連のアルゴリズムの形式での学習結果が実際のロボットに「注がれ」ます。そして、私たちはすでに訓練されたシステムを手に入れます。これはすべて、NeoがTheMatrixで受け取ったプログラムと比較できます。一度-そして彼はカンフーを知っています、二度-彼はヘリコプターを飛ばす方法を知っています、3-武器の専門知識を獲得します。



ロボットでもほぼ同じです。完成したプログラムは記入済みです。これまで動かせなかった車は、転倒後の起床、障害物の回避、氷上での歩行などの方法をすでに知っています。



このようなトレーニングシステムは、実際のロボットを使用した試行錯誤の方法よりもはるかに効果的です。困難な状況で正しく行動する方法を学ぶために、ニューラルネットワークは数千または数百万ものシミュレーションを実行します。実際のロボットは、これらすべてのテストを通過した場合、10回目または100回目の落下後に破損します。また、シミュレーションでは、トレーニングに必要な場合は、システムを超高層ビルからドロップすることもできます。



トレーニングのもう1つの特徴は、最初にロボットの基本的なスキルが個別にトレーニングされることです。上記のように、そのようなアルゴリズムスキルは8つあります。以前にトレーニングスキームを「マトリックス」と比較した場合、ここでサッカーチームのスクリプトが助けになります。各スキルは、チームの個々のメンバー(ゴールキーパーまたはミッドフィールダー)と比較できます。それぞれが特別なスキルを持って訓練されており、一定の結果を達成した後、全員が効果的なチームになります。これはおおよそすべてがロボットでどのように機能するかです-別々に立ち上がること、別々に障害物の周りを曲がることなどが教えられています。そして、これらすべてのスキルが一緒になります。主なことは、習得したすべてのスキルを単一の柔軟なシステムに変えることです。このシステムでは、矛盾したり、互いに干渉したりすることはありません。





上の写真は、石がたくさんある荒れた地形をロボットが歩くように教えられている様子を示しています。それはそのターゲットである仮想の緑色のボールに従い、時々落下します。毎秋、彼は特定の経験を積むので、次回も同様の状況を回避することができます。何千もの仮想落下の後、ロボットは事実上エラーなしで荒れた地形を歩くことを学びます-そして落下しません。もしそうなら、それはすぐに起きます。



次に、これはすべて、外部要因の追加によって複雑になります。ロボットがさまざまな方向に押されたり、石が投げられたりします。その結果、予期しない外的要因にさらされた後、マシンは適応し、非常に迅速に動作します。開発者は、子供たちはほとんど同じ方法で学ぶと言います-結局のところ、子供は階段を上ったり、障害物を避けたり、水たまりの形で危険を避けたりすることはできません。これはすべて、試行錯誤によって学ぶ必要があります。





開発者は世界のすべてを予測することはできません。ロボットが予期しない問題に何らかの形で対応しなければならないことは明らかです。しかし、そのようなトレーニングを通じて得られる基本的なスキルは、最も困難なタスクに対処するのに役立ちます。さて、1つのロボットが得られた経験を2番目に、それを3番目に転送することができます。SheckleyがTheGuardian Birdで説明したように、これまでのところ放電はありませ






All Articles