今年の最後の月は、ほとんどが「休み明けに行こう」モードに切り替わっているため、大規模な発表の良い時期とは言えませんが、機械学習の分野でのこの豊富なコレクションから判断すると、12月に作業が本格化しました。したがって、少し遅れて、ダイジェストの第12号をご覧ください。ここでは、2020年の終わりにMLで起こった最も重要なことについて説明します。
MuZero
DeepMindは、チェス、庄木、囲碁などの人気のロジックボードゲームや、パックマンなどのAtariビデオゲームをプレイできるアルゴリズムであるMuZeroに関する記事を予期せず 公開しました。
MuZeroは、環境全体ではなく、エージェントの戦略的意思決定プロセスにとって重要な特定の側面のみをモデル化しようとします。このアルゴリズムは、ゲームの現在および以前の状態に関する情報を常に収集します。したがって、禁止事項と報酬を調査します。したがって、たとえば、モデルは、チェスではゲームの目標はチェックメイトであり、パックマンでは黄色の点を食べることであることを理解しています。
もう1つの重要な利点があります。MuZeroは、環境に関する新しいデータを収集するのではなく、学習したモデルを再利用して計画を改善します。たとえば、複雑に変化する環境を持つAtariゲームでは、アルゴリズムは学習したモデルを90%の時間使用して、過去のゲームセッションで実行すべきことを再スケジュールしました。
どうしてそれが重要ですか。基本的に、MuZeroは、単純なルールに還元するのが難しい複雑な現実世界の問題を解決するために使用できる汎用モデルです。DeepMindはそのような類似性を提供します。新しいアプローチは、曇りの天気の人が傘を持って乾いた状態を保つことを決定する方法に似ていますが、以前のアプローチは雨滴が落ちる順序をモデル化しようとします。
無限の性質
誰もが少なくとも一度は、絵のように美しい海岸線に沿って飛んでいる壮大なドローンの映像を見たことがあります。youtubeからの同様のビデオでトレーニングされたアルゴリズムは、1つの静止画像からビデオを合成します。
入力データとは大きく異なる可能性のある新しい画像を生成する必要があるため、この作業は非常に困難です。写真には、背後にある風景の断片を覆い隠す木や岩が含まれていることがよくあります。
このアプローチの目新しさは、数百フレームにわたる長距離をカバーするシーンのジオメトリを考慮して画像を合成できることです。 データセットはすでに利用可能ですが、ソースコードは待機する必要があります。
タイムトラベル再写真
DeOldifyを彷彿とさせる古い写真の復元と色付けのためのニューラルネットワーク。ノイズリダクション、ペイント、アップスケーリングなどの独立した操作を適用する従来の画像復元フィルターとは異なり、ここではStyleGAN2を使用して元の顔に近い顔を合成します。その結果、ポートレート写真はすぐにカラーで高解像度で取得されます。このコードは、後で公開されることも 約束されています。
pi-GAN
複数の未割り当ての2D画像からオブジェクトの3D表現を生成する別のGANモデル。デモは、Nvidiaが以前にMaxineで示したのと同様に、モデルを使用して頭を回転させる方法を示しています。
ニューラルシーンフローフィールド
従来のカメラで撮影したビデオからダイナミックなシーン表現を構築する新しいNeRfメソッド。これにより、たとえば、フレームをフリーズしてカメラを移動したり、その逆でカメラを固定したりできますが、時間を巻き戻すようにできます。このアルゴリズムは、たとえば、格子のような薄いオブジェクトや石鹸の泡のような動くオブジェクトなど、複雑な構造の環境を描画します。
YolactEdge
弱いデバイスでリアルタイムに機能する最初のインスタント画像セグメンテーション方法。ソースコードは すでに利用可能です。
ModNet
ポートレートから背景を定性的に削除するだけでなく、背景をビデオに置き換えることを可能にするテクノロジー。実際、これはクロマキーの良い代替品になる可能性があります。有料のremove.bgとは異なり、 ソースコード、 コラボレーション、さらには写真での作業のみをテストできるシンプルなインターフェイスを備えたWebアプリケーションも あります。
声
Facebookは ついに、オーディオ録音で数人の話す人々の声を検出するアルゴリズムのソースコードを公開しました。
Hypersim
Appleは、偽のシーンのセグメンテーションマスクを含むデータセットを公開してい ます。ほぼ2テラバイトの超高解像度の部屋がレンダリングされます。ここでのデータのマーキングは、個々のピクセルのレベルです。
ArtLine
写真の肖像画を鉛筆のスケッチに変換するオープンモデル。これまでのところ、服の質感や影にはうまく対応できませんが、一般的にはまともな結果が得られます。これはDeOldifyアーキテクチャに基づいており、優れた顔認識が可能です。
それだけです、12月はとても驚くほど激しいことが判明しました。今年の初めも面白いことを約束します。OpenAIのDall-Eに基づいて、1月に何が来るのか楽しみです。彼らが言うように、お楽しみに!