👎🏽 🌀 📦 機械学習に関する選択された記事：2020年9月のケーススタディ、ガイド、および研究 📔 📬 🚾

9月の選考はケーススタディから始めます。今回は彼はたった一人ですが、なんと！

私たちはGPT-3の可能性を賞賛し、その応用分野について話すことをやめませんが、同時に多くの人がアルゴリズムで彼らの職業への脅威を見ています。

そして、A / Bテストを扱うVMOは、GPT-3に対するプロのコピーライターという競争を行うことを決定しました。

ユーザーが生成されたテキストと作成されたテキストのどちらかを選択できるように、アルゴリズムをビジュアルエディターに統合しました。これまでのところ、このサービスでは、タイトル、製品とサービスの説明、およびアクションを呼び出すボタンのみを生成できます。

なんでこんなに面白いの？重要なのは、製品の管理とマーケティングでは、仮説のテストに多くのリソースが費やされているということです。どの見出しがエンゲージメントを最も高めるか、またはクライアントがターゲットを絞ったアクションを実行するためにボタンをどのような色と形にする必要があるか。これらの質問への回答により、製品を成功させることができます。

この特定の対立の結果はまだ何も解決しませんが、アルゴリズムがテキストを生成するだけでなく、ユーザーの行動を追跡し、インターフェイスを変更できるかどうかを想像してください。ここで、GPT-3はreactコンポーネントをタイプセットおよび作成できることを思い出してください。そのため、この実験に従うことは非常に興味深いことです。この記事の執筆時点では、GPT-3がわずかな差でリードしています。すべてがどのように終了するかを見てみましょう。

そして今、先月の残りの発見に：

Wav2Lip

このモデルは、音声の唇の動きを生成し、オーディオストリームとビデオストリームを同期させます。オンライン放送、記者会見、映画のダビングに使用できます。でデモ、あなたはトニー・スタークの唇は、異なる言語でのダビングに調整する方法を見ることができます。また、スカイプコール中に接続が劣化した場合、モデルは信号障害のために失われたフレームを生成し、オーディオストリームに基づいてそれらを描画することができます。作成者は、コンテンツをさらにパーソナライズするために、ミームキャラクターの唇をアニメーション化することも提案しています。デジタルスピーカーと同様に、このモデルは、テキストから生成された音声に合わせて唇の動きを調整できます。

5月に著者がLip2Wavモデルを公開したことは注目に値します、それどころか「唇を読み」、テキストと音を生成します。畳み込み神経ネットワークが視覚的特徴を抽出し、その後、音声デコーダーがそれらに基づいてチョークスペクトルグラムを生成し、音声がボコーダーを使用して合成されます。

フローエッジガイド付きビデオの完成

透かしと移動するオブジェクト全体を削除し、フレームの動きを考慮してビデオの視野を拡大する新しいビデオ拡張アルゴリズム。他の同様のアルゴリズムと同様に、最初に移動するオブジェクトのエッジを検出して復元します。この場合、描画された境界線はシーン内で自然に見えません。この方法の特徴は、ローカルに隣接していない5種類のピクセル、つまり異なるフレームにあるピクセルを追跡し、信頼できるピクセルを判別し、このデータを使用して欠落している領域を復元することです。その結果、よりスムーズなビデオが得られます。あなたはすでにソースコードをチェックアウトすることができます、コラボはすぐに追加されます。

Xフィールド

ニューラルネットワークは、表示角度、タイムスタンプ、および照明パラメータのマークされた座標を使用して、1つのシーンの一連の画像でトレーニングされました。そこで彼女は、これらのパラメーターを補間して中間画像を表示することを学びました。つまり、入口に氷の立方体または空のガラスが徐々に溶けている複数の画像を受け取ったモデルは、パラメータのすべての可能な組み合わせを考慮して、リアルタイムで画像を生成できます。それが何であるかを理解しやすくするために、ビデオデモをご覧になることをお勧めします。ソースコードはまもなく公開される予定です。

ジェネレーティブイメージインペインティングジェネレーティブ

ニューラルネットワークに基づいて写真からオブジェクトを削除するための別のツール。今回は本格的なオープンソースフレームワークであり、パブリックAPI。それは非常に簡単に機能します-画像をロードし、削除したいオブジェクトのマスクを描画します-そして-追加の後処理はありません。プロジェクトはWebサーバーにデプロイされるため、ブラウザーで簡単にテストできます。もちろんアーティファクトもありますが、シンプルな画像にも対応します。

ポートレートシャドウの操作

ポートレート写真は、不適切な照明に悩まされることがよくあります。影の位置と柔らかさ、および光の分布は、画像の美的品質に影響を与える環境上の制約です。不要な影を取り除くためにフォトエディタが不要になりました-バークレーの研究者がオープンソースアルゴリズムを発表写真から陰影をリアルに取り除き、照明を制御できるようにします。

PSFR-GAN

写真を扱うときに同様に一般的なタスクは、写真の復元と品質の向上です。このオープンソースツールは、ポートレートショットをアップスケーリングするのに非常に優れています。

FrankMocap今月、

いくつかの興味深い3Dモデリングツールが登場しました。 3Dを使用したことのある人なら誰でも、高品質のモデルを作成するには、さまざまな高価な写真機器と複雑なソフトウェアを使用する機能が必要であることを知っています。しかし、機械学習アルゴリズムは、この分野のアーティストにとってより簡単にするために積極的に使用されています。

Facebook AIは、単眼ビデオの分析に基づいて手と体の3Dモックアップを作成するためのシステムを導入しました。モーションキャプチャはほぼリアルタイム（毎秒9.5フレーム）で機能し、統一されたパラメトリックモデルの形式で体と手の3D画像を作成します。他の既存のアプローチとは異なり、これにより、手のジェスチャーと全身の動きの両方を同時にキャプチャできます。ソースコードはすでに利用可能です。

3DDFA

今月も登場した別のツールは、ビデオから人の顔をマークアップして3Dマスクを作成することができます。

PSOHA

Facebook AIのもう1つのテクノロジーで、3Dモデリングのプロセスを簡素化するように設計されています。ニューラルネットワークは、画像内の人物と他のオブジェクトとの間の多くの接続を抽出し、3次元のモックアップを生成します。このように、日常の物体を持った人物を描いた1枚の写真に基づいて、3Dモデルが作成されます。アルゴリズムは、制御されていない環境で、人や物の形、および自然条件でのそれらの空間的位置を決定します。作成者はすぐにソースコードをリリースすることを約束しているので、今のところ、狡猾ではありませんが、デモの例が印象的であると信じています。

モンスターマッシュ

新しいフレームワークを使用すると、1つのスケッチを使用して3Dオブジェクトを作成およびアニメーション化できます。これにより、キーフレーム、マルチアングルメッシュ、および骨格アニメーションを操作する必要がなくなるため、オブジェクトのアニメーション化のプロセスが大幅に簡素化されます。モデルは3次元モデルを作成します。このモデルは、さまざまなパラメータを長時間事前設定しなくても、すぐにアニメーションを作成できます。たとえば、オブジェクトが相互に通過することはできません。

ShapeAssembly

このアルゴリズムは、長方形の平行線から家具の3次元モデルを作成します。ShapeAssemblyアプローチは、手続き型モデルと深い生成モデルの長所を利用します。前者は、解釈および編集できる形状の変動性のサブセットをキャプチャし、後者は、手続き型で表現するのが難しい形状間の変動性と相関関係をキャプチャします。ネットワークは、次のステップはIKEAの指示に基づいて埋め込みをトレーニングすることであるとすでに冗談を言っています。

これで3Dモデリングのトピックは終わりです。この分野では、月が特に激しいことが判明しました。清聴ありがとうございました！

機械学習に関する選択された記事：2020年9月のケーススタディ、ガイド、および研究

More articles: