ご存知のように、コレクションには機械学習のトピックに関する最も興味深い出版物が常に含まれており、空でないリポジトリを持つプロジェクトが優先されます。それで、2月はこの点で多くのサービスに満足していたので、それらから始めましょう。行く:
データセットとライブラリを含む論文
そのようなリソースPaperswith Codeがあり、その使命は名前に直接対応しています-コードを含む機械学習の分野からの出版物を集約し、独自の実装を提供する機会を提供します。
今月、彼らは利用可能なデータセットセクションを立ち上げました。この セクションには、すでに3,000を超える研究データセットのインデックスが作成されています。カタログでは、言及の頻度、範囲、データ型、サポートされている言語でデータセットを検索できます。
また、独自のデータセットで微調整できる事前トレーニング済みの画像分類モデルを検索する機能も 追加されました。現時点では、すでに300以上あり、カタログは今後も増え続けます。
Googleモデル検索
アクセシビリティ: プロジェクトページ、 リポジトリ
ニューラルネットワークの成功は、多くの場合、さまざまなタスクにどれだけ広く適用できるかにかかっています。モデルを作成するときは、ニューラルネットワークの深さ、モデルで使用するレイヤーの種類など、多くの複雑なアーキテクチャ上の決定を行う必要があります。
Googleは、データセットとタスクに適したアーキテクチャを見つけるのに役立つプラットフォームを提供しました。これにより、構成とコーディングの時間が短縮され、必要な計算リソースが少なくなります。
ライブラリを使用すると、データに対してすぐにアルゴリズムを実行できます。サブジェクト領域に関係なく、最適なアーキテクチャを自動的に選択し、モデルまたは蒸留モデルのアンサンブルを修正します。
ZenML
アクセシビリティ: ラップトップから本番環境へのパイプラインの転送を簡素化するプロジェクトサイト/ リポジトリ
MLOpsフレームワーク。データ、コード、モデルのバージョン管理により、トレーニング実験の再現性が保証されます。このプラットフォームでは、オンプレミス環境とクラウド環境をすばやく切り替えることができ、パラメーターと結果を比較および視覚化するための既製のヘルパーを提供し、パイプラインの状態をキャッシュして迅速に反復することができます。
TensorFlow 3D
アクセシビリティ: 記事/ リポジトリ
LIDARや深度カメラなどの3Dデータをキャプチャするデバイスの急増に伴い、このデータを処理して3Dシーンを理解するテクノロジーの必要性が高まっています。これは、自動運転車やロボットの現実の世界でナビゲートして作業するため、およびARテクノロジーを向上させるために必要です。
Googleは、TensorFlowの3Dデータにディープラーニングを適用するためのモジュラーライブラリを発表しました。これには、3Dセマンティックセグメンテーション、シーン分類、3Dオブジェクト検出などのトレーニングおよび評価パイプラインが含まれています。
MeInGame
可用性: 記事/ リポジトリ
コンピューターゲームには、さまざまなパラメーターの設定を使用してプレーヤーの外観を変更できるキャラクターエディターがよくあります。MeInGameアルゴリズムを使用すると、1枚の写真でカスタムキャラクターを作成できます。ニューラルネットワークは、顔の形とそのテクスチャを予測します。3D Morphable Face Model(3DMM)に基づく方法では、個々の画像から3Dポートレートを生成できますが、メッシュトポロジは通常、ほとんどのゲームで使用されているものとは異なります。このアルゴリズムの作者は、この問題を解決したと主張しています。
SAM
アクセシビリティ: 記事/ リポジトリ
人のアイデンティティを維持しながら、特定の顔の特徴や頭の形の変化をシミュレートする必要があるため、顔の1枚の写真から老化をシミュレートすることは非常に困難です。
内部的にはStyleGANが使用されますが、ここでは、エンコーダーがターゲット年齢に対応する隠しコードを生成する、事前にトレーニングされた年齢回帰ネットワークも使用しています。この方法では、連続エージングプロセスを入力年齢とターゲット年齢の間の回帰問題として扱い、生成された画像を正確に制御します。モデルを使用すると、生成された画像を編集できます。
流行
可用性: プロジェクトページ/ インタラクティブデモ
仮想衣類フィッティング用の新しいStyleGANアプリケーションケース。アルゴリズムは、一人の写真から人の写真に服を転送し、それが入り口に提出されます。この方法は、対象者の体型、髪の毛、肌の色に対応するStyleGAN2のポーズを考慮した、隠れた空間の補間に基づいています。このアルゴリズムにより、素材のパターンと詳細を維持しながら、特定の体型に応じて衣服を変形させることができます。出力は、適切な512x512の解像度の写実的な画像です。
NeRViS
アクセシビリティ: プロジェクトページ/ リポジトリ
既存のビデオ安定化技術は、フレーム境界を大幅にトリミングするか、アーティファクトと歪みを作成します。このアルゴリズム
は、高密度の変形フィールドを予備的に推定し、隣接するフレームを使用して完全に安定したフレームを合成します。このアプローチの目新しさは、学習ベースのハイブリッド空間合成です。これは、不正確なオプティカルフローと高速で移動するオブジェクトによって引き起こされるアーティファクトを除去します。
安定したビューの合成
可用性: 記事/ リポジトリ
自由に分散された視点からシーンを描いた一連の写真に基づいて、アルゴリズムはシーンの新しいビューを合成します。この方法は、SfM写真測量に基づいて計算される幾何学的な足場で機能します。ターゲットビューは、すべてのピクセルに対して合成された特性のテンソルからの畳み込みネットワークによってレンダリングされます。
この記事は昨年11月に公開されましたが、コードは現在しか利用できません。
ジグソーガン
アクセシビリティ: 記事
パズルを解くために訓練された生成的自己監視ニューラルネットワーク。入力として、モデルは画像のランダムに配置された部分を受け入れ、プロンプトなしでそれらから元の画像を復元します。つまり、モデルは画像が元々何であったかを知りません。
CharacterGAN
可用性: 記事/ リポジトリ
キーポイントの位置に基づいて新しいポーズを生成するために、さまざまなポーズのキャラクターの少数の画像のみでトレーニングできる生成ニューラルネットワーク。これにより、静止画像をアニメーション化できます。このアプローチの目新しさは、画像がレイヤーに分割され、各レイヤーが個別に処理されることです。これにより、異物が前面に出たときの障害物の問題が解決されます。便宜上、キーポイントごとにポーズを手動で調整できるGUIが追加されました。
ディスクリートVAE
アクセシビリティ: リポジトリ
前回の号では、驚くべきDALL-Eについて話しました。2月末に、OpenAIはモデルの名前でリポジトリを作成しましたが、モデル自体はまだリリースされていません。モデルの一部、つまりディスクリートVAE用のPyTorchパッケージ内のみです。これは、私たちの場合、テキストによる説明から画像を生成する変分オートエンコーダです。
深い郷愁
可用性: オンラインサービス
そして最後に、モデルに基づいてシンプルで理解しやすい製品が作られると、それは常に素晴らしいことです。そのため、系図と血統の問題を扱うMyHeritage社は、一次モデルアルゴリズムを採用し、便利なユーザーインターフェイスをねじ込み、写真を「アニメート」するサービスを提供したようです。
その結果、大量のカスタムコンテンツが生成され、膨大なバイラルリーチが発生します。彼らはまた、AIビジネスは役に立たないと言います。
以上です。ご清聴ありがとうございました。1か月後にお会いしましょう。