機械学習に関する選択された記事:ケース、ガイド、および研究-2020年6月





ここには、6月に英語でリリースされた資料のリストがあります。それらのすべては、過度の学問なしで書かれており、コード例と空でないリポジトリへのリンクが含まれています。言及されているテクノロジーのほとんどはパブリックドメインにあり、テストのために強力なハードウェアを必要としません。



画像GPT



Open AIは、テキストでトレーニングされたトランスフォーマーモデルが一貫した完全な文を生成できるため、モデルがピクセルのシーケンスでトレーニングされた場合、拡張画像を生成できると判断しました。 Open AIは、高品質のサンプリングと正確な画像分類により、生成されたモデルが教師なし学習環境で最高の畳み込みモデルと競合する方法を示しています。







顔のデピクライザ



1か月前に、ツール試す機会が与えられました、機械学習モデルを使用してポートレートを美しいピクセルアートに変換します。楽しいですが、このテクノロジーが広く使用されていることを想像するのはまだ困難です。しかし、反対の効果を生み出すツールはすぐに大衆に非常に興味を持ちました。理論的には、顔のデピクライザの助けを借りて、監視カメラからのビデオ録画によって人物のアイデンティティを確立することが可能になります。





DeepFaceDrawing



ピクセル画像での作業では不十分で、プリミティブスケッチから人物のポートレートを使用して写真を作成する必要がある場合、DNNに基づくツールがすでに表示されています。作成者が考えたように、必要なのは一般的なアウトラインのみであり、プロのスケッチではありません。モデル自体が人物の顔を復元し、スケッチと一致します。システムはJittorフレームワークを使用して作成されました。作成者が約束するとおり、Pytorchのソースコードはすぐにプロジェクトリポジトリに追加されます。







PIFuHD



顔の再構成が整理されたら、体の残りの部分はどうですか? DNNの開発により、2次元写真を基に人物を3Dモデリングすることが可能となりました。主な制限は、正確な予測を行うには、より広いコンテキストとソースデータを高解像度で分析する必要があるためです。モデルの階層化されたアーキテクチャとエンドツーエンドの学習機能は、この問題の解決に役立ちます。最初のレベルでは、リソースを節約するために、画像全体が低解像度で分析されます。その後、コンテキストが形成され、より詳細なレベルで、モデルは高解像度画像を分析してジオメトリを評価します。







RepNet



私たちを取り巻くものの多くは、異なる周波数のサイクルで構成されています。多くの場合、現象の本質を理解するには、その現象の繰り返しに関する情報を分析する必要があります。ビデオ撮影の可能性を考慮して、繰り返しを修正することはもはや難しくありません、問題はそれらを数えることでした。フレーム内のピクセル密度をフレームごとに比較する方法は、ズームインやズームアウトの際のスケールや形状の急激な違いだけでなく、カメラのブレやオブジェクトによる障害のために、多くの場合適切ではありませんでした。 Googleが開発したモデルがこの問題を解決します。トレーニングで使用されなかったものを含め、ビデオ内の反復的なアクションを識別します。その結果、モデルはビデオで認識された反復アクションの頻度に関するデータを返します。 Colabはすでに利用可能です







SPICEモデル



以前は、高度な信号処理アルゴリズムを使用してピッチを決定する必要がありました。最大の課題は、調査中の音をバックグラウンドノイズまたは付随する楽器の音から分離することでした。高周波数と低周波数を検出するこのタスクに事前トレーニング済みモデルが利用可能になりました。モデルは、Webおよびモバイルデバイスで使用できます。



社会的距離検出器



人々が社会的距離を守っているかどうかを追跡できるプログラムを作成する場合。著者は、事前トレーニング済みのモデルをどのように選択したか、人々を認識するタスクにどのように対処したか、そしてOpenCVを使用して、人々間の距離を計算するために画像を正投影にどのように変換したかを詳しく説明しています。プロジェクトのソースコードを詳しく見ることもできます







典型的な文書の認識



今日、レシート、請求書、小切手など、最も一般的なテンプレートドキュメントには数千ものバリエーションがあります。非常に限られたタイプのテンプレートで動作するように設計された既存の自動化システム。 Googleはこれに機械学習を使用することをお勧めします。この記事では、モデルのアーキテクチャーと取得したデータの結果について説明します。このツールはまもなくDocument AIサービスの一部になります



非接触型小売業向けの機械学習アルゴリズムの開発とデプロイのためのスケーラブルなパイプラインを作成する方法



イスラエルの新興企業Trigoは、テイクアンドゴーの小売りに機械学習とコンピュータービジョンを使用した経験を共有しています。同社は、レジなしで店舗を運営できるシステムのサプライヤーです。著者は、直面したタスクを説明し、機械学習のフレームワークとしてPyTorch、インフラストラクチャにAllegro AI Trainsを選択した理由、および開発プロセスの確立方法を説明します。



それだけです、あなたの注意をありがとう!



All Articles