🛳️ 🖐🏼 🔻 ミュージシャンの体の言語を研究することによってメロディーを認識する 👵🏻 ⏮️ 😕

記事の翻訳は、「コンピュータービジョン」コースの新規募集開始前夜に作成されました。

MIT-IBM Watson AI Labで開発された人工知能ベースの音楽ジェスチャー認識ツールは、体の動きを使用して個々の楽器の音を区別します。

研究者の画像提供。

研究者は、骨格のキーポイントデータを使用して、ミュージシャンの動きをパーツのテンポと相関させ、リスナーが同じように聞こえる楽器を分離できるようにします。

研究者の画像提供。

ピアニストの指が鍵の上を飛び、バイオリニストの弓が弦の頂上で揺れる様子を感謝の気持ちを込めて見ながら、耳だけでなく目でも音楽を楽しんでいます。耳が2つの楽器を分離できないとき、私たちの目は各ミュージシャンの動きを各パートのリズムに合わせるのを助けてくれます。MITによって開発された

新しい人工知能ツール-IBMWatson AI Lab仮想の目とコンピューターの耳を使用して、人がそれらを区別するのが難しいほど類似している音を分離します。楽器は、スケルトンのキーポイントを使用する個々のミュージシャンの動きを個々のパーツのテンポに合わせることにより、以前の反復よりも改善されています。これにより、リスナーは、同じ楽器のいくつかの間で単一のフルートまたはバイオリンの音を分離できます。

サウンドのミキシングや録音中の楽器の音量の増加から、ビデオ会議中に人々がお互いを邪魔する原因となる混乱を減らすことまで、この仕事の可能な用途は多岐にわたります。作品は今月のコンピュータービジョンパターン認識会議で発表されます。

「体内の重要なポイントは、強力な構造情報を提供します」と、IBMラボの研究者である主執筆者のChuangGang氏は述べています。「ここでは、AIが音を聞いて分離する能力を向上させるためにそれらを使用しています。」

このプロジェクトや他の同様のプロジェクトでは、研究者は同期されたオーディオビデオトラックを使用して、人々が学ぶ方法を再現しました。複数の感覚モダリティで学習する人工知能システムは、より少ないデータで、すべての現実世界のビューに厄介なショートカットを手動で追加することなく、より速く学習できます。「私たちはすべての感覚から学びます」とMITの教授で研究の共著者であるAntonioTorralbaは言います。「多感覚処理は、より複雑なタスクを実行できる具体化されたインテリジェンスおよび人工インテリジェンスシステムの先駆けです。」

ボディランゲージを使用してサウンドを分離するこのツールは、モーションキューが画像シーケンスで使用されていた以前の作業に基づいています。その初期の化身であるPixelPlayerでは、ライブビデオの楽器をクリックして、音量を大きくしたり小さくしたりすることができました。PixelPlayerのアップデートでは、各ミュージシャンの動きをそれぞれのパートのテンポと一致させることで、デュエット内の2つのバイオリンを区別できます。この最新バージョンでは、キーポイントデータ（スポーツアナリストがアスリートのパフォーマンスを追跡し、より詳細なモーションデータを抽出するために使用）を追加して、ほぼ同一のサウンドを区別します。

この作品は、コンピューターをよりよく聞くことができるように教える際の視覚的な手がかりの重要性と、より鮮明な視覚を与えるための音声の手がかりの使用を強調しています。現在の研究がミュージシャンの動きに関する視覚情報を使用して類似した音の楽器の部分を分離するのと同じように、以前の研究では音を使用して同じ種の類似したオブジェクトや動物を分離しました。

Torralbaらは、ペアのオーディオビデオデータでトレーニングされた深層学習モデルが、鳥のさえずりや岸に打ち寄せる波などの自然な音を認識することを学習できることを示しました。また、エンジンとホイールがマイクに近づいたり遠ざかったりする音によって、移動する車両の地理的座標を決定することもできます。

最新の調査によると、音声追跡ツールは自動運転車に便利な追加機能であり、視界の悪い状況でカメラを支援することができます。「サウンドトラッカーは、夜間や悪天候で特に役立ち、見逃されていた可能性のある車両にマークを付けるのに役立ちます」と、モーションとサウンドトラッキングの研究に携わったHang Zhao、Ph.D.'19は述べています。

音楽ジェスチャーのCVPR研究の他の著者は、MITのDengHuangとJoshuaTenenbaumです。

それで全部です。コースの詳細については、以下のリンクからオープンデーにサインアップすることをお勧めします。

続きを読む：

OpenCVとDeepLearningを使用してDobleをプレイするようにコンピューターに教えた方法

ミュージシャンの体の言語を研究することによってメロディーを認識する

続きを読む：

More articles: