AIシステムがサウンドエンジニアリングの簡素化を目指す方法

今週末、私たちは2つのアメリカの大学の発展について話すことにしました。これは、サイレントビデオ用に十分に信頼できるサウンドスケールを生成するのに役立ちます。





サウンドを自由に使用できる写真/スプラッシュ解除



ノイズメーカーの難しい仕事



映画やテレビ番組のサウ​​ンド(たとえば、雨のざわめき)は、特定のフラグメントを撮影するときに、セットで正しい方法で録音するのは非常に困難です。異音が多く、俳優の声や他の機材との衝突が発生する可能性があります。このため、ほとんどすべてのサウンドは別々に録音され、編集中にミキシングされます。ノイズメーカーはこれを行っています



映画が壊れた窓の音を再現する必要がある場合、サウンドデザイナーはスタジオに行き、制御された音響条件下でガラスを割り始めます。録音は、音が画面上で起こっていることと一致するまで実行されます。特に難しいケースでは、これには数十回の反復が必要になる場合があり、フィルム作成のコストが複雑になり、増加します。



テキサス大学のエンジニアが提案した代替オプション。彼らは、フレームで何が起こっているかを検出し、自動的にスケールを提案するAIシステムを開発しました。



使い方



エンジニアは、IEEEでの作業でシステムがどのように機能するかを説明しました(PDF)。彼らは2つの機械学習モデルを設計しました。1つ目は、フッテージから画像の特徴(色など)を抽出します。2番目のモデルは、さまざまなフレームでのオブジェクトの動きを分析し、適切なサウンドを選択するためにその性質を決定します。



音響シリーズの形成のために、エンジニアはAutoFoleyプログラム開発しました。雨の音、時計のカチカチ音、疾走する馬など、何千もの短いオーディオサンプルに基づいて新しいサウンドを生成します。作業の結果は非常に説得力があります。





残念ながら、これまでのところ、システムにはいくつかの重大な制限があります。サウンドがビデオと完全に一致する必要がないレコーディングの処理に適しています。そうしないと、このビデオのように、非同期化が目立つようになります。また、MOモデルがオブジェクトを認識できるように、オブジェクトはフレーム内に常に存在している必要があります。現在、開発者は特許登録に従事していますが、その後、欠陥を修正する予定です。



他に誰がそのようなプロジェクトに関わっていますか



2016年、MITとStanfordの専門家は、サイレントビデオを発声できる機械学習モデルを導入しました。フレーム内のオブジェクトのプロパティ(マテリアルなど)に基づいてサウンドを予測します。実験として、エンジニアは、人が金属、土、草などのさまざまな表面でドラムスティックを打つシステムにビデオをアップロードしました。





開発者は、オンライン調査を使用してアルゴリズムの有効性を評価しました。最も現実的なのは葉と汚れの音であり(回答​​者の62%が本物と呼んでいた)、最も現実的ではなかったのは木と金属でした。金属は18%の確率で自然に聞こえました。



このシステムも改善する必要があります。オブジェクトが衝突したときに発生するサウンドを生成しますが、風のノイズの音響アレイを再現することはできません。さらに、オブジェクトの移動速度が速すぎると、アルゴリズムが失敗します。この事実にもかかわらず、そのようなソリューションには可能性があります-それらはノイズメーカーの仕事を簡素化し、映画産業を変革することができます。






« Hi-Fi»:



:

?

«, , »: ,

, :

«»:







All Articles