😏 🏹 😅 4分間のスピーチから若いレオニードクラブレフの声をどのように再現したか 🥣 🚗 🏇🏾

こんにちは！私の名前はオレグ・ペトロフです。スピーチテクノロジーセンターのR＆Dグループの責任者です。私たちは長い間、音声認識だけでなく、音声の合成方法にも取り組んできました。ビジネスがこれを必要とする理由の最も簡単な例：音声ロボットが教えられる新しいシナリオごとに、かつてそれを声に出した人と一緒に新しい録音を整理する必要がないように。また、音声および顔のバイオメトリクスと音声データ分析に基づいた製品を開発しています。一般的に、私たちはさまざまなビジネスのために深刻で複雑なタスクに取り組んでいます。

しかし最近、Sberbankの同僚が、面白い話に参加するという提案を持ってやって来ました。新しいビデオでLeonidKuravlevのヒーローに「声をかける」ことです。彼にとって、クラブレフの顔は映画「イワン・ヴァシリエヴィッチが彼の職業を変える」のフレームから再現され、ディープフェイク技術を使用して別の俳優の顔に重ねられました。 2020年にGeorgesMiloslavskyを見るだけでなく聞くことができるように、私たちは同僚を助けることにしました。確かに、何年にもわたって、私たち全員の声は変化し、レオニード・ヴィアチェスラヴォヴィッチが主人公に声をかけたとしても、効果は同じではありません。

カットの下で、これはすでに多くの点でおなじみの音声合成のタスクであることが、予想よりも少し難しいことが判明した理由を説明し、そのような音声が高品質の生体認証システムを欺くことができない理由を説明します。

「IvanVasilievichが彼の職業を変える」は1973年にリリースされました。この10年間で、LeonidKuravlevは数十本のフルレングスの映画に出演することに成功しました。それにもかかわらず、これは私たちのタスクを決して単純化しませんでした：

キャラクターには長いモノローグがほとんどないかもしれません。
長編映画では、音響効果、背景音楽などが音声に重ね合わされます。
70年代の古い映画自体の音は、デジタル化されていても、欠陥があります。
俳優は常にキャラクターの話し方を調整し、さまざまな感情を表現しますが、ジョルジュ・ミロスラフスキーのキャラクターの話し方を繰り返す必要がありました。

そして、高いレベルの不確実性にもかかわらず、私たちはこのタスクを引き受けました、そしてこれは私たちがその解決策にアプローチした方法です。

TTSトレーニングのデータ収集

TTS（Text-to-speech）は、印刷されたテキストを音声に変換するためのテクノロジーです。現在、原則として深層学習手法のスタックに実装されており、他の手法に比べて合成音声の高音質を実現しています。たとえば、クリストファリスーパーコンピュータの機能を使用すると、モデルをわずか数時間でトレーニングできます。

音声素材の主なソースは、Leonid Kuravlevが参加した映画の音声フラグメントでした。「DeepRelatives」、「It Ca n't Be」、「Ivan Vasilyevich Changes Profession」、「VanityofVanities」です。映画のヒーローの登場のすべてのエピソードがTTSシステムを教える目的に適しているわけではありません。背景の音楽やノイズ、他の俳優のスピーチ、さまざまな非スピーチの兆候の存在を最小限に抑える必要があります。適切な断片を丹念に探した後、最大7分間のスピーチがあり、非常に表現力豊かで、レオニードが演じるキャラクターのキャラクターによって異なりました。さらに、各フィルムには独自の音響画像があり、これも知覚に大きな影響を与え、作業を複雑にします。

通常のパイプラインに従ってカットされた素材のテキストの文字起こしを準備した後、テキストの音声の文字起こしが作成され、オーディオトラックに合わせられました。話者がテキストを発音するときに実際に一時停止する場所を決定するには、音の上に一連の音を伸ばす必要があります。これらすべてのアクションは、音声認識部門から提供された独自の設計の言語プロセッサと音響モデルの助けを借りて実行しました。

レコード上の音符の正確な配置は、いわゆるアテンションモジュールが含まれている場合、シンセサイザーモデルにとってそれほど重要ではありません。アテンションメカニズムを使用すると、モデルをトレーニングして音符を個別に区別できますが、一時停止のマークアップははるかに重要です-まず、一時停止の長さは大きく異なる可能性があり、正確な長さを知ることで学習中の安定性を維持できます。次に、一時停止は多くの場合、構文境界の指標です-独立した構造単位のスピーチ-独立したステートメントの境界を描くことがしばしば可能です。これにより、長すぎるフレーズを短いフレーズに分割して、トレーニングプロセスでGPUメモリをより効率的に使用したり、可能なすべての分割オプションを列挙してデータセットをわずかに増やしたりすることができます。

データクレンジング

映画から可能な限りクリーンな録音を抽出しようとしましたが、それらのいくつかには、無関係な音（街の音、自然の音、水の音など）や音楽が含まれていました。

これを修正するために、2つのオープンソースプロジェクトを使用しました。音声品質を改善するためのモデル、生のオーディオ信号を直接処理するためのモデル、およびアルゴリズムです。楽曲を声、ドラム、ベース、その他の部分に分割するため。スピーカーの声を最高の音質でクリアに録音する必要がありました（TTSシステムの場合は22050 Hz）。特にそのような小さなトレーニングサンプルに関しては、アーティファクトは確かに話者の声の神経モデルに浸透します。リストされたプロジェクトのおかげで、収集された例の約半分で、品質を大幅に損なうことなく、音楽を音声から完全に分離することができました。

その結果、すべての操作を行った後でも、Leonid VyacheslavovichKuravlevの声で4分12秒の純粋なスピーチがあります。ちなみに、クラウドで聞くことができる戦闘アーキテクチャTTSが明らかになりました）はこの場合には適していません。ただし、手元にあったのは、逆自動回帰フロー（IAF）メソッドに基づいた、Flowtronと呼ばれるNVidiaの比較的新しい珍しいTTSモデルでした。

Flowtronモデルの主な機能は、さまざまなイントネーションとスピーチスタイルを使用して、同じテキストを発音するさまざまな方法を合成するために使用できることです。しかし、モデルによって生成された例は、知覚の点で常に適切であるとはほど遠いため、このプロパティは「両刃の剣」です。イントネーションは非常に急激かつ不自然に変化する可能性があり、ピッチ周波数（ボイスピッチ）は広範囲にわたって変化する可能性があり、面白いが不要なサウンドを作成します。トレーニングの初期データが多いほど、音声を生成するのがより自然で安定します。しかし、少量の材料でも、良い例を合成できる場合があります。私たちはそれらを手に入れることにしました。

まず、大規模な表現力豊かなデータセットでトレーニングされた既存のモデルは、新しい声で話すようにトレーニングする必要がありました。 4分12秒のデータをすべて取得して「フィード」すると、トレーニングの感度を調整するパラメーターに応じて、モデルはすぐに再トレーニングするか（非常にひどく話す）、または非常にひどく学習します（新しい声で話すこともありません）。 ..。また、パラメータの最適値を長時間、熱心に「キャッチ」することができます。新しいデータと古いデータを適切な比率（たとえば、10分の1）で混合することをお勧めします。次に、再トレーニングプロセスを開始する前に、新しいデータを適切に「吸収」する時間があります。それで彼らはそうしました、しかし最初に彼らはオーバーラップで一時停止の例を切りました、そしてそれはキーボードの指のわずかな動きで、4分のスピーチを23に変えます。

このように訓練されたモデルは、すでにアーティストの声で何かを合成することができましたが、20のうちの1つのケースで多かれ少なかれ適切な例が得られました。必要なスタイル、イントネーション、感情、音質を取得することも重要です。この場合、これらを制御することは非常に困難です。したがって、それらからいくつかの適切な例を手動で選択するために、数万の例を合成する必要がありました。

ここで、フローの正規化が役立ち、モデル自体がその上に構築されます。実際、Flowtronは、テキストが与えられた場合、同じ次元の通常の分布からポイントに音声信号の音響特性を表示することを学習し、この表示はリバーシブルです。合成中に、逆のプロセスが発生します（したがって、フローは逆になり、正規化されます）。したがって、レコードを取得し、モデルを使用して特定のポイントに表示し、これらのポイントから同じレコードを取得できます。役に立たない？あんまり！これらのポイントを別のレコーディングのポイントと慎重にミックスして、最後のポイントのスタイルを部分的に転送することができます。それらに少しノイズを加えて、オリジナルとは少し異なる、ほぼオリジナルの録音を得ることができます。しかし、ノイズをたくさん加えると、意味がなくなります。したがって、元のデータセットを乗算して、多くの類似したデータセットを取得できます。しかし、まったく同じ例ではありません！

ただし、この場合、モデルの品位に完全に依存することはできません。彼女はたくさんのものを合成することができます。複製されたデータセットのそのような数千の例を聞いて、高品質のものを専門的に選択する必要がありました。このアプローチは「耳のあるモデル」と呼ぶことができます。これにより、最初の23分から1時間のトレーニングデータを取得できました（一時停止によるスライスを考慮）。

この多段階のトレーニングスキームは実を結びました。その助けを借りて合成された例のほとんどはすでにかなり価値があるように聞こえましたが、それでも「ブルートフォース」が必要でした。 IvanVasilievichの例からのポイントを開始点に追加しました。どこかで古い映画や大きな部屋の効果が判明しました。または、フレーズはアーティストの声で出てきましたが、「ミロスラヴィアン」の方法では出ていませんでした。すでに数千のサンプルから「のみ」を選択する必要がありました。さまざまなスタイルとイントネーションを備えた、必要な短いフレーズの約300の例が判明しました。実際、Sberのプロモーションビデオのサンプルを選択しました。

このように、RTC音声合成チームで毎週一種のハッカソンを開催し、わずか4分の音声で50年前の声を再現することができました。私たちがテストしたテクノロジーは、非常に少量の素材から、長い間失われていた有名人の声を再現する機会を開きます。最終的に、これらすべてから何が生まれたのかがわかります。

これらすべてを読んだ後、アマチュアビデオを公開する一般の人、ビデオブロガー、またはソーシャルネットワークの一般ユーザーの声は簡単に偽造される可能性があるため、このような技術的能力はバイオメトリックシステムの信頼性に疑問を投げかけると思われるでしょう。 Leonid Kuravlevの合成された声は、耳では実際の声と見分けがつかないという事実にもかかわらず、それでも合成です。これは、声が生きていないことを示すような音の特徴が含まれていることを意味します。なりすまし防止とハッカーからの保護は、私たちのチームが2回以上優勝した世界大会を含む、特別な科学大会で頻繁に開催されます。..。MDGsでは、開発者は常に一歩先を行く必要があり、それらに基づいて新しいテクノロジーや製品を作成するだけでなく、達成されたものにとどまらず、常に新しい保護手段を探す必要があると考えています。

4分間のスピーチから若いレオニードクラブレフの声をどのように再現したか

TTSトレーニングのデータ収集

データクレンジング

More articles: